达观数据是一家为企业提供各类场景智能文本机器人的国家高新技术企业,荣获中国人工智能领域最高奖“吴文俊人工智能奖”、2021被评为行业首家国家级专精特新“小巨人”企业,2021入选福布斯科技创新50强;连续入选国际权威咨询集团IDC 创新者、毕马威金融科技50强;曾荣获共青团中国青年创新创业大赛总冠军、ACM CIKM 算法竞赛全球冠军、EMI Hackathon 数据竞赛全球冠军、全球三十大最佳创业公司、中国人工智能科技创新Top 50等众多荣誉资质。
达观数据利用先进的自然语言处理(NLP)、智能文档处理(IDP)、光学字符识别(OCR)、机器人流程自动化(RPA)、知识图谱等技术,为大型企业和政府机构提供文档智能审阅、文字识别、智能写作、办公流程自动化、企业级垂直搜索、智能推荐等智能文本机器人产品,让计算机协助人工完成业务流程自动化,大幅度提高企业效率与智能化水平。
达观总部位于上海张江科学城,在北京、深圳、成都、苏州、郑州等全国各地成立子公司,服务团队遍及全国。团队由来自腾讯、盛大、百度、阿里等知名企业高管和技术专家组成,技术积累深厚,申请有 100 余项发明专利,成功通过国际权威机构的软件成熟度 CMMI5 最高等级认证,出版发表三本人工智能领域著作和数百篇技术论文,其中《智能 RPA 实战》是业界首部系统性介绍 RPA+AI 的专著。
达观数据已获得中信、招商、广发和中信建投在内的四家中国头部券商投资,及深创投、宽带资本、软银赛富、真格基金、联想之星、元禾重元、方广资本、钟鼎资本、众麟资本等著名机构的数亿元C轮投资,刷新了中国自然语言处理与知识图谱领域的融资记录。
达观数据已与北京大学、复旦大学、上海交通大学、同济大学、上海外国语大学、中央财经大学、西南财经大学等高校建立联合研究实验室和产学研合作,是中文知识图谱 OPENKG 的创始成员、设立了上海文本智能处理重点实验室和院士专家工作站,聘请复旦大学黄萱菁教授担任首席专家,积极参与中国计算机学会、人工智能学会、中文信息学会的学术交流,并承担了工信部文本处理相关行业标准的制定工作。
一、经典客户案例
1. 上海银行
上海银行把数字化转型作为新一轮发展规划主线,引领未来发展。全力推进金融科技建设与应用,深化科技与经营管理深度融合,提升客户服务能力及经营管理能级。
为了响应我行新三年战略规划,加快全行创新,赋能金融服务提质增效,提升信贷审批的智能化能力。上海银行于2020年起先后提出财报OCR项目、证照OCR项目、合同OCR项目、人工智能审单项目。项目拟在风险领域引入OCR、NLP、文档分析等人工智能技术,在事前影像录入、事中合同放贷审批、事后证照监督进行信贷全流程人工智能建设。我行于2020年6月完成统一影像识别平台搭建,同年7月完成财报OCR项目建设,2021年3月完成证照OCR项目建设,2021年7月完成合同OCR项目建设,2022年1月完成人工智能审单项目建设。
基于微服务架构及中台化思路,建设统一影像识别智能中台,用于接入不同文件类型的OCR识别模型,为上游业务系统提供OCR识别标准接口,保证平台高可扩展性。同时实现对多种OCR服务的监控、限流、负载均衡,安全访问控制等功能,统一进行管控。目前我行在信贷业务、柜面业务、国际结算、前后台集中运营、网络金融等领域完成OCR识别建设,涉及财务报表、标准证照、业务凭证、采购合同、跨境业务申请书等30种文件类型的识别,涉及渠道或应用系统达37个,平均人工替代率达80%以上。
2. 中原银行
中原银行推出“智能数字化劳动力”项目,打通数字化“最后一公里”,进而更深层次的实现企业成本结构优化,以行内企业级机器人流程自动化平台和AI中台为依托,整合丰富的AI服务能力,实现RPA+AI的有机融合和统一管理。通过IP建设、组织建设、场景建设、AI建设四大板块,构建企业级数字化劳动力生态体系,把智能数字化劳动力沉淀到行内各个流程,真正贯彻“科技服务业务发展、服务一线员工、服务客户需求”的战略目的。
中原银行以建设数字化未来银行为初心,始终秉承“科技立行、科技兴行”的发展理念,坚定推进打造科技银行、数据银行与智慧银行的战略使命。自全面启动数字化转型以来,产品迭代速率大幅提升,快速响应市场变化;智能模型服务在精准营销、风险管控与提升客户体验方面成效显著。
AI+RPA智能化服务,实现客户准入、应付核算、企业自动年检、项目报销、发票验真等场景,年节省人力成本1500人工作量。其中AI能力展现了巨大的价值:OCR识别、图片识别等技术应用于柜面交易、信贷审核、信息补录等领域, OCR模型识别日调用量10+万次,OCR识别准确率都在90%以上。利用NLP技术对客户画像进行集中度校验,提升反欺诈水平,地址解析准确率达99%以上,日均调用次数近30万+笔,日拦截欺诈申请近百笔。依托语义计算能力,赋能客服质检、客服知识库优化等场景,效率提升95%以上,实现了客服质检全覆盖、精准营销闭环化、知识优化自动化。依托文本分类与实体识别技术,服务于信贷解析与风险建模,助力信贷场景智能化建设;风险要素解析准确率达到90%,填补了信贷风险建模行业空白。利用NLP技术实现数据资产智能分级,助力客户行为追踪,构建数据安全防护墙,模型准确率在95%以上,已累计实现标签分级近20万个。
3. 兴业银行
投行业务中,银行流水分析是识别和预警风险的有效途径之一。为保证流水真实性,业务人员往往需要重点审核银行流水往来单据。
但在投行项目组的实际工作中,所收集的银行流水数据量大,时间跨度长,各家银行的版式不统一,人工核查时单纯处理流水耗时耗力,证监会对银行流水的核查也提出了更高的要求。如何高效率完成银行流水的真实性和完备性的校验、对重要数据进行统计和分析、准确识别其中的风险成为投行从业人员面临的重要挑战。
兴业证券于2021年9月开始,联合“文本智能处理专家”达观数据着手搭建一套适用于兴业证券的银行流水智能识别审核平台,以科技手段帮助提升审核效率,实现流水审核作业智能化、简易化和自动化。经过近3个月开发、部署、系统对接、测试等工作,系统于2021年11月正式上线。借助该审核平台,对尽调主体的银行流水及实体信息进行管理、银行流水数据的汇集整理及格式规范统一,系统内嵌大量的业务审核规则,包括完整性、异常交易、大额交易、频繁交易、资金流向追踪等,帮助投行业务人员提升银行流水智能化分析及风险提示等方面的工作效率。
挑战:
首先,银行流水版式多种多样,且扫描件中常存在倾斜、旋转、透视、褶皱等图片质量不佳的情况,以及印章遮盖进而影响系统识别效果;其次,复杂表格解析一直是行业难点,尤其是银行流水的表格,各银行打印的流水版式错综复杂,很多银行的流水样式为无边框表格,信息存在跨行、跨列的问题,通用表格解析模型无法满足识别准确度的要求,进一步增加了识别难度;第三,随着监管要求不断严格,银行流水核查的规则需不断升级,这就要求平台需具备开放性及可扩展性,不断紧跟监管要求进行系统升级迭代。
应对方案:
为了解决上述问题,兴业证券联合达观数据,在图像处理、复杂流水版式还原、流水审核广度及深度等方面实现了突破。
a、基于计算机视觉技术的图像预处理。基于积累的大量投行文档样本,对输入图片进行平移矫正、旋转矫正、倾斜矫正,透视矫正,灰度变换等技术对图像进行自动纠偏、去噪、图像自动旋转,能适应各类版面、旋转、扭曲、复杂背景、光照、模糊场景下的文字检测识别。
b、基于深度学习模型银行流水结构还原。创新性的在传统表格识别模型中融入了文档结构识别技术,设计并实现了一种基于OpenCV和Faster R-CNN深度学习模型的表格抽取算法,综合文档的文本、布局和图像信息、让计算机像人一样理解银行流水信息、进一步还原交易流水行列表格。
c、拓展业务审核广度及深度。紧跟最新监管要求,内嵌大量的业务审核规则,包括完整性、异常交易、频繁交易、交易流水流向链式追踪等,并可对接外部工商数据,获取股权穿透信息,与系统识别出的银行流水数据进行交叉匹配,从而进行全面的关联方资金流水穿透核查,深入挖掘潜在的风险点,满足日趋严格的监管要求。
d、支持业务规则扩展,具备完整的闭环业务流程。本项目提供了从流水文档OCR识别-人机交互复核-归一化处理-智能核查-结果输出整个业务闭环流程,并提供界面化的自定义标注平台适应新增的流水版式,同时也提供界面化业务规则管理功能,持续满足业务部门的银行流水识别及核查需求。
4. 东莞证券
东莞证券股份有限公司成立于1988年6月22日,注册资本15亿元,是东莞市属国有控股重点企业,也是全国首批承销保荐机构之一。30多年来,东莞证券以经纪、资管、投行三大业务为核心,积极发展证券自营、私募基金、另类投资等业务,已成为全国性综合类证券公司。目前,东莞证券在全国范围有逾3000名员工,旗下分支机构达93家(其中营业网点91家,上海分公司1家,深圳分公司1家),另全资拥有东证锦信投资管理有限公司、东莞市东证宏德投资有限公司,并参股华联期货有限公司。
在投行项目组的尽职调查工作中,所收集的底稿文件数据量大,时间跨度长,版式不统一,且大多为扫描件或照片,其中银行流水的核查压力十分突出,人工核查时需要肉眼识别,同时手工录入进行筛选核查,无法直接准确获取所需信息,单纯处理流水的时间可能长达数月,耗时耗力,并且易产生疏漏,导致核查工作的不充分,从而可能引发监管关注甚至处罚。注册制的全面推广进一步压实了投行项目组对尽调材料核查的责任,对投行业务提出了更高标准的要求。在此背景下,利用智能科技赋能投行尽调业务成为必然选择。借助领域OCR、版面解析、表格解析、风险分析模型等技术能力,可极大提升投行项目组对发行人进行风险核查的效率,进一步提升投行业务竞争力。
通过建设该项目,实现投行项目尽调工作的线上化和智能化,将投行项目人员从繁琐的银行流水识别与审核工作解放出来,使其更专注于对发行人尽职调查工作本身。平台上线后识别银行流水文件2600多份,完成项目100多项。截止4月4日,发现账户缺失错误1403项,表头缺失错误2710项,金额不平错误62247项,日期格式错误19104。系统流水文件识别、对手方分析初步估算提高流水审核工作效率超50%,智能审核能有效识别错误,达成提质增效,降低风险的目标。
二、产品优势