专访达观数据创始人CEO 陈运文:文本智能处理,未来潜力无穷

admin 2018-09-29 23:10:24 导读

导读 : CIO时代记者于近日对达观数据创始人&CEO 陈运文进行了深度人物专访。...

  据了解,达观数据最近研发的文档智能审阅系统,是国内第一款能够替代人类完成文档智能化处理的一个合同管理产品。审阅处理分析的精度现在已经接近普通白领的水平,现在一台系统差不多可以代替专业人员接近20个的合同处理,效率大幅提升。针对于此,CIO时代记者于近日对达观数据创始人&CEO 陈运文进行了深度人物专访。
 

\

达观数据创始人&CEO陈运文接受采访现场

 

  文本智能分析在不同行业的应用场景及影响
 

  陈运文表示,在各行各业的日常工作中都离不开文字,比如医疗机构的病历处方、金融机构各种各样交易的合同票据等,每天的工作记录差不多有1/3的时间在和文字打交道。能不能把这些大量的耗费在文字上面的工作自动化,让计算机代替人去做,这件事情会特别有价值。

 

  像金融、医疗、人事、财税、教育领域等等,用达观的智能化处理系统,能够把这些工作自动化找出其中的规律。让计算机去模拟人日常工作的处理过程。比如在做一个文档审核的时候,有很多审核的标准和要求,人按照要求去完成,给出批改意见,生成一个新的文档。那么我们让计算机学习输入和输出,输入的是一个原始的文档,输出的是一个修改过的一个结果。学习人的过程,反复强化训练以后,计算机就可以代替人来完成同样的这些工作。达观的技术在未来将会大幅度的被应用。甚至在军事情报领域,计算机保密程度比人要高得多,而且可以更高效率地处理这些文字内容。

 

  机器自动识别与人工处理的关系

 

  书面文本在文字纠错方面,和人相比,机器有两个优势:一是机器阅读文字的速度比人要快得多,测算过现在一台计算机的阅读速度是人的500倍;二是有很多的工作是特别重复性的,这些工作让人来做非常的辛苦,费时费力。那么可以让计算机去承担一些繁琐、机械的文字处理,让人去做那些更有创造性的工作。

 

  纠错是其中一个比较典型的应用场景,比如在文章中找错误,人来做这件事情效率很低。2000字的文章,人类反复可以看十几遍,没有任何一个人能把十个错别字完完整整的找出来。但是计算机在找错误这件事情上,一秒钟就可以全部找齐。人和计算机相比,在做这些重复的机械审阅上有一个巨大的差异所在。

 

  达观数据在文本处理领域的核心竞争力

 

  达观数据的核心竞争力主要体现在三个方面:一是在书面文字的自动化处理,其技术是中国最强的。文字处理看上去不难,但深入进去做其实特别难,因为文字的意思是浓缩的,让计算机去理解符号背后表达的含义,需要做非常多的技术攻关;二是产品化程度非常高,因为一个底层的技术,到客户的真正想要用的一个系统,中间的跨越很大,达观有很好的产品去缝合它,能让客户直接拿来用。比如开发的系统能够代替人工做信息的抽取,自动帮他们填表,开箱即用;三是在新技术研发方面做了非常多的工作,联合复旦大学、中国计算机学会,做了很多产学研的合作课题。

 

  文字在不同的情景下,它的词性也不一样,要怎么处理灵活性?人阅读文字和理解文字的各个方面都不一样,怎么统一去标准?今天达观是教计算机用同样的方式去理解文字,构建了知识图谱,让计算机去理解各种各样的知识点以及概念之间的关系。可以真正理解了文字内容以后,它就可以代替一些人来完成日常的工作。

 

  智能文档取代人工,白领会失业吗?

 

  政府有大量的文档资料,用文档智能化处理器代替公务员去完成这些工作,将来公务员是否会失业?对此,陈运文说到:“在一百多年以前当汽车刚刚发明时,最着急的是当时的马车司机,因为当时觉得汽车有了,就不要马车了,那这些马夫就没用了。但今天全世界跑的到处都是汽车,已经没有马车了。那个时候,马车司机去做一些更有意思的事情。这些真的是人擅长做的事情,不用担心,当有一些繁琐的文档处理工作消失以后,未来将会出现更多真正有意义的工作。”

 

  陈运文向记者说到,现在积极地把达观的技术和各行各业的文档处理需求结合在一起,让计算机能够更快的代替或者减轻人的工作负担。在接下来的五年之内,希望能够在更多的行业里面,部署上达观的文档智能处理器,让更多的更智能的系统去解放人类的双手和大脑。术业有专攻,图片、语音、文字其实相当于人的眼睛、耳朵、大脑等等,达观聚焦在文字的自动化处理,未来延伸也会围绕文字展开。比如说各种行业的问题,各种承载文字的方式,不管是一个word或pdf,还是一个纸质的扫描件,都可以自动化处理。

 

  NLP在AI以及大数据分析领域的发展趋势

 

  最近几年, 自然语言处理技术在学术界非常火,发展速度非常快。达观也是追赶全世界最前沿的技术,把它引入到中文的文档中。达观最近刚刚参加了最高人民法院举办的中国司法裁判文书的智能化处理的比赛,在比赛里面取得了非常优异的成绩。让计算机去阅读这些案件的案情描述,阅读完了以后,计算机就像一个法官的助理一样,可以告诉你,案件匹配哪些条款,案件历史上面类似的案件是怎么样的一个判罚结果。根据相应的法律法规的条款,关于案件的最终判罚给出一个建议。计算机的系统是站在一个非常公平公正的角度,客观的去评价它,尽可能多的排除了个人因素的干扰。

 

  对于一个白领,一个业务来了,计算机可以给你各种建议,合同哪个地方可能有点风险,哪个地方可能要改,历史上以前是怎么写的,其实都是计算机来做的事情。以后可能媒体记者在遣词造句的时候,计算机可以给你很多建议。这些都是计算机帮你来更好地运用文字。很多政府的公务员工作当中行政审批审核等,可以让计算机作为一个助理来发挥作用,它可以按照规章办事,给出客观公正的一个标准。

 

  文字和各行各业的知识紧密结合在一起的,每个行业都有自己沉淀下来的一些知识结构。达观的系统在部署到各行各业的时候,首先会去挖掘行业的历史上面的资料,让计算机去做阅读分析,构建出行业领域专用的知识图谱。之后结合算法技术,就可以像行业里面的专业员工一样去采集,训练出来各个行业专用的文字资料,然后去处理。处理枯燥的工作,人的效率会急剧的下降,比如说写文章就一个要求,不能出错别字,全身贯注的时候可以,但是一旦疲劳了,绝对会写错的。计算机的状态比人要稳定得多,特别适合来做重复繁琐的这些工作。7×24小时工作,白天干出来的活,晚上同样能干,人不一样。

 

  专注做好一件事,本身就是一件很酷的事

 

  目前,文档智能审阅系统是一个新的系统。以前并没有,达观需要告诉客户今天有这样的一个技术,它能够代替人来进行文档资料的阅读理解和后面的处理工作。作为开拓者,就必须要披荆斩棘去做很多工作,引领市场,就像世界上第一个卖手机的厂商。很多时候需要告诉客户,原来几百号员工干的这些活,现在几台服务器就能都帮你干了,达观数据在不断告诉大家新系统是干什么的,有什么用,可以做到什么样。陈运文认为,在中国,企业服务是一个慢工出细活的事情,它和像火箭一样、爆发式增长的很多行业还不太一样,要小火慢炖,慢慢把一个产品从无到有地打造出来。很多的大型企业,也需要一点一点的接受新的技术的变革,给他们新的产品、运营方式。要耐得住寂寞,能够扎扎实实的把技术做好,让市场慢慢的成长起来。

 

  他最后表示,CIO其实是很多企业里面直接决策或真正了解企业需求的人。达观数据的文本智能系统,和前20年的ERP管理信息系统还不太一样,希望把达观的理念和带有智能化技术的新系统传达给CIO,让其能够在企业里面发挥作用。

 

  一名理科男的情怀

 

  陈运文的性格是一个比较和善、儒雅、有亲和力的人。公司取名达观有两个原因:一是寓意通达乐观,第二,公司的英文名称Datagrand就是大数据的英文。

 

  公司的基因跟创始人还是密不可分的,作为CEO,陈运文也是技术出身。现在公司有200多人的规模,达观数据有超过六成的都是研发工程师。总部在上海的张江高科技园区,也是计算机人才非常聚集的地方。除了在华北地区有分布,在深圳也有华南地区的分布,在成都有西南地区,马上在西安会有西北地区的分布,在中国五个区域都有了分公司。

 

  陈运文表示,创业的初衷也是因为一直在做文本挖掘相关的技术,最早在复旦大学读的博士,毕业以后在百度、盛大、腾讯工作,一直是做核心技术的研发工作。文字自动化处理是一件非常有价值的事情,但是在中国大量的企业里面,直到今天为止都没有很好。所以有很大的需求和很好机会,创办达观也是希望能够用尖端的技术,更好地服务中国企业,让企业的运营效率能够大幅度提高,把繁琐的一些文字相关的工作实现自动化。在2015年的时候,毅然放弃了大公司的优厚待遇,坚定的选择了创业这条路。

 

  人物链接

 

  陈运文,观数据创始人& CEO。复旦大学博士,知名计算机技术专家,国际计算机学会(ACM)和电子电器工程师学会(IEEE)会员,中国计算机学会(CCF)高级会员,上海浦东“百人计划”专家和政协委员,上海市优秀博士论文奖获得者;在人工智能领域有30余项国家发明专利,多次参加国际数据挖掘竞赛并获得冠军荣誉,译著有人工智能教材《智能Web算法》;曾担任盛大文学首席数据官、腾讯文学高级总监、百度核心技术研发工程师。在机器学习、自然语言处理、搜索推荐等领域有丰富的研究和工程经验。


第二十七届CIO班招生
北达软第一期EXIN隐私与数据保护基础认证培训
法国布雷斯特商学院MBA班招生
法国布雷斯特商学院硕士班招生

责编:pingxiaoli

本站所收集的资源来源于互联网公开资料,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。本站部分作品是由网友自主投稿和发布,本站仅为交流平台,不为其版权负责。

上一篇:上海将从四方面持续扶持新材料产业
下一篇:全国第三家互联网法院落户广州,有何新看点?

热门tag