近日, 2019自然语言处理前沿论坛在京举办,主题为“机器之‘读、写、说、译’—— 探寻NLP未来之路”,包含语义计算、自动问答、语言生成、人机对话和机器翻译等话题,旨在促进产学研深度融合,推动自然语言处理技术进步。
百度高级副总裁、ACL Fellow王海峰博士在会上表示,“语言是人类思维和交流的载体,同时也是人类知识凝练和传承的载体。自然语言处理技术不仅仅需要算法、算力和数据,同时也需要不断地凝练知识,需要语言处理跟我们认识世界、改造世界的过程相结合,所以仍然有很多创新突破的空间。”
“自动问答”专题了探讨机器的“阅读”能力,即让机器阅读文本,然后回答和阅读内容相关的问题。机器阅读理解可以使机器具备从文本数据中获取知识并运用知识的能力,是问答领域的关键技术之一。
中科院自动化所副研究员刘康介绍了文本阅读理解的基本框架和方法。他表示,“构建合理的数据集对于阅读理解任务非常重要,而如何更好的融合知识是未来的重要研究方向。”
百度资深研发工程师刘璟则介绍了深度融合文本表示与知识表示的模型KT-NET,以及百度发布的面向真实应用的中文阅读理解数据集DuReader 2.0。基于此数据集,百度、中国计算机学会和中文信息学会连续两年举办了机器阅读理解评测,共同推动中文阅读理解技术的进步。
“语言生成”专题聚焦“如何让计算机像人一样使用自然语言进行表达和创作”。
“自然语言生成目前面临两大挑战,首先是对生成文本的质量评估,其次是平行数据的缺失。如果这些问题解决了,将极大地推动自然语言生成的发展。另外,目前的文本生成与人类还有较大差距,尤其是在综合利用知识的方面。”北京大学万小军教授介绍了自然语言生成(NLG)技术和应用的最新进展。
百度主任架构师肖欣延介绍了百度在语言生成技术方面的创新和应用,提出了基于规划、基于信息选择、端到端等多种模型,在文章生成、摘要生成、诗歌生成等任务上取得良好效果。此外,百度还推出了智能写作平台,通过提供自动写作和辅助写作能力,提升内容创作的效率和质量,为智能创作领域提供更多可能。