中国科学院自动化研究所   设为首页   加入收藏  联系我们
 
English
网站首页     实验室概况     研究队伍     组织机构     学术交流     科研成果     人才培养     开放课题     创新文化     资源共享     联系我们
    学术交流

微软亚洲研究院首席研究员林钦佑老师为自动化学子作“数据到文本”精彩报告

2017年10月23日,微软亚洲研究院首席研究员、研究经理和知识计算组主任林钦佑老师到访自动化所模式识别国家重点实验室,为师生们作题为“数据到文本——从结构化数据中自动生成文本”(Data2Text – Automatic Text Generation from Structured Data)的精彩分享,报告由模式识别国家重点实验室赵军研究员主持。

林钦佑老师围绕“结构化数据自动生成文本”主题,首先以购物网站产品结构化数据的文本描述为例,统计发现,目前11%的产品只有结构化数据,没有描述信息,现有的描述信息50%不足30个词,难以得到产品的详细信息,林老师还将“数据到文本”的应用场景扩展到篮球赛况播报、会议概况、chatbot(聊天机器人)的结构化数据生成文本,从统计数据和应用场景说明这一主题的重要性。接着,林老师比较了“数据到文本”两种技术手段:生成模型和模板方法,生成模型语言流畅度,不能保证正确性,模板方法能同时保证准确性和流利度,此外限定领域的模板容易获取,因此广泛用于工业产品。随后,林老师重点介绍了这一任务的四个重大挑战:知识(knowledge)、多样化(variety)、视野(insight)、情境(contextual),详细解释了这四个挑战的具体内容,并提供了可能的解决方案。接下来,林老师介绍了他们研发的“Data2Text Service”,从“说什么”到“怎么说”两个角度,讲解了属性排序、模板选择、属性依赖、知识写入等步骤。最后,林老师介绍了“数据到文本”任务的评价,重点分析了现有评价标准的缺陷,并期望提出自动、有效的评价指标。

现场互动环节,在场师生对该研究领域表现出浓厚的兴趣并踊跃发言提问,林老师一一耐心细致解答,并再次强调知识和评估方法在文本生成中的重要性。

林钦佑老师的报告深入浅出、干货满满,与会师生获益匪浅。此次报告,进一步加深了大家对结构化数据和文本生成的认识和理解,为今后的研究和工程实践提供了借鉴和启发。

 

 

 

 

 

 

 

 

友情链接
 
中科院自动化研究所 模式识别国家重点实验室
NLPR, INSTITUTE OF AUTOMATION, CHNESE ACADEMY OF SCIENCES