多模态句子摘要数据集使用说明和申请表

Table of Contents

1 引言

多模态句子摘要系统旨在针对和某个新闻事件相关的句子-图片对生成一个摘要。直观来说,相对于一个长句子,人们对一副图片理解起来更容易。因此我们认为,图片可以帮助机器理解新闻事件。

2 数据集构建

我们的语料的每一个实例是一个(句子,图片,摘要)三元组,其中句子-摘要对来自Gigaword语料,图片来自雅虎图片搜索。Gigaword 语料提供了三百八十万句子-摘要对,对于每一个句子,我们利用雅虎搜索,爬取排名前五的图片。在这些图片里,我们首先删除了明显的无意义的图片,包括人物肖像、搜略图和广告等等。接下来,我们人工在剩余的图片中,为每一个句子选取最匹配的一个图片。我们一共标注产生了66,000个实例,划分62,000个实例作为训练集, 2,000 实例作为测试集,2000实例作为开发集。更多细节请参考我们IJCAI2018的文章

3 版权声明

本数据集版权属于本文作者。本数据集仅用于科研用途,禁止复制、传播、发布或出版。如果您对我们的数据集感兴趣,请参照下列格式填写并发送到haoran.li@nlpr.ia.ac.cn。我们将会给您提供下载链接。如果您有任何疑问,请不要犹豫立即与我们联系。

4 申请表格式

本数据集版权属于本文((Haoran Li, Junnan Zhu, Tianshang Liu, Jiajun Zhang and Chengqing Zong. Multi-modal Sentence Summarization with Modality Attention and Image Filtering. In Proc. of IJCAI-2018, pages 4152- 4158)作者。本数据集仅用于科研用途,禁止复制、传播、发布或出版。

□ 我已阅读并同意以上条款

姓名:___________________

单位:___________________

地址:___________________

邮箱:___________________

日期:___________________

签名:___________________

Author: Junnan Zhu

Created: 2018-07-22 Sun 18:38

Validate