多模态句子摘要数据集使用说明和申请表

1. 引言
2. 数据集构建
3. 版权声明
4. 申请表格式

1 引言

多模态句子摘要系统旨在针对和某个新闻事件相关的句子-图片对生成一个摘要。直观来说，相对于一个长句子，人们对一副图片理解起来更容易。因此我们认为，图片可以帮助机器理解新闻事件。

2 数据集构建

我们的语料的每一个实例是一个（句子，图片，摘要）三元组，其中句子-摘要对来自Gigaword语料，图片来自雅虎图片搜索。Gigaword 语料提供了三百八十万句子-摘要对，对于每一个句子，我们利用雅虎搜索，爬取排名前五的图片。在这些图片里，我们首先删除了明显的无意义的图片，包括人物肖像、搜略图和广告等等。接下来，我们人工在剩余的图片中，为每一个句子选取最匹配的一个图片。我们一共标注产生了66,000个实例，划分62,000个实例作为训练集， 2,000 实例作为测试集，2000实例作为开发集。更多细节请参考我们IJCAI2018的文章。

3 版权声明

本数据集版权属于本文作者。本数据集仅用于科研用途，禁止复制、传播、发布或出版。如果您对我们的数据集感兴趣，请参照下列格式填写并发送到haoran.li@nlpr.ia.ac.cn。我们将会给您提供下载链接。如果您有任何疑问，请不要犹豫立即与我们联系。

4 申请表格式

本数据集版权属于本文（(Haoran Li, Junnan Zhu, Tianshang Liu, Jiajun Zhang and Chengqing Zong. Multi-modal Sentence Summarization with Modality Attention and Image Filtering. In Proc. of IJCAI-2018, pages 4152- 4158）作者。本数据集仅用于科研用途，禁止复制、传播、发布或出版。

□ 我已阅读并同意以上条款

姓名:___________________

单位:___________________

地址:___________________

邮箱:___________________

日期:___________________

签名:___________________

多模态句子摘要数据集使用说明和申请表

Table of Contents

1 引言

2 数据集构建

3 版权声明

4 申请表格式