多模态自动文摘数据集使用说明和申请表

1 引言

随着多媒体信息（包括文本、图像、音频以及视频）的激增，用户在这些多媒体信息中高效地获取重要信息的难度日益剧增。多模态自动文摘旨在针对某一特定主题的多段文本、多个图片以及多段视频自动生成文本摘要。

1.1 数据集概述

不同于同步多模态数据（例如电影），我们的数据集由异步多模态数据（即图片没有对应的文字叙述、视频没有相应的字幕等）构成。我们的数据集以多个中英文新闻主题为中心，包含围绕同一个主题的多个新闻文档、新闻配图以及新闻视频，用于生成固定字数限制的中英文文本摘要。

1.2 数据集构建

我们选取了近5年的50个新闻主题，其中中英文各25个。对于每个主题，我们收集了同一个时间段的20篇新闻文档和5-10段新闻视频。我们参考DUC和TAC评测标注了人工参考摘要。10名研究生参与了语料标注，他们被要求首先阅读同一个主题的新闻文档和视频新闻，然后生成人工摘要。每个主题有三个参考摘要，分别由三个标注者独立完成。以下是标注准则：（1）保留新闻文档和视频新闻的重要信息；（2）避免冗余性信息；（3）可读性好；（4）满足字数限制（中文500字，英文300词）。以下是一些新闻主题的例子：（a）“东方之星”客船翻沉（b）银川公交大火（c）抗议“萨德”反导系统（d）李娜澳网夺冠。

更多细节请查阅我们EMNLP2017的文章。

2 版权声明

本数据集版权归本文作者所有。本数据集仅用于科研用途，禁止复制、传播、发布或出版。如果您对我们的数据集感兴趣，请参照下列格式填写并发送到haoran.li@nlpr.ia.ac.cn或junnan.zhu@nlpr.ia.ac.cn。我们将会给您提供下载链接。如果您有任何疑问，请立即与我们联系。

3 申请表

姓名:___________________

单位:___________________

地址:___________________

邮箱:___________________

日期:___________________

□ 我已阅读并同意以上条款

签名:___________________