多模态自动文摘数据集使用说明和申请表

目录

1 引言

随着多媒体信息(包括文本、图像、音频以及视频)的激增,用户在这些多媒体信息中高效地获取重要信息的难度日益剧增。多模态自动文摘旨在针对某一特定主题的多段文本、多个图片以及多段视频自动生成文本摘要。

1.1 数据集概述

不同于同步多模态数据(例如电影),我们的数据集由异步多模态数据(即图片没有对应的文字叙述、视频没有相应的字幕等)构成。我们的数据集以多个中英文新闻主题为中心,包含围绕同一个主题的多个新闻文档、新闻配图以及新闻视频,用于生成固定字数限制的中英文文本摘要。

1.2 数据集构建

我们选取了近5年的50个新闻主题,其中中英文各25个。对于每个主题,我们收集了同一个时间段的20篇新闻文档和5-10段新闻视频。我们参考DUC和TAC评测标注了人工参考摘要。10名研究生参与了语料标注,他们被要求首先阅读同一个主题的新闻文档和视频新闻,然后生成人工摘要。每个主题有三个参考摘要,分别由三个标注者独立完成。以下是标注准则:(1)保留新闻文档和视频新闻的重要信息;(2)避免冗余性信息;(3)可读性好;(4)满足字数限制(中文500字,英文300词)。以下是一些新闻主题的例子:(a)“东方之星”客船翻沉(b)银川公交大火(c)抗议“萨德”反导系统(d)李娜澳网夺冠。

更多细节请查阅我们EMNLP2017的文章

2 版权声明

本数据集版权归本文作者所有。本数据集仅用于科研用途,禁止复制、传播、发布或出版。如果您对我们的数据集感兴趣,请参照下列格式填写并发送到haoran.li@nlpr.ia.ac.cnjunnan.zhu@nlpr.ia.ac.cn。我们将会给您提供下载链接。如果您有任何疑问,请立即与我们联系。

3 申请表

姓名:___________________

单位:___________________

地址:___________________

邮箱:___________________

日期:___________________

我已阅读并同意以上条款

签名:___________________

Author: Junnan Zhu

Created: 2017-11-06 Mon 14:58

Validate