有关数据集调研和介绍

2022-08-09 2022-08-09 约 363 字预计阅读 1 分钟

文本哈希

任务	数据集	描述	语言
对话式问答(Conversational Question Answering, CQA)	CoQA，CuQA等	基于给定文档的多轮问答，无需检索，短文。	英文
CQA	OR-QuAC, MultiDoc2Dial等	基于多文档的多轮问答，需要检索，长文和多短文。	英文
CQA	INSCIT	面向信息检索的多轮多文档问答	英文
CQA	【CCL 2020】多轮对话问答数据采集平台	未公开，已发邮件，长文，3000字以内，CCL2020	中文
机器阅读理解（Machine Reading Comprehension, MRC）	ChineseSquad	单轮机器阅读理解。	有一类做法是将数据集进行翻译为中文，本数据集便是从SQuAD翻译过来的中文数据集。
MRC	CAIL大赛阅读理解数据集,DuReader	前者是最高人民法院司改办指导举办的中国法律智能技术评测大赛（每年都有，2021年有阅读理解任务），后者是百度在2018年机器阅读理解大赛上构造的数据集。	中文