有关数据集调研和介绍

数据集
20Newsgroups
任务数据集描述语言
对话式问答(Conversational Question Answering, CQA)CoQACuQA基于给定文档的多轮问答,无需检索,短文。英文
CQAOR-QuAC, MultiDoc2Dial基于多文档的多轮问答,需要检索,长文和多短文。英文
CQAINSCIT面向信息检索的多轮多文档问答英文
CQA【CCL 2020】多轮对话问答数据采集平台未公开,已发邮件,长文,3000字以内,CCL2020中文
机器阅读理解(Machine Reading Comprehension, MRC)
ChineseSquad
单轮机器阅读理解。有一类做法是将数据集进行翻译为中文,本数据集便是从SQuAD翻译过来的中文数据集。
MRCCAIL大赛阅读理解数据集,DuReader前者是最高人民法院司改办指导举办的中国法律智能技术评测大赛(每年都有,2021年有阅读理解任务),后者是百度在2018年机器阅读理解大赛上构造的数据集。中文