有关数据集调研和介绍
目录
文本哈希
数据集 | ||
---|---|---|
20Newsgroups | ||
基于文档的多轮问答
任务 | 数据集 | 描述 | 语言 |
---|---|---|---|
对话式问答(Conversational Question Answering, CQA) | CoQA,CuQA等 | 基于给定文档的多轮问答,无需检索,短文。 | 英文 |
CQA | OR-QuAC, MultiDoc2Dial等 | 基于多文档的多轮问答,需要检索,长文和多短文。 | 英文 |
CQA | INSCIT | 面向信息检索的多轮多文档问答 | 英文 |
CQA | 【CCL 2020】多轮对话问答数据采集平台 | 未公开,已发邮件,长文,3000字以内,CCL2020 | 中文 |
机器阅读理解(Machine Reading Comprehension, MRC) | ChineseSquad | 单轮机器阅读理解。 | 有一类做法是将数据集进行翻译为中文,本数据集便是从SQuAD翻译过来的中文数据集。 |
MRC | CAIL大赛阅读理解数据集,DuReader | 前者是最高人民法院司改办指导举办的中国法律智能技术评测大赛(每年都有,2021年有阅读理解任务),后者是百度在2018年机器阅读理解大赛上构造的数据集。 | 中文 |
如果你觉得这篇文章对你有所帮助,欢迎赞赏~
赞赏