图文详情——科普中国资源服务|食谱推荐数据集_食谱

OpenBayes贝式计算是中国领先的高性能计算服务提供商，通过为新一代异构芯片嫁接经典软件生态及机器学习模型，向工业企业及高校科研提供更加快速、易用的数据科学计算产品，目前已服务数十家大型工业企业及头部科研院所。

自ChatGPT重磅推出以来，大语言模型(largelanguageModel,LLM)以其卓越的学习能力在各个领域引起轰动。大模型的训练和调优离不开优质庞大的数据支撑，精心构建的数据集不仅为大模型提供了充分的燃料，还为大模型在垂直领域的应用和性能提升提供了可能。

温馨提示：

本文列举的所有数据集，均可在OpenBayes.com平台一键Input直接在模型训练和部署中使用。

链接直达：

1Ape210K中国小学水平数学问题

*发布机构：猿辅导AILab、西北大学

Ape210K是一个新的大规模和模板丰富的数学单词问题数据集，包含210k个中国小学水平的数学问题。每个问题都包含最佳答案和得出答案所需的方程式。

2Belle数据集

*发布机构：讯飞科大、CCL、HFL

本数据集使用了1,000个样本的评估集来评估各种模型，涵盖9个真实场景，包含约350万条由BELLE项目生成的中文指令数据。

3ChineseSquad

中文机器阅读理解数据集

本数据集是中文机器阅读理解数据集，通过机器翻译加人工校正的方式从原始Squad转换而来，其中包括V1.1和V2.0。

4CMRC2018中文机器阅读理解评测数据集

本数据集包含第二届「讯飞杯」中文机器阅读理解评测(CMRC2018)所使用的数据，并且已被计算语言学顶级国际会议EMNLP2019录用。

5CrossWOZ任务导向对话数据集

*发布机构：清华大学、BNRIST

CrossWOZ是首个面向任务的大型中文跨域Wizard-of-Oz导向数据集。它包含5个场景（景点、酒店、餐馆、地铁、出租）的6k个对话和102k个句子。此外，语料库包含丰富的对话状态标注和用户与系统双方的对话行为。

6DRCDDelta阅读理解数据集

*发布机构：台达研究中心、台达电子

7DoubanConversationCorpus豆瓣会话语料库

*发布机构：北京航空航天大学、南开大学、MSR

本数据集包括一个训练数据集、一个开发集和一个基于检索的聊天机器人的测试集。测试数据包含1000个对话上下文，对于每个上下文，创建了10个响应作为候选。

8DuReader问答数据集

*发布机构：百度

9E-KAR中文版可解释知识密集型类比推理基准

*发布机构：复旦大学、ByteDanceAILab、BrainTechnologies,Inc.

E-KAR全称BenchmarkforExplainableKnowledge-intensiveAnalogicalReasoning，是一个可解释知识密集型类比推理的基准。现有的词语类比测试基准并不能揭示神经模型类比推理的底层过程，研究人员认为具有推理能力的模型应以正确的理由作为基本信念，因此提出了首个知识性可解释类比推理基准(E-KAR)。基准数据集包括来自公务员考试的1,655个（中文）和1,251个（英文）问题，解决这些问题需要大量的背景知识。

10FCGEC中文语法检错纠错数据集

*发布机构：浙江大学、华为

11KdConv中文多领域会话数据集

*发布机构：清华大学

KdConv是一个中文多领域知识驱动的对话数据集，将多轮对话中的主题建立在知识图谱上。KdConv包含来自三个领域（电影、音乐和旅行）的4.5K个对话，以及平均转数为19.0的86k个话语。适用于对多转向人类对话中的知识交互进行建模，包括知识规划、知识基础、知识适应等。

12Math23K数学单词数据集

*发布机构：TencentAILab

Math23K全称Math23KforMathWordProblemSolving，是为解决数学单词问题而创建的数据集，包含从互联网上爬取的23,162个中文问题。

13MedDialog中文医患对话数据集

MedDialog是大规模的医疗对话数据集，其中包含医生和患者之间的110万条对话和400万条话语。

14ODSQA开放域口语智能问答数据集

*发布机构：台湾大学

ODSQA数据集是用于中文问答的口语数据集，它包含来自20位不同演讲者的三千多个问题。

15RedGPT自动生成事实型对话数据集

RedGPT全称Reference-Enlightened-DialoguebyGPTandforGPT。事实正确性是ChatGPT的一大薄弱环节，想要提升事实正确性，可以标注大量的事实型对话数据用于微调GPT模型。为避免人工标注的昂贵成本，研究人员提出一种自动生成事实型对话的方法，并公开部分数据(RedGPT-Dataset-V1-CN)，其中共包含5万条中文多轮对话。

16TheUnitedNationsParallelCorpus联合国平行语料库v1.0

17VQA视觉问答数据集

18WebQAv1.0百度中文问答数据集

19XiaChuFangRecipeCorpus下厨房食谱语料库

本食谱语料库包含1,520,327种中国食谱。其中，1,242,206食谱属于30,060菜肴。一道菜平均有41.3个食谱。食谱由415,272位作者贡献。其中，最有生产力的作者上传5,394食谱。

20XQuAD跨语言问答数据集

XQuAD（跨语言问答数据集）是一个用于评估跨语言问答性能的基准数据集。该数据集由SQuADv1.1（Rajpurkar等，2016）开发集中的240个段落和1,190个问题-答案对的子集组成。

一键Input上述数据集

丰富的数据集背后仍需要高质量算力平台的支持。目前，OpenBayes贝式计算平台已支持数据集一键绑定，只需在创建容器期间一键Input，即可将目标数据集绑定到对应容器，省去了繁琐的下载和上传过程，也不会占用用户个人的存储空间。

THE END

图文详情——科普中国资源服务

一文带你了解大数据管道

月子餐食谱坐月子不能吃什么

使用JupyterLab笔记本创建模型AdobeExperiencePlatform

基于YOLOv8目标检测与ChefTransformer（T5）从图像创建食谱云社区

图文详情——科普中国资源服务

RecipeAI网址是什么,RecipeAI网页版链接与介绍妙悟AI

Rrecipesrecipe创建预处理数据的配方

AIGC实战——自回归模型(AutoregressiveModel)

DishGen:AI菜谱生成器

GoogleAI建立了一个能够分析烘焙食谱的机器学习模型