图文详情——科普中国资源服务

OpenBayes贝式计算是中国领先的高性能计算服务提供商,通过为新一代异构芯片嫁接经典软件生态及机器学习模型,向工业企业及高校科研提供更加快速、易用的数据科学计算产品,目前已服务数十家大型工业企业及头部科研院所。

自ChatGPT重磅推出以来,大语言模型(largelanguageModel,LLM)以其卓越的学习能力在各个领域引起轰动。大模型的训练和调优离不开优质庞大的数据支撑,精心构建的数据集不仅为大模型提供了充分的燃料,还为大模型在垂直领域的应用和性能提升提供了可能。

温馨提示:

本文列举的所有数据集,均可在OpenBayes.com平台一键Input直接在模型训练和部署中使用。

链接直达:

1Ape210K中国小学水平数学问题

*发布机构:猿辅导AILab、西北大学

Ape210K是一个新的大规模和模板丰富的数学单词问题数据集,包含210k个中国小学水平的数学问题。每个问题都包含最佳答案和得出答案所需的方程式。

2Belle数据集

*发布机构:讯飞科大、CCL、HFL

本数据集使用了1,000个样本的评估集来评估各种模型,涵盖9个真实场景,包含约350万条由BELLE项目生成的中文指令数据。

3ChineseSquad

中文机器阅读理解数据集

本数据集是中文机器阅读理解数据集,通过机器翻译加人工校正的方式从原始Squad转换而来,其中包括V1.1和V2.0。

4CMRC2018中文机器阅读理解评测数据集

本数据集包含第二届「讯飞杯」中文机器阅读理解评测(CMRC2018)所使用的数据,并且已被计算语言学顶级国际会议EMNLP2019录用。

5CrossWOZ任务导向对话数据集

*发布机构:清华大学、BNRIST

CrossWOZ是首个面向任务的大型中文跨域Wizard-of-Oz导向数据集。它包含5个场景(景点、酒店、餐馆、地铁、出租)的6k个对话和102k个句子。此外,语料库包含丰富的对话状态标注和用户与系统双方的对话行为。

6DRCDDelta阅读理解数据集

*发布机构:台达研究中心、台达电子

7DoubanConversationCorpus豆瓣会话语料库

*发布机构:北京航空航天大学、南开大学、MSR

本数据集包括一个训练数据集、一个开发集和一个基于检索的聊天机器人的测试集。测试数据包含1000个对话上下文,对于每个上下文,创建了10个响应作为候选。

8DuReader问答数据集

*发布机构:百度

9E-KAR中文版可解释知识密集型类比推理基准

*发布机构:复旦大学、ByteDanceAILab、BrainTechnologies,Inc.

E-KAR全称BenchmarkforExplainableKnowledge-intensiveAnalogicalReasoning,是一个可解释知识密集型类比推理的基准。现有的词语类比测试基准并不能揭示神经模型类比推理的底层过程,研究人员认为具有推理能力的模型应以正确的理由作为基本信念,因此提出了首个知识性可解释类比推理基准(E-KAR)。基准数据集包括来自公务员考试的1,655个(中文)和1,251个(英文)问题,解决这些问题需要大量的背景知识。

10FCGEC中文语法检错纠错数据集

*发布机构:浙江大学、华为

11KdConv中文多领域会话数据集

*发布机构:清华大学

KdConv是一个中文多领域知识驱动的对话数据集,将多轮对话中的主题建立在知识图谱上。KdConv包含来自三个领域(电影、音乐和旅行)的4.5K个对话,以及平均转数为19.0的86k个话语。适用于对多转向人类对话中的知识交互进行建模,包括知识规划、知识基础、知识适应等。

12Math23K数学单词数据集

*发布机构:TencentAILab

Math23K全称Math23KforMathWordProblemSolving,是为解决数学单词问题而创建的数据集,包含从互联网上爬取的23,162个中文问题。

13MedDialog中文医患对话数据集

MedDialog是大规模的医疗对话数据集,其中包含医生和患者之间的110万条对话和400万条话语。

14ODSQA开放域口语智能问答数据集

*发布机构:台湾大学

ODSQA数据集是用于中文问答的口语数据集,它包含来自20位不同演讲者的三千多个问题。

15RedGPT自动生成事实型对话数据集

RedGPT全称Reference-Enlightened-DialoguebyGPTandforGPT。事实正确性是ChatGPT的一大薄弱环节,想要提升事实正确性,可以标注大量的事实型对话数据用于微调GPT模型。为避免人工标注的昂贵成本,研究人员提出一种自动生成事实型对话的方法,并公开部分数据(RedGPT-Dataset-V1-CN),其中共包含5万条中文多轮对话。

16TheUnitedNationsParallelCorpus联合国平行语料库v1.0

17VQA视觉问答数据集

18WebQAv1.0百度中文问答数据集

19XiaChuFangRecipeCorpus下厨房食谱语料库

本食谱语料库包含1,520,327种中国食谱。其中,1,242,206食谱属于30,060菜肴。一道菜平均有41.3个食谱。食谱由415,272位作者贡献。其中,最有生产力的作者上传5,394食谱。

20XQuAD跨语言问答数据集

XQuAD(跨语言问答数据集)是一个用于评估跨语言问答性能的基准数据集。该数据集由SQuADv1.1(Rajpurkar等,2016)开发集中的240个段落和1,190个问题-答案对的子集组成。

一键Input上述数据集

丰富的数据集背后仍需要高质量算力平台的支持。目前,OpenBayes贝式计算平台已支持数据集一键绑定,只需在创建容器期间一键Input,即可将目标数据集绑定到对应容器,省去了繁琐的下载和上传过程,也不会占用用户个人的存储空间。

THE END
1.python毕设食品营养搭配系统49by3.程序+论文本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。 系统程序文件列表 开题报告内容 研究背景 随着生活水平的提高和健康意识的增强,人们对饮食的需求已经从单纯的饱腹转变为追求营养均衡和合理搭配。然而,在实际生活中,很多人对食品的营养成分和搭配原则了解不足,导致饮食https://blog.csdn.net/sheji714/article/details/144074605
2.食谱大全app哪个好?食谱大全app排行榜食谱大全app下载食谱大全app今天小编给大家带来了一些帮助大家做菜的小能,想做什么菜都可以在这些app中找寻找,涵盖了各样的菜谱,无论是煎炸烹炒样样都有。有的注重减肥,所以对于运动人来说可以选择减肥的食谱大全。还有的专门为儿童设置的健康菜谱大全app,以及有的app针对不同人群而设计,你可以根据自身来找寻合适自己的食谱大全。http://www.downcc.com/k/shipudaquanapp/
3.基于饮食知识图谱的食谱推荐系统的设计与实现为了满足人们在食谱个性化推荐方面的需求、解决当前食谱个性化推荐系统匮乏的问题,并充分利用知识图谱在改善个性化推荐方面的优势,本文对基于知识图谱的食谱个性化推荐展开了研究。主要工作如下:(1)利用从美食杰网站爬取的用户收藏的食谱数据、用户发布的食谱数据、用户制作的食谱数据,构建了用户-食谱偏好数据集。对饮食知识https://cdmd.cnki.com.cn/Article/CDMD-10286-1020801461.htm
4.计算机毕业设计之PyTroch+Spark+LSTM美食推荐系统食谱推荐系统数据库:mysql 数据分析:Spark 机器学习:PyTroch(基于神经网络的混合CF推荐算法)、协同过滤算法(基于用户、基于物品全部实现)、lstm评论情感分析 第三方平台:支付宝沙箱支付、百度AI图片识别、短信接口 数据集:Scrapy爬虫框架(Python) 创新点 Spark大屏、爬虫、协同过滤推荐算法、PyTroch神经网络推荐算法、AI识别、短信、支https://www.jianshu.com/p/9bce5d0a6809
5.域数据集组入门(控制台)在本练习中,您将使用 Amazon Personalize 控制台创建域数据集组和推荐器,以便为给定用户返回电影推荐。 在开始本练习之前,请查看入门先决条件。 完成入门练习后,为避免产生不必要的费用,请删除您创建的资源。有关更多信息,请参阅删除 Amazon Personalize 资源的要求。 https://docs.aws.amazon.com/zh_cn/personalize/latest/dg/getting-started-console-domain.html
6.今日食谱明日方舟WIKIBWIKI试验数据集 调律追忆 乐之节符 怒之节符 哀之节符 惧之节符 驮兽盲盒 辣瓶树水 繁荣点数 天桩(材料) 艺术馆集章卡 粗制糖块 急性感染抑制剂 参赛纪念 “应急物资”蓝图芯片 炉渣 魂灵书签 流光之沙 “探索者”兑换点数 今日食谱 胜绩积分 “我反对!” 匿名邀请函 卫戍认证 黑曜石节抽奖代币 汐斯塔的黑https://wiki.biligame.com/arknights/%E4%BB%8A%E6%97%A5%E9%A3%9F%E8%B0%B1
7.今日食谱PRTS试验数据集 调律追忆 驮兽盲盒 辣瓶树水 天桩 繁荣点数 艺术馆集章卡 粗制糖块 急性感染抑制剂 参赛纪念 “应急物资”蓝图芯片 炉渣 魂灵书签 散佚迷思 流光之沙 “探索者”兑换点数 今日食谱 胜绩积分 “我反对!” 匿名邀请函 卫戍认证 赏金猎人金币 黑曜石节手环 黑曜石节门票 汐斯塔的黑曜石 黑曜石节抽https://prts.wiki/w/%E4%BB%8A%E6%97%A5%E9%A3%9F%E8%B0%B1
8.尼格罗尼鸡尾酒苦味,杜松子酒,苦味,冰栏食谱酒精饮料库存图片尼格罗尼鸡尾酒 苦酒,杜松子酒,味酒吧 照片 关于 投反对票, 校正, 生气勃勃, 液体, 黑暗, 塑造, 玻璃, 新鲜, 打赌的人, 背包, 困难, 饮料, 柑橘, 欢乐, 多维数据集, 马蒂尼鸡尾酒, 汁液, 冷静, 橙色, 杜松子酒, 时数, 烤肉, 豪华, 鸡尾酒, 对象, https://cn.dreamstime.com/%E5%B0%BC%E6%A0%BC%E7%BD%97%E5%B0%BC%E9%B8%A1%E5%B0%BE%E9%85%92-%E8%8B%A6%E5%91%B3%EF%BC%8C%E6%9D%9C%E6%9D%BE%E5%AD%90%E9%85%92%EF%BC%8C%E8%8B%A6%E5%91%B3%EF%BC%8C%E5%86%B0-%E6%A0%8F-%E9%A3%9F%E8%B0%B1-%E9%85%92%E7%B2%BE%E9%A5%AE%E6%96%99-%E8%8B%A6%E9%85%92%EF%BC%8C%E6%9D%9C%E6%9D%BE%E5%AD%90%E9%85%92%EF%BC%8C%E5%91%B3%E9%85%92%E5%90%A7-image173917357
9.基于多模态信息抽取的菜品知识图谱构建具体来说,Recipe 1M提供了一套全面的食谱细节(包括配料、标题和说明),它丰富了图像和食谱之间的上下文关系,从而促进了跨模态检索。相比之下,CMIngre数据集仅局限于食材信息,这对有效的跨模态检索提出了更大的挑战。值得注意的是,我们的两阶段方法明显优于这些对比方法,这进一步凸显了两阶段方法的优势,即训练食材https://blog.51cto.com/u_15197658/10939232
10.使用AmazonPersonalize的代码示例AmazonSDKsAutoML 和传统食谱 HRNN HRNN 元数据 HRNN-Coldstart 准备训练数据 物品交互数据 项目元数据 用户元数据 操作元数据 操作交互数据 创建架构JSON文件 VIDEO_ON_ DEMAND 数据集和架构 物品交互数据集要求 用户数据集要求 物品数据集要求 ECOMMERCE数据集和架构 物品交互数据集要求 用户数据集要求 物品数据集要求 自定https://docs.amazonaws.cn/personalize/latest/dg/service_code_examples_personalize.html
11.超全数据集高清版.pdf数据结构与算法超全数据集 高清版.pdf 9页VIP内容提供方:133***9720 大小:348.58 KB 字数:约5.54千字 发布时间:2021-01-29发布于山东 浏览人气:63 下载次数:仅上传者可见 收藏次数:0 需要金币:*** 金币 (10金币=人民币1元)超全数据集 高清版.pdf 关闭预览 想预览更多内容,点击免费在线预览https://max.book118.com/html/2021/0129/5140032324003120.shtm
12.Conservation中山大学范朋飞教授团队最新成果量化食谱为范朋飞教授团队基于此数据集,首次报道了海南长臂猿全年的量化食谱,并通过四个量化指标反映不同植物对于海南长臂猿的取食贡献,逐步筛选出海南长臂猿的重要食物名录(图2),为未来针对海南长臂猿的栖息地植被恢复提供树种选择参考。 图2 海南长臂猿的重要食物名录筛选流程https://cps.nwu.edu.cn/info/1069/1427.htm
13.中国哺乳动物形态,生活史和生态学特征数据集生活史和生态学特征数据集 (Crooks & Soulé, 1999); 妊娠期长,窝崽数少和世代 (Smith和解焱, 2009),《中国哺乳动物多样性及地理 周期长的物种一般很难从种群数量下降的状态恢 分布》(蒋志刚等, 2015),《中国兽类图鉴》(刘少英 复(Verde-Arregoitia, 2016); 栖息地和食谱窄的物种, 等, 2019, 2020)和《https://www.biodiversity-science.net/EN/article/downloadArticleFile.do?attachType=PDF&id=82199
14.在麻辣红汤豆腐多维数据集插画正版商用图片0zcbi2摄图新视界提供在麻辣红汤豆腐多维数据集图片下载,另有亚洲,正宗,豆,碗,可爱卡通动物,红辣椒,中国,中文,奶油,多维数据集,料理,烹饪,豆腐,美味佳肴,美味图片搜索供您浏览下载,每张图片均有版权可放心商用,您正在浏览的图片为0zcbi2https://xsj.699pic.com/tupian/0zcbi2.html
15.行业研究我们为以下语音数据集提供最新的培训食谱: 什么是新的: 2020年6月:发布了变压器配方。 2020年4月:现已支持 (使用 )和混合ASR的交叉熵训练。 和分别提供WSJ配方作为示例。 2020年3月:支持SpecAugment并发布了相关配方。 2019年9月:我们正在努力将Espresso与fairseq隔离开来,从而产生一个可以直接pip install的独立软件https://www.coder100.com/index/index/content/id/2337924
16.分析了600多种烘焙配方,机器学习开发出新品机器学习配方烘焙数据集整理 首先,Sara 和她的同事从网上搜集了 600 多个配方构成配方数据集,包括面包、蛋糕和饼干。然后,将其中常用的核心原料提取出来,共 16 种,包括面粉、酵母、牛奶、水、盐、蛋等。 然后对这些配方中,各种原料的度量单位进行统一,比如,有的以「杯」为单位,有的以「勺」为单位,作者将其全部转换为「盎司」https://www.cn-healthcare.com/articlewm/20210210/wap-content-1189180.html