每条数据为<问题,篇章,候选答案>三元组组成,每个问题对应一个篇章(500字以内),以及包含正确答案的三个候选答案。
问题:真实用户自然语言问题,从搜索日志中随机选取并由机器初判后人工筛选
候选答案:人工生成的答案,提供若干(三个)选项,并标注正确答案
训练集:105,000条
验证集:15,000条
测试集A:15,000条
测试集B:200,000条
训练集:1300万
验证集:8000
测试集A:8000
测试集B:8000
数据集共包含20万条短视频,涵盖舞蹈、健身、唱歌等63类流行元素,分为训练集(12万)、验证集(3万)、测试集A(3万)、测试集B(3万)。大部分视频的长度为5-15秒。
本数据集采用多标签分类体系,标签信息包含视频主体、场景、动作等多个维度,标注信息将尽量包含视频中展现的所有元素,每条视频有1-3个标签。
相较于传统视频数据集来说,本数据集更具特色。本数据集视频采集设备多为手机且比例多为竖屏;数据集中的很多视频使用了短视频特效,并包含更多视频快进、剪辑等操作;从视频内容上讲,本数据集包含了更多人物中心化的自拍短视频内容。
数据连续性较好,缺失样本(-9999.)很少,并通过NetCDF4格式共同存储于单个nc文件中。「观测」集逐时记录当前气象观测站点的9个地面气象要素,通过气象仪器实时监测得到;「睿图」集包含地面和特征气压层共计29个气象要素,由数值预报模式在超级计算机上运算产生。
训练集:1188天样本
验证集:89天样本
测试A集:包含两个数据集,分别为2018年8月29日至9月24日和2018年8月29日至10月15日,分别有27天和48天样本
测试B集:包含7个数据集,全部以2018年8月29日为起始日期,以10月28日至11月3日分别为结束日期,分别有61–67天样本
标注图片50,000张、包含10种植物的27种病害。
本数据集合由上海新客科技和创新工场联合打造。数据集有61个分类(按「物种-病害-程度」分),10个物种,27种病害(其中24个病害有分一般和严重两种程度),10个健康分类,47393张图片。每张图包含一片农作物的叶子,叶子占据图片主要位置。数据集随机分为训练(70%)、验证(10%)、测试A(10%)与测试B(10%)四个子数据集。其中,训练集有32,739张图片,验证集有4,982张图片,测试集A有4,959张图片,测试集B有4,957张图片。
视网膜水肿是一种常见的眼部病理改变,会导致不同程度的视力下降,从而影响正常的生活。尽早的发现水肿症状,能够对疾病的诊断和治疗起到重要的作用。如今临床上使用OCT(光学相干断层成像)辅助医生对视网膜水肿进行判断。
主办方提供了眼部OCT样本的图像数据集,由专业眼科医生分别对三种类型的水肿进行标注,数据量达到100个OCT体数据,每个体数据128张图片。这是国内首个眼底病变医学图像检测竞赛,使用了目前最大的眼底病变数据集,是一次AI与医学技术的结合
本数据集由创新工场、北京大学王亦洲教授和复旦大学付彦伟教授联合构造。属性标注对于实现图像理解、知识迁移具有重要意义。
本数据集共78,017张图片,可划分为5个超类(super-class),分别是动物(Animals)、水果(Fruits)、交通工具(Vehicles)、电子产品(Electronics)、发型(Hairstyles)。其中,动物和水果属于自然产物,交通工具和电子产品属于人造物,发型属于抽象概念。每个超类分别包含A:50,F:50,V:50,E:50,H:30个类别,总计230个类别。对于每个超类(super-class),分别设计了A:123,F:58,V:81,E:75,H:22个属性,共359个属性。每张图片只包含一个前景物体,标注了标签和物体包围框。对于每个类别,随机挑选了20张图片进行属性标注。
训练集所有图片均标注了标签和包围框。对于部分图片(20张/类),标注了二值属性,属性值为0或1,表示属性「存在」或「不存在」。