大规模细粒度分类和特定领域的迁移学习tion)任务(如识别鸟类或汽车品牌和模型)提供了有效的解决方案。在这种情况下,数据

通过微调从大规模数据集(如ImageNet)中学习知识,为特定领域的细粒度视觉分类(fgvc,fine-grainedvisualcategoriza-tion)任务(如识别鸟类或汽车品牌和模型)提供了有效的解决方案。在这种情况下,数据标注经常会需要专门的领域知识,因此数据集很难扩大规模。在本文工作中,我们首先要解决一个FGVC任务的大规模数据集问题。我们的方法在iNaturalist2017大规模物种分类挑战中获得第一名。我们的方法成功的核心是使用更高的用来训练的图像分辨率和处理训练数据的长尾分布。接下来,我们通过研究迁移学习从大规模数据集微调到小规模的,特定领域的FGVC数据集。我们提出了通过EarthMover的距离进行域相似性估算方法,,并证明转移学习可以从与此目标域类似的源域上的预训练中获益。我们提出的转移学习优于ImageNet预训练,并在多个常用的FGVC数据集上获得最出色的结果

细粒度视觉分类(fgvc)旨在区分从属视觉类别。例如,识别自然分类,如鸟类、狗和植物的种类,或人工分类,如汽车制造和模型。一个成功的FGVC模型应该能够区分细微的类别差异,这是一个巨大的挑战,但是这个模型设计为其它应用提供了参考,丰富的图像字幕,图像生成,机器教学等应用。

卷积神经网络的最新进展视觉识别(CNN)推动了FGVC的显着进步。一般而言,为了在CNN上实现相当好的性能,需要训练具有大量监督的网络数据。但是,收集标记的细粒度数据集,需要专家级的领域知识,因此很难扩大规模。所以,常用的FGVC数据集相对较小,通常包含大约10k个标记的训练图像。在这种情况下,通常采用微调使用如ImageNet这样的大数据集预训练的网络的方法。

这种常见的用法提出了两个问题:1)什么是在大规模FGVC数据集上取得良好性能的重要因素?虽然其他大规模通用视觉像ImageNet这样的数据集包含一些细粒度的类别,它们的图像通常是标志性的Web图像包含中心的对象,具有相似的比例和简单背景。随着大规模的有限可用性FGVC数据集,如何设计表现良好的模型对于具有细粒度类别的大型非标志性图像仍然是一个不发达的领域。2)怎么样通过在大规模数据集上先进行训练,然后有效地进行迁移学习,对其进行微调在特定领域的细粒度数据集?现代FGVC绝大多数方法使用ImageNet预训练网适用于微调。鉴于目标细粒度域已知,我们可以做得比ImageNet更好吗?

本文旨在回答两个上述问题,关于最近iNaturalist2017年推出大规模细粒度数据集(INAT)。iNat包含来自5,089个细粒度类别的675,170个训练和验证图像。所有图像都是在自然条件下拍摄的不同的物体尺度和背景。因此,INAT提供了一个很好的机会,探讨背后的如何训练神经网络上在大规模FGVC上表现良好的关键因素。在此外,与ImageNet一起,iNat使我们能够学习在大规模数据集上学习的知识转移到小规模的细粒度域。

在这项工作中,我们首先提出了一个训练计划,使用大规模细粒度分类,在iNat上达到最高分数。与ImageNet不同,iNat中的图像具有更高的分辨率和广泛的物体尺度。iNat上的性能可以是在输入图像分辨率较高的情况下,明显的提高我们在本文中讨论的另一个问题是长尾分布问题,其中一些类别具有大部分的图片。为了解决这个问题,我们提出了一个简单的问题有效的方法。我们的想法是从中学习好的功能大量的训练数据,然后微调更均匀分布的子集,以平衡网络的效果。我们的实验结果显示在,揭示我们可以大大改善代表性不足的类别和实现更好的整体表现。

其次,我们研究如何从知识转移在大规模数据集上学到了小规模的细粒度域。数据集通常在内容和风格统计方面存在偏差。在CUB200Birds,iNat预训练的网络比ImageNet表现得更好预先训练好的;而在Stanford-Dogs,ImageNet预先训练好的网络可以提高性能。这是因为iNat中有更多视觉上相似的鸟类和ImageNet中的狗类别。鉴于此,我们提出了一种测量基于陆地移动距离的源和目标域的图像级视觉相似性的的新方法。通过微调基于我们提出的选定子集训练的网络域相似性,我们实现了更好的转移学习ImageNet预训练和最先进的细粒度数据集的最新结果。图1给出了一个解释图。

我们相信,我们对大规模FGVC和特定领域转移学习的研究可以为研究类似问题的研究人员提供有用的指导。

在本节中,我们将介绍我们的训练计划--在充满挑战的2017年数据集iNaturalist上取得最佳成绩,尤其是使用更高的分辨率的图像和处理长尾分布的处理。

在训练CNN时,为了便于网络设计和批量训练,输入图像通常是预处理的为一定大小的正方形。每个网络架构通常有一个默认的输入大小。例如,AlexNet和VGGNet采用224×224的默认输入大小并且这个默认输入大小不容易改变-在卷积需要之后导致完全连接的层固定大小的要素图。最近的网络包括ResNet和Inception是完全卷积的,最后有全局平均池化。此设计使网络能够接收输入任意大小的图像。采用具有不同分辨率的图像在网络内引入了不同下采样大小的特征图。分辨率较高的输入图像通常包含更丰富的信息和细微的细节视觉识别,特别是对于FGVC。因此,更高分辨率的输入图像产生更好的性能。对于在ImageNet上优化的网络,有一个使用具有更高分辨率的输入图像的趋势:从最初的224×224在AlexNet[33]到331×331最近提出的NASNet[72],如图所示表3.然而,来自ImageNet的大多数图像都有一个分辨率为500×375并包含相似尺度的物体,限制我们可以从使用更高分辨率获得的好处。我们探索使用范围广泛的效果在iNat中输入图像大小从299×299到560×560数据集,高分辨率输入显示出更高的性能。

现实世界图像的统计数据是长尾的:少数类别具有很强的代表性,并且具有大部分图像,而大多数类别很少被观察到,只有几张图片。这与流行的基准数据集中的均匀图像分布形成鲜明对比,例如ImageNet[12],COCO[34]和CUB200[58]。

由于iNaturalist数据集[55]中各类别的图像数量高度不平衡,我们发现在代表性不足的尾部类别上表现不佳。我们认为这主要是由两个原因引起的:1)缺乏训练数据。iNat训练集中大约1,500个细粒度类别的图像少于30个。2)训练期间遇到的极端不平衡:最大类和最小类中的图像数之间的比率约为435.没有对训练图像进行任何重新采样或重新加权损失,具有更多图像的类别头部将主导那些尾巴。由于我们在第一期缺乏训练数据方面做得很少,我们提出了一种简单有效的方法来解决第二类不平衡问题。

训练分为两个阶段。在第一阶段,我们像往常一样在原始不平衡数据集上训练网络。利用来自所有类别的大量训练数据,网络可以获得良好的特征表示。然后,在第二阶段,我们使用较少的学习对包含更平衡数据的子集进行微调率。我们的想法是慢慢转移学习的功能,让网络在所有类别之间重新平衡。图2显示了我们分别在第一阶段训练的iNat训练集和第二阶段训练的子集中的图像频率分布。第二节的实验5.2验证所提出的策略可以提高整体性能,特别是对于代表性不足的尾部类别。

本节描述了从大型数据集上训练的网络到小型细粒度数据集的迁移学习。介绍了一种测量两个域之间视觉相似性的方法,并给出了在给定目标域的情况下,如何从源域中选择一个子集。

假设我们有一个源域S和一个目标域T.我们定义两个图像之间的距离s∈S和t∈T作为它们的特征表示之间的欧几里德距离:

d(s,t)=||g(s)g(t)||(1)其中g(·)表示图像的特征抽取器。为了更好地捕获图像相似性,特征抽取器g(·)需要能够以一种通用的、无偏见的方式从图像中提取高级信息。因此,在我们的实验中,我们g(·)使用在大规模JFT数据集上训练的Resnet-101的倒数第二层的特征。

通常,使用更多图像会产生更好的迁移学习。为简单起见,在本研究中,我们忽略了域规模(图像数量)的影响。具体来说,我们规范化源域和目标域中的图像数量。由陈等人研究。[49],迁移学习绩效与训练数据量呈对数增加。这表明,当我们已经具有足够大的数据集(例如,ImageNet)时,由于使用更多训练数据而导致的转移学习中的性能增益将是微不足道的。因此,忽略域规模是一个合理的假设,可以简化问题。我们对域相似性的定义可以概括为通过添加比例因子来考虑域规模,但我们发现忽略域规模在实践中已经很好地运行。

在这种假设下,转移学习可以被视为将一组图像从源域S移动到目标域T.需要通过将图像移动到另一个图像来完成的工作可以被定义为它们在等式1中的图像距离。然后,两个域之间的距离可以定义为所需总工作量的最小值。域相似性的这种定义可以通过地球移动器的距离(EMD)来计算。

其中γ在所有实验中设定为0.01。图3示出了通过EMD计算所提出的域相似性。

我们使用3种网络类型:ResNet,Inception,SENet

对于所有网络架构,我们严格遵循其原始设计,但替换了最后一个线性分类层,以匹配数据集中的类别数。

我们使用开源TensorFlow[2]在多个NvidiaTeslaK80GPU上异步实现和训练所有模型。在训练过程中,将输入图像从原始图像中随机剪切,并通过比例和纵横比增大重新调整为目标输入尺寸。我们使用rmsprop优化器对所有网络进行了训练,动量为0.9,批量大小为32。9次学习率设为0.045,每2个时期后指数衰减0.94;对于迁移学习中的微调,每4个时期后学习率衰减0.94,初始学习率降低到0.0045。我们还使用了标签平滑。在推理过程中,原始图像被中心裁剪并重新调整为目标输入大小。

为了验证所提出的大规模细粒度分类学习方案,我们对iNaturalist2017数据集进行了大量的实验。为了获得更好的性能,我们从ImageNet预训练的网络中进行微调。如果从头开始训练INAT,前5个错误率≈1%更差。我们训练了具有3种不同输入分辨率(299、448和560)的Inception-v3。图像分辨率的影响如表3所示。从表中可以看出,使用更高的输入分辨率可以在INAT上获得更好的性能。我们提出的处理长尾分布的微调方案的评估如图4所示。通过对学习率较小的更平衡子集(我们的实验中为10-6)进行进一步微调,可以获得更好的性能。表4显示了通过微调对头部和尾部类别进行的性能改进。训练图像大于或等于100的头部类别的改善率分别为前1名的1.95%和前5名的0.92%;而训练图像小于100的尾部类别的改善率分别为前1名的5.74%和前5名的2.71%。这些结果验证了所提出的微调方案大大改善了表现不足的尾翼类的性能。

表5给出了我们在2017年iiNaturalist挑战赛中获胜的详细表现分类。使用更高的图像分辨率和对更平衡的子集进行进一步微调是我们成功的关键。

表7显示了通过微调细粒度数据集上的inception-v3实现的迁移学习性能。我们可以看到IMAGENET和INAT都有很大的偏差,在目标数据集上实现了显著不同的迁移学习性能。有趣的是,当我们迁移在组合的imagenet+inat数据集上训练的网络时,性能介于imagenet和inat预训练之间,这表明我们不能通过简单地使用更大规模的组合源域在目标域上实现良好的性能。

此外,在图5中,我们展示了迁移学习性能与我们提出的领域相似性之间的关系。当从更相似的源域微调时,我们观察到更好的转移学习性能,除了food101,在该源域上转移学习性能几乎与域相似性变化保持一致。我们认为这很可能是因为Food101中有大量的训练图像(每节课750张训练图像)。因此,目标域包含足够的数据,因此迁移学习几乎没有帮助。在这种情况下,我们忽略域规模的假设不再有效。

从表7和图5可以看出,所选子集B在所有fgvc数据集中都取得了良好的性能,在cub200和nabirds上大大超过了imagenet预培训。在表8中,我们将我们的方法与现有的fgvc方法进行了比较。结果表明,所提出的转移学习方法在常用的fgvc数据集上具有最先进的性能。注意,由于我们对域相似性的定义计算速度很快,所以我们可以轻松地探索选择源域的不同方法。在不进行任何预训练和微调的情况下,可以直接根据域相似性来估计迁移学习性能。在我们的工作之前,在fgvc任务上获得良好性能的唯一选择是基于ImageNet微调设计更好的模型,或者通过收集更多的图像来增强数据集。然而,我们的工作提供了一个新的方向,即使用更相似的源域对网络进行预训练。我们表明,在源域中选择适当的子集后,只需对现成的网络进行微调,就可以匹配或超过这些性能增益。

在这项工作中,我们提出了一个训练方案,通过使用高分辨率的输入图像和微调来处理长尾分布,从而在大规模非自然数据集上获得最佳性能。我们进一步提出了一种新的获取与地球运动距离域相似性的方法,表明从更相似的域进行微调可以获得更好的转移学习性能。未来,我们计划研究领域相似性之外的其他重要因素。

致谢。这项工作部分得到了谷歌重点研究奖的支持。我们要感谢谷歌的同事们提供的有益的讨论。

THE END
1.汽车六大系总结!德系奥迪宝马奔驰马自达雪佛兰凯迪拉克豪华汽车六大系总结!,德系,奥迪,宝马,奔驰,马自达,雪佛兰,凯迪拉克,豪华品牌,汽车六大系https://www.163.com/dy/article/IMIVHR300553BSDP.html
2.汽车品牌档次划分,快来看看你的车在什么档次?确定了 明年汽车补贴力度加码 扩大人群 持续有效 鬼斗车16万次播放 05:10 德味儿新能源一汽-大众ID.4 CROZZ 还得是欧系的底子 音速大梦11124万次播放 08:24 世界极寒之地雅库茨克过冬,今天把庇护所大门做好,瞬间暖和多了 868黑娃黑妹29万次播放 05:31 看似平平无奇的零跑C10凭什么拿设计界奥斯卡? 阿豪的阁楼17https://www.dongchedi.com/video/7250796046182416911
3.汽车有多少种品牌全球有超过100个汽车品牌。以下是一些知名的汽车品牌及其所属国家: 德国:奥迪、宝马、梅赛德斯-奔驰、保时捷等; 美国:福特、雪佛兰、克莱斯勒、特斯拉等; 日本:丰田、本田、日产、雷克萨斯等; 英国:捷豹路虎、宾利、劳斯莱斯、阿斯顿·马丁等; 法国:标致、雪铁龙、雷诺、DS等; https://news.yiche.com/baike/1129909.html
4.一二三线汽车品牌分类@买车推荐家一二三线汽车品牌分类 买车推荐家 在当前的汽车市场中,汽车品牌通常被划分为一线、二线和三线,这种划分主要基于品牌的市场影响力、销量、产品质量以及技术创新等多个方面。以下是对一二三线汽车品牌的一个大致分类: 一线汽车品牌 一线汽车品牌通常具有极高的市场知名度和影响力,销量领先,且产品质量和技术水平https://agents.baidu.com/content/question/641593b75b247d6b76fc2343
5.美系轿车分类美系轿车有哪些品牌美系车分类标准及优缺点→摘要:美系车是指产自美国的汽车。所谓的美系车一般都是以通用、福特和克莱斯勒三大汽车品牌为主,严格意义来说,已经没有纯正血统的美系车,在全球化市场发展过程中,美系车已经与欧系车融为一体,属于欧系车范畴之内了。那么,我们一般理解的美系车都有哪些品牌,美系车的分类标准优缺点是什么?接下来,请跟随小编一https://www.maigoo.com/goomai/200256.html
6.微型车排行榜前十名?(汽车品牌档次划分)汽车品牌档次划分 汽车等级是德国大众对车辆进行分类的一种方式,它并不是专业的规范,只是大家在制定营销策略时制订的一套标准值,后来被广泛应用。汽车等级通常分为A00级、A0级、A级、B级、C级和D级六个等级。 按照规范,A00属于微型汽车,包括知豆D2、奇瑞汽车eQ、北汽新能源EC和创脉;A0属于小型轿车,包括威驰、https://m.snzqc.com/166120.html
7.2024最全摩托车选购攻略(分类+品牌+价格+配件+保险+驾照)近两年,国内外摩托车又掀起了一股热潮,越来越多的人加入了骑士行列。即使不为了体验骑行的刺激感,仅仅作为一款便捷出行的工具,各类摩托车也都已经日益占据市场份额,成为越来越多人的交通首选工具。不过面对市场上众多的摩托车品牌和品种繁多的车型,消费者在购车时不免https://www.extrabux.cn/chs/guide/6321984
8.汽车销量可视化分析中国民用汽车销量可视化1、汽车品牌销量柱状图 2、中国汽车销量柱状图 3、汽车销量前10排行柱状图 4、汽车厂商销量折线图 ?编辑5、汽车销量词云图 6、汽车车型销量 7、汽车价格分布雷达图 8、汽车分类饼图 9、网站截图 (1)、首页 (2)、分析报告页 一.分析的背景、目的、意义 https://blog.csdn.net/qq_52561726/article/details/135957724
9.汽车避震介绍分类品牌以及改装误区操控改装知识汽车避震介绍、分类、品牌以及改装误区 摘要: 汽车避震(英文名称:Shock Absorber)就是一个减少震动的装置。当弹簧被压缩后,势必会产生一系列的伸张动作。这时候避震器的作用就体现出来了,它的主要作用就是抑制和吸收弹簧的反复运动,使得车身更加趋于平稳与 https://www.wangaiche.com/article-11662-1.html
10.显卡品牌详解及分类一线.二线.三线.及其他汽车大全 21500 0显卡品牌分类:一线.二线.三线.及其他 目前显卡业的竞争也是日趋激烈,比起主板业来有过之而无不及。国内的显卡市场相对更加混乱:国际大品牌不被认可,而本土的众多无能品牌却享有很高的知名度并且占据着很大的市场份额。为了让大家分清优劣,我们仍然分类进行点评。 在分类之前,有必要先简要介绍一下https://www.kb9.cn/read/160629.html
11.2024年汽车轮胎选择攻略轮胎哪个品牌好?米其林/马牌/固特异/普利司轿车轮胎分类 在选择轮胎的时候,我们应该清楚自己的定位,是追求操控性能,还是运动性能,还是经济适用,还是坚固耐磨?做到心中有数,才能选择更适合自己的轮胎品牌和型号。市面上轿车轮胎主要有以下几种: 1、高性能轮胎 轮胎更宽,扁平度低,抓地性好,速度级别更高,排水性能好,不管干湿地均有很好的表现,缺点不耐磨,噪音https://zhuanlan.zhihu.com/p/279314277
12.汽车市场三年一变,车企如何获客?我们也发现,以理想、问界、零跑、蔚来为代表的独立造车新势力,已经迈入“快消化营销”的新阶段,他们像经营快消品一样去洞察汽车市场,并动态调整经营策略,也因此吃到了汽车人群代际更替的红利。 本文中提到的汽车品牌分类说明: 中国汽车品牌:以比亚迪、奇瑞、吉利等为代表的由中国本土企业创立、拥有完全自主知识产权,https://m.yicai.com/news/102376223.html