调参到脱发?自动超参搜索带着免费算力资源拯救你!发现频道

在人工智能领域,算法工程师在训练神经网络模型的过程中,完成网络构建和准备好训练数据后,往往需要对模型进行各种参数优化,以获得更好的模型效果。但调参其实并不简单,背后往往是通宵达旦的参数调试与效果验证,并需要做大量的实验,不仅耗时也耗费大量算力。

这个时候,往往想尝试自动超参搜索,但又开始担心算力要求所带来的额外训练成本。

莫慌!百度全功能AI开发平台BML带着免费算力额度与自动超参搜索能力来了!

先来介绍百度最近全新升级的BML,何方神圣?

全功能AI开发平台BML(BaiduMachineLearning),是为企业和个人开发者提供机器学习和深度学习一站式AI开发服务,并提供高性价比的算力资源,助力企业快速构建高精度AI应用。BML提供了从数据采集、数据清洗、数据标注、智能标注与多人标注、模型训练生产到模型管理、云端及离线推理服务管理等AI开发过程的全生命周期管理功能。

BML内置百度超大规模预训练模型,只需少量数据即可获得高精度模型效果。目前,BML已经支持脚本调参、Notebook与自定义作业这三种开发建模方式,灵活匹配企业开发者的开发习惯。

在目前的脚本调参使用流程中,BML已经预设了模型超参数,但由于用户数据集内容丰富多样,预设的超参数很难在所有的数据集上得到很好的训练效果。用户可以自行调整超参数,但是手动调参十分耗费人力。为了减轻用户在调参上的精力投入,BML的研发大佬们日夜奋战,为用户上线了自动超参搜索的功能,帮助用户自动搜索效果较优的超参组合,省去调参的烦恼。

话不多说,进入本次正题,百度BML的自动超参搜索技术有哪些亮点?

提供多种搜索算法

所谓“超参”,有别于模型网络结构内部各层的参数,是指需要人为调整,通过人为经验设置来提高模型效果的参数,常见的超参包括学习率(learning_rate)、批样本数量(batch_size)等。在超参搜索的过程中,由于模型复杂、计算成本很高,且每个超参数都有较大的取值范围,导致搜索空间十分庞大,因此我们需要有“自动”超参搜索。

自动超参搜索相比于人工调参,主要是省去了人工观察实验结果并调整参数再试验的过程,自动超参搜索把这个步骤用各种搜索算法来代替。

BML提供的搜索算法有:

随机搜索

顾名思义是在参数变量的变化区间中随机采样参数组合成候选集,应用候选集进行训练和效果对比。随机搜索是普适的效率较高的搜索方法,通常作为基线标准,适用于对效率要求较高的情况,但不能保证一定能搜索到最佳的超参。

贝叶斯搜索

在搜索空间中随机选取初始超参数点,然后根据已有超参对应的指标结果拟合概率模型,通过概率模型推测最佳超参点,接着再试验得到这些超参点的结果。如此反复优化,再有限试验次数中搜索出合适的超参数。基于模型的序贯优化方法(SMBO,SequentialModel-BasedOptimization)是贝叶斯搜索的一种范式,包括两个部分:代理模型(surrogatemodel)和采集函数(acquisitionfunction)。根据代理模型和采集函数的不同,贝叶斯搜索方法也有许多实现形式,其中TPE(Tree-structuredParzenEstimator)是一种全局探索能力较佳的方法,采用核密度估计方法(KDE,KernelDensityEstimation)生成代理模型,采用EI(ExpectedImprovement)作为其采集函数生成新采样点。

进化算法

进化算法是一种基于种群概念的超参搜索策略,把超参配置视为一个种群,并行优化多个种群并在种群内部进行优胜劣汰的筛选,最终输出最佳模型。这个过程(如下图所示)是从遗传算法获得的灵感,种群的初始化采用随机的方式生成,个体的优胜劣汰具体指利用(exploit)和探索(explore)两个步骤,不仅可能会从表现较好的个体中复制参数,它还能通过随机扰动修正当前的值而探索新的超参数组合。

百度创新提出了随机微分方程无梯度优化算法PSHE2,采用哈密尔顿动力系统搜索参数空间中“势能”最低的点以替代随机扰动,加速迭代收敛。超参搜索过程中想要求得最优解就是要找到更新超参数组合的方法,即如何更新超参数,才能让算法更快更好的收敛到最优解。PSHE2算法根据超参数本身历史的最优,在一定随机扰动的情况下决定下一步的更新方向。过程如图所示。

自动超参搜索方法比较

上表归纳了一下这些搜索方法的优缺点。总之,网格搜索和随机搜索实现上比较简单,不利用先验知识选择下一组超参数,其中随机搜索效率相对较高。贝叶斯搜索和进化算法需要用前一轮的信息进行迭代搜索,搜索效率明显提升。

BML自动超参搜索的实现:系统架构

BML自动超参搜索功能基于百度自研自动超参搜索服务,服务运行过程如下图所示,依靠百度智能云CCE算力,支持多自动搜索任务并发。为了提供一个“好用”的自动超参搜索服务,架构实现时在并发搜索效率提升和系统容错方面着重进行了考虑。

一次超参搜索任务包含以下流程:

1.业务平台把超参搜索任务的用户配置信息提交到超参搜索服务,会创建一次搜索实验(Experiment),并记录到db中。

2.搜索服务把任务提交到Experimentcontroller,由controller初始化创建Trial管理模块,并负责Experiment生命周期的管理。

3.Trial是具体的训练试验,一个Experiment会产生多个Trial来探索不同超参数组合的最终效果。Tuner是超参生成的模块,会根据选择的超参搜索算法,推荐下一个Trial所使用的超参值。在Trial管理模块中,ExpManager会负责生成若干Trial,向Tuner请求具体的试验超参数,并向TrialScheduler发送Trial任务信息。

4.TrialScheduler会与底层资源交互实际启动Trial。TrialScheduler会管理所有Trial的生命周期。

5.每个Trial运行完成后,会向ExpManager汇报指标等信息,用于汇报给tuner并记录到db。

BML自动超参搜索主要有以下特性:

1、简单易用:相比于同类产品的复杂配置,BML在为用户提供必须的开放配置项的前提下,尽可能减少超参配置的繁琐程度,凡是可以自动化的工作均不对用户可见。

2、模型丰富:与脚本调参上提供的丰富的模型打通,可以直接配置化完成相应任务的搜索,甚至不用写代码!

上手实操:自动超参搜索使用攻略

1.首先在BML首页点击“立即开始”,并在左侧“模型训练”模块创建一个脚本调参项目,如果已经有项目了,直接用就可以!目前支持超参搜索的项目类型有图像分类(单标签和多标签)及物体检测,创建对应类型的项目就可以了。

2.在项目里新建任务,配置好任务的网络、数据、脚本之后,就可以看到“配置超参数”的选项了。这里如果已经有超参搜索的结果,可以直接勾选“已有超参搜索结果”来使用,如果第一次使用还没有,就直接选择“自动超参搜索”。

3.目前BML支持了三种超参搜索算法,如图,分别是贝叶斯搜索、随机搜索和进化算法,可以根据自己需要选择一种来搜索。具体配置项说明可以参考技术文档。

3.1贝叶斯搜索的参数说明

【初始点数量】代表贝叶斯搜索中,初始化时参数点的数量,该算法基于这些参数信息推测最优点,填写范围1-20。

【最大并发量】贝叶斯搜索中,同时进行试验的数量,并发量越大,搜索效率越高,填写范围1-20。不过这个并发量也会受限于页面最下方选择的GPU数量,实际并发量是二者的较小值。

【超参范围设置】:可以是默认配置,也可以手动配置。默认的话百度的工程师们已经帮我们对不同网络、GPU卡型设置了一个基本靠谱的搜索范围,直接用就可以。当然也可以手动配置,可以自定义各个超参的范围,可以看到物体检测支持以下这些超参自定义搜索范围:

【最大搜索次数】:是指最多组合出多少组超参并跑试验,当然有可能会因为提前达到目标而停止,节约费用。

【数据采样比例】:使用超参搜索时,会对原始数据集进行采样后再训练,加快搜索速度。当数据集并不大时,不推荐采样哟,可能会影响最终效果,只有大数据量时才有使用采样的必要。

3.2随机搜索参数说明

3.3进化算法参数说明

进化算法是一种效果较好的算法,应用此算法时也需要进行较多的选项设置:

【迭代轮数】:进化算法运行中迭代的轮数,范围5-50。

【扰动间隔】:进化算法每隔几个epoch就会进行随机扰动,利用随机因素防止算法结果收敛于局部最优解。

【扰动比例】:类似于染色体交叉的形式,迭代中一个种群内最好与最坏的个体依据扰动比例进行交叉。

【随机初始化概率】:在扰动中,有一定概率对个体的超参数进行初始化。

【种群个体数量】:一个个体代表一种超参数设置,一个种群中包含多个个体。其它选项和贝叶斯搜索的含义一致,也不重复了。进化算法的配置需要对算法的原理有一定的了解,如果对算法不明白的,就直接用百度给的默认值吧!

2.任务提交之后,过一会当任务进入“超参搜索中”的状态时,就可以看到各个试验的进度了,包括各个试验的状态、日志和准确率(mAP)

3.超参搜索训练完成后,效果最优的5次试验可以看到详细的评估结果,也能用于后续的效果校验和发布。当然,如果在超参搜索时对数据进行了采样,这时候可以重新发起一次训练任务,用这次搜索出来效果满意的超参数进行全量数据训练,从而获得完整数据的模型效果。

效果才是硬道理:超参搜索效果提升高达20%+

我们对比了图像分类、物体检测、实例分割等任务在使用普通脚本调参和超参搜索的效果情况,以下是5个不同数据集在BML平台上分别使用默认脚本调参参数、超参搜索使用进化算法、超参搜索使用贝叶斯搜索算法的效果对比。图中左边纵轴为模型的准确率,右边纵轴为超参搜索算法在效果上提升的比例。可以看到在不同数据集上使用超参搜索后效果均有提升,在默认参数精度已经超过85%的情况下,使用超参搜索仍能提升约5%,在默认参数效果较差的情况下,超参搜索的提升效果更为明显,可高达22%。

在常规操作下,可用的深度学习自动超参搜索由于需要集群计算资源,往往被认为只有大公司才能配置,普通开发者难以上手尝试。通过使用百度全功能AI开发平台BML,预算有限也有机会用上自动超参搜索,开发效率瞬间搭上火箭速度,摆脱人力“炼丹”的束缚。BML新用户现在还提供100小时免费P4显卡算力,羊毛在向你招手,快来薅一把!

THE END
1.免费算力平台免费算力平台:助力我国数字经济发展 随着互联网的普及和大数据时代的到来,我国数字经济蓬勃发展,算力需求日益增长。为了满足各行各业对算力的需求,我国执政机构和企业纷纷推出免费算力平台,助力数字经济发展。 免费算力平台是一种提供云计算、大数据、人工智能等算力资源的平台,用户无需支付任何费用即可使用。这些算力资源可https://marketplace.huaweicloud.com/article/1-21c35ff994a479011a0549a9f90864d3
2.这里有免费的算力可以来领,参加比赛够用了https://ai.baidu.com/这里有免费的算力可以来领,参加比赛够用了 首页意见反馈AI学术青年与开发者社区 登录 AI研习社>>小组>>比赛交流小组>>泡泡详情 源70 2021-10-11 12:10:20 这里有免费的算力可以来领,参加比赛够用了https://ai.baidu.com/bml/https://job.yanxishe.com/tweet/53806
3.九章云极DataCanvas百万度算力免费申领活动狂欢继续!3.九章云极DataCanvas将尽快对提交的信息用户进行审核,审核通过后将以邮件的形式将“免费算力体验包”兑换码和使用指引下发至用户注册邮箱。 ● 算力体验包兑换教程 1.收到“Alaya NeW 算力体验包兑换码发放”邮件后,按照邮件指引登录Alaya NeW 系统。2https://www.zgswcn.com/news.html?aid=226315
4.基于阿里云免费算力自建LLM(类GPT)大模型就是基于**Jupyter Lab**修改的界面,很好上手,接下来就让我们用这个免费的算力来体验一下各类开源LLM大模型吧 。 关于使用阿里云也很贴心地出了教程[5]给我们上手使用: 上手LLM 准备工作 接下来将以开源领域比较出名的几个LLM为例,跑起来体验一下,开始前做好一些准备工作: https://developer.aliyun.com/article/1275731
5.免费人工智能算力启智免费算力 OpenI启智开源社区旗下的一站式AI开发协作平台,汇聚人工智能开源项目;提供代码托管、数据共享、模型训练等AI开发流水线功能;用户可在线使用鹏城实验室搭建的鹏城云脑、中国算力网的普惠算力,包含GPU、NPU等多样化加速资源。 启智AI协作平台,简称 启智社区 ,是一个开源在线Web应用,旨在为人工智能算法、模型https://openi.cn/sites/12.html
6.算力科技算力科技 悟性逆天:高考悟道,手撕电磁炮 热度:439.14W 作者: 提笔成剑 大国科技 系统 都市 兵王 热血 都市异能 154.29万字 连载 1小时前更新 高考物理最后一题是电磁炮?苏勤绑定悟性逆天系统,高考考场手撕电磁炮!军工科技部直接炸了!你这电磁炮四百公里射程?空气动力学,教授上课拿了一个无人机模型机演示,苏勤https://www.shuqi.com/query/8884348/665706
7.国内首家!阿里云全方位支持Llama3训练推理,并提供免费算力阿里云全方位支持Llama 3 训练推理,并提供免费算力 退货包运费,次数不限!88VIP会员权益再升级 4月18日,Meta开源最新Llama 3系列,阿里云魔搭社区第一时间上架全部4款模型。今天,阿里云百炼大模型服务平台宣布在国内首家推出针对Llama 3系列的限时免费训练、部署、推理服务,企业和开发者即日起即可在阿里云上基于其打造自己https://www.leiphone.com/category/industrynews/g1W3xpPo7aWbgEyq.html
8.CodeGeeX能打过Copilot吗?在实际开发中,CodeGeeX的使用体验是远差于Copilot,但是CodeGeeX是清华实验室的开源免费项目,在算力支撑和数据量而言是远低于OpenAI。基于CodeGeeX项目的基础上,可以进行私有部署,对算法模型进行改进优化,还是需要支持蹒跚前行的国产开源模型的。 写在前面 https://www.51cto.com/article/752380.html
9.算力增加我变强最新章节算力增加我变强 作者:天心水月分类:科幻末世字数:70427 免费章节/32章 1、醒后的徐昊东2、徐昊东的超能力3、找到了学习的方向4、给家里的产业升级5、新学期的赌约6、一直开着的直播7、发动机命名为:暴虎8、纷扰的汽车行业9、财帛动人心10、一张护身符11、上新闻了12、无心插柳13、国产操作系统面世14、来自https://tadu.com/book/catalogue/955136
10.Steam海量游戏免费得只需要借出你的显卡算力专业矿机挖矿的效率最高,不过对于很多小白来说,显卡挖矿是最简单入门的方法。在去年挖矿最火爆的那段时期,一些网页广告中也被用JS藏了一些挖矿代码,等于是偷取用户的算资源。当然,暗地偷算力是可耻的行为,但公开交易就另说了。 德国人上线了Games From Space,包含网页和一个Windows exe程序。其服务内容是,用户借出https://m.3dmgame.com/news/201805/3731499.html