CAAI名誉理事长李德毅:可交互会学习自成长是智能农机的硬核人工智能人机交互机器人

近日,在以“农业无人农场”为主题的中国工程科技论坛上,中国工程院院士,欧亚科学院院士,中国人工智能学会和中国指挥与控制学会名誉理事长,中科原动力首席科学家李德毅院士应邀做题为《机器具身交互智能》的演讲。李德毅院士表示,智能机器不但把人从繁重的、重复性劳动中解脱出来,更好地符合相应工作岗位规范化要求,更重要的是可以暴力计算,人机交互协同创新。他认为,智能农机的硬核已经跃过了算力、算法和数据阶段,可交互、会学习、自成长是新一代智能机器的硬核。未来,教机器学习、作业,和机器一同学习、作业,将成为人们生活和工作的常态。机器和科学家、工程师可一同作出发明发现和创造。

本次报告的主要内容是将“具身智能”结合农机展开,分为以下三个部分:

1、深度学习应该在和外界实时的交互和迭代中完成。

2、通过具身控制和自动调节确保机器行为与环境的协同。

3、可交互、会学习、自成长是智能农机的硬核。

以下为李德毅院士演讲实录:

本次报告的题目——机器具身交互智能(InteractiveEmbodiedIntelligenceofMachines),即在具身智能的基础上加上交互(interactive)一词,以体现交互的重要性。

近日,OpenAI发布的ChatGPT人工智能模型能以对话的形式与人类进行互动,其能否替代Google搜索引起了科研人员的激烈讨论。其实,Chat就是谈话、聊天,麦拉宾法则指出,人的交互过程中有55%的信息通过视觉传达,如仪表、姿态、肢体语言等;有38%的信息通过听觉传达,如说话的语气、情感、语调、语速等;剩下只有7%来自纯粹的语义,而ChatGPT还是靠语义输入的,这部分仅占人类交互中的7%。

因此,交互在具身认知当中起很大的作用,具身智能是人类认知的源泉和归宿。人类认知始于行为和模仿,最早的肌体语言导致形象思维,行为是智能的外化表现,称为具身智能。肢体动作是无声的语言,舞者用行为表现艺术,机器用行为体现互动,汽车防抱死刹车系统(ABS)能够使车体动力学行为更快更准,智能灵巧手给老人端茶喂饭,表现出行为的温柔;无人驾驶的轮式机器人进入城市交通流中,如果行为动作怪异,不能识别交警手语和路人请求打车手势,人们是不会允许它上路的;车身必须体现出良好的位置感、方向感和地理认知能力,有良好的空间运动学行为,表现出的具身智能和驾驶员开车类似才能被认可,智能农机亦然。

一、深度学习应该在和外界实时的交互和迭代中完成

学习的结果是记忆,记忆智能优先于计算智能。深度学习的贡献在于使人工智能走上了一个新的台阶,打破了“算法长期被困在程序里”的封闭局面,打破了需要预写程序通过编译才能获得智能的传统方法,用标注代替记忆,从大数据中直接获得分类知识,用数据修改算法中的参数,开辟了机器学习的新纪元。

但深度学习存在先天的不可解释性,因此具有一定的局限性,目前主要体现在以下7个方面:

2、鲜有多通道跨模态感知,尤其是视觉、语言和肢体行为的跨模态感知;

3、标注不可或缺且成本高,被戏说为“有多少人工,才有多少智能”;

4、没有体现注意力选择,没有得到当前工作记忆和长期记忆对新观察的指导;

5、通用性和鲁棒性差,存在数据偏见,容易受到对抗样本的欺骗;

6、采用超大模型、超大参数预训练大型神经网络,计算成本昂贵;

7、一旦部署于应用,就无法在运行时在线学习新知识。如果要求机器视觉识别新的图像对象,必须对模型修改并在新的数据上重新训练,智能难以自成长。

图灵奖获得者杨立昆(YannLeCun)对深度学习的未来提出了一个工作设想,如图所示:模型含配置器、感知、世界模型、成本函数、短时记忆、行为者6个模块。核心是配置器的生成和调度,感知模块接收物理世界的传感器信号,估计当前系统状态;成本模块以能量最小为目标评价机器的行为;短时记忆负责提取世界模型的记忆,同时可加强或者微修饰世界模型,行为者模块根据当前系统状态计算动作指令并执行。这个模型很好,但缺少了人对机器的控制和交互,深度学习应该在和外界实时的交互和迭代中完成。

二、通过具身控制和自动调节确保机器行为与环境的协同

农机在田间耕作时要跟土地协同、田埂协同、植物协同。那么,怎样通过具身控制和自动调节,确保机器行为与环境的协同?

“图灵可计算”开创了机器暴力计算的先河。公元前200年,阿基米德把1700年前的圆周率精度从3.1提升到3.14,公元500年,祖冲之求得π值为3.141592,总计用了2400年,按图灵可计算模型设计的计算机把圆周率提升到小数点1012位,仅仅用了70年。算力的提升体现出图灵的伟大、暴力计算的伟大、暴力思维的伟大,但图灵机也有自身的局限。

机器具身智能中不可或缺的是多通道的跨模态交互。行为交互最能体现机器认知的试探和反馈,认知的机器要能在与环境的互动过程中学习和成长。但冯诺依曼计算机架构中只有输入/输出,且输出相比输入具有一定的时滞性,没有多通道跨模态的感知交互,这成为用计算机做智能机器的一个致命弱点,人类到了发明认知机的时候了。

认知的全部活动是“感知-认知-行为”的螺旋上升过程,认知不可能独立于感知和行为,我们要克服图灵机的两个局限:(1)孤立了认知,忽视了机器具身与环境的交互;(2)孤立了计算,忽视了记忆。

图灵24岁之后18年的学术思想使他成为“人工智能之父”。在42年的生命中,他24岁时写了图灵机,然后从24岁到42岁的18年间,他都在研究人工智能。他在1950年发表的历史文献《计算机械与智能》中,开宗明义地要大家考虑机器能否思维,他分析并驳斥了9种对思维机器的反对意见,主张教机器学习,只要机器在语言行为(对话)上和人没有明显差别,就是能思维或有智能了,这就是后来所称的“图灵测试”。他认为可以编制一个“儿童程序”,然后对其进行教育,以达到成人的智力水平。

但图灵的这一主张在全球包括中国,都没有得到足够的重视。以“儿童程序”为例,如何才能使其体现基因遗传的“幼儿认知核”?如何对机器进行教育,怎样指导机器的学习,如何让它自主学习?目前的研究还很不够。如果回顾图灵的9种反对思维机器意见的驳斥,会发现其与对当前人们对机器的恐惧的批评基本是同样的。

控制论之父诺伯特·维纳于1948年提出《控制论:动物和机器中控制与交互的科学》,他认为:“如果我们使用一台机器来实现我们的目标,但又不能有效地干预其运作方式......那么我们最好能确定输入给机器的目标是我们真正所预期的。”因此,麦卡锡认为:“人工智能本应该叫控制论,就是智能的自动化。”诺伯特·维纳强调:“控制就是追求熵减,通过负反馈来确保机器具身行为智能的稳定性。”自动控制是强化学习的发源地,任何奖罚函数,可以与偏差为零的反馈控制等价。

我的团队十几年来一直致力于实现机器驾驶脑,其架构与图灵奖获得者杨立昆提出的架构实际上具有异曲同工之妙,如图所示。

在瞬时记忆里我们强调:定位传感器,特别是北斗&GPS等定位设备,要求能够达到厘米级导航;车姿传感器包括车身的加速度,速度;视觉传感器看图像,雷达传感器看距离、看路权。把这些信息进行跨模态的交互融合,形成当前的驾驶态势图,送入工作记忆。在人脑中还有长期记忆,即要有驾驶地图、交通规则、各类记忆棒。除此以外,还要有人机交互,要完成路径规划,要通过学习思维完成自主决策,要通过汽车的控制平台、三个总线执行汽车的运动行为。我们认为:深度学习将来要在实时的交互和迭代中完善和成长,不能仅仅是预训练、预编程。

ChatGPT在训练过程中高薪聘请了“提示工程师”,同理在农业机械自动驾驶中也需要“指导工程师”,即让农业技术专家来教授农业机械进行无人化作业。如图所示,物理空间用蓝色表示,认知空间用浅咖色表示,整个学习、推理过程都在物理空间和认知空间中进行。

在认知空间中,进行情境感知、跨模态融合形成瞬时记忆,在工作记忆中,通过当前态势的“判断黑板”,在记忆约束下进行计算,进而在当前环境下进行推理,如路口等待、超车换道等行为决策,同时在长期记忆里进行记忆提取,使用注意力选择、路权来改变当前的驾驶态势。而在物理空间中要实现车身控制,则由运动姿态传感器进行数据反馈,通过作业行为的反馈,使车身能够按决策行动,同时也感知周边环境数据,根据环境变化动态调整认知空间的输入。

因此,上图实际上是“感知-认知-行为”的物理模型架构图,通过嵌套的控制回路,人与机器能有效沟通完成预设任务,即“指导工程师”的任务——人教机器学,机器自主学,机器逐渐地理解人设定的任务目标,其统一的过程可称为使命对齐,精准完成作业,具身体现智能。

三、可交互、会学习、自成长是智能农机的硬核

智能农机的硬核已经跃过了算力、算法和数据阶段,更重要的是交互、学习和自成长。可交互、会学习、自成长是新一代智能机器的硬核。

回顾一下,农耕时代的工具和工业时代的机器为什么不会思维?

农耕时代工具的二要素说。工具里有实体物质和虚体结构,结构直接寄生在物质上,形成硬构体。什么是结构寄生在物质上?以农耕时代的轮子为例,轮子取自于天然的树干,人们用煣的工艺把它弯曲,使其符合圆的标准,并固定它的结构。这样一来它就不是一个简单的物质材料,而是一个工具,叫做轮子。在人类历史上,轮子的作用是可以跟火的发明相提并论的。

通过查询了200多种关于“智能”的定义,我们认为,对于智能的定义可以放宽一些,不论是智能、认知或者思维,都可笼统地定义为:培养和传承解释解决预设问题的学习能力,以及解释解决现实问题的能力。

智能农机在田间的学习和作业,包括先入为主、赋予任务、引导、释疑、解惑、交互认知、监督等有指导的学习。而自主学习是把指导学习的结果转为长期记忆的重要环节,例如复习功课、消化理解。如果简单地把指导学习称为有监督学习,自主学习称为无监督学习就过于简单化了。

因此,智能农机的学习应当包括三个环节:(1)农机手操作、机器人学习;(2)机器人操作,农机手干预;(3)机器人作业、机器人自学习。这三个过程不断循环迭代,实现有指导学习、半/弱指导学习、自主学习。事实上,所有的机器学习过程都应如此,过去的研究过分看重了L0到L5自动化的实现,而忽视了学习、交互和成长。

具身智能在一次次图灵对话测试中迭代成长。图灵对话测试具有多样化和常态化的特点,而所有机器工作语言的原语言都是自然语言,因此图灵提出用对话来做图灵测试是非常有见解的。语言能力是机器智能的杰出表现,而特定领域机器工作语言的语音、文字、符号具有限制性,用自然语言表达的公理来约束,其在一定程度上可以被形式化,以数学为甚、物理学次之,均服从哥德尔的不完备定理。因此机器思维先要把其工作语言形式化,只有形式化才可机械化,而后自动化。一旦自动化,思维的深度就一定会超越人。

如上图所示,图灵测试可应用于多个学科和领域。在社区聊天,可以做对话的图灵测试;在文学语言中,可以做虚拟演员的图灵测试;在游戏语言中可以做围棋的图灵测试;在数学语言中可以做机器定理证明;在美术语言中可以做机器作画的图灵测试;在唐诗宋词中可以做机器写作图灵测试;在法律语言可以做机器律师咨询的图灵测试;那么,在物理学语言里我们可以做智能农机的图灵测试,因此智能农机要一定要有语音交互,未来图灵对话测试一定会多样化、常态化。

思维的本质是抽象和联想,更多的是软构体的创立和连接。智能机器在常态化的图灵测试中学习,变为具身的智能。机器越来越多地取代人类曾经的许多智力和技巧工作,对各行各业特定岗位上的机器的教育训练是个并不轻松的任务。教机器学习、作业,和机器一同学习、作业,将成为人们生活和工作的常态。学习的结果是去微调机器里的长期记忆,即微调人工智痕细胞的网络拓扑,自主学习是把工作记忆转化为长期记忆的重要环节,可喜的是机器可以大批量复制,而且机器自身又可以持续学习。与机器交互,人教机器,机器教人,协同创新,总有一天出现机器工程师创造出新材料的配方,机器科学家提出新的假设,驱动产生新的科学发现。

机器具身交互智能,是从学习到创造的智能。智能机器之于人类智能,就如同曾经的望远镜之于天文学家、显微镜之于生物学家。机器延伸和拓展了人的记忆智能和计算智能,不但把人从繁重的、重复性劳动中解脱出来,更好地符合相应工作岗位规范化要求,更重要的是可以暴力计算,人机交互协同创新,机器和科学家、工程师可一同作出发明、发现和创造,至于是不是机器做出的创造,人们已经不再计较。

THE END
1.钢材的分类及标号是什么,钢材的分类及标号新闻中心DC533)专业用途碳钢,比如桥梁钢、船用钢等,大部分选用碳素结构钢地表示方式,但钢号更终额外表明用途英文字母。 2、高品质碳素结构钢 1)钢号开头二位数字代表铝的碳含量,以均值碳含量的百分之零点几表明,比如均值碳含量为0.45%的钢,钢号为“45”,它并不是序号,所以无法读成45号钢。 https://www.promaxs.cn/news/2314.html
2.的不是代表城市的字母而是数字,例如川20,川15,川05,这是什么农用车车牌的格式为什么和一般车牌的格式不一样,如川05,川15,川20,数字代表什么呢,谢谢!~ 农用车是不能上高速的,农用车的发牌不是车管所。是农机管理部门核发。川是四川的缩写。05对应的是地区号。对应的车牌字母是E。也就是说川05的农机对应的地区车牌号是川E。一般都是这样,也有特例的像有些字母被当地部https://www.da-quan.net/wa/ace7ca7h3.html
3.汽车VIN码第十位表示汽车生产年份,字母“B”表示该车生产年份为【单选题】1995 年 10 月 30 日第八届全国人民代表大会常务委员会第十六次会议通过( ),并于当日起实施。 查看完整题目与答案 【单选题】关于晶状体核下列说法正确的是( )。 查看完整题目与答案 【单选题】《中华人民共和国食品卫生法》将我国长期以来实行的行之有效的食品卫生工作方针、政策,用( )的https://www.shuashuati.com/ti/05042102cca446e2a99028ef14c120ad.html?fm=bdb970e8d37110c928756eefd0fc687afb
4.企业技术档案管理1.19本村工会年度工作计划、总结,工会代表大会的通知、名单、议程、开幕词、报告、决议、闭幕词、选举结果等材料永久1.20本村工会干部任免的请示、批复,会议记录,工会干部、会员名册及统计年报表等材料永久1.21本村妇代会换届选举等材料永久1.22本村计划生育工作年度计划、总结、统计表等材料永久1.23本村独生子女证申请表,https://www.danganj.com/news/21461.html
5.成人谜语脑筋急转弯(精选17篇)5. 什么成语最能代表女人因她男朋友对她的所做所为而分手的?答案:无孔不入(只能意会,不能言传) 6. 男人为什么喜欢美人鱼?答案:美人鱼不会劈腿 7. 比古代四大美人更有魅力的是谁?答案:康师傅(每天都有成千上万的人泡他) 8. 日一人是什么字?答案:是 https://www.360wenmi.com/f/file23wsvq21.html
6.农业机械运用与管理重点.doc全文免费教育培训的主要内容是什么:主要包括党和政府的方针政策、农机法规。农机基础理论知识、驾驶操作技能。机务规章及农机安全操作技术等 教育培训的主要形式有哪些:农机安全宣传教育、岗前培训、年审培训 驾驶操作人员的年度审核内容有哪些:1、安全驾驶,有无违章,事故2、驾驶证的审核、3身体有无妨碍安全的变异4、对驾驶员进https://mip.book118.com/html/2019/1022/7012113042002065.shtm
7.企业高层参考第25期企业高层管理者参考四川企联网文章提到,新质生产力代表着生产力跃迁的方向,是引领现代化产业体系建设的革命性力量;产业是生产力的载体,培育和发展新质生产力要求建立自主可控、安全可靠、竞争力强的现代化产业体系;生产力的发展是连续的,发展新质生产力不是忽视、放弃传统产业。必须坚持把发展经济的着力点放在实体经济上,围绕发展新质生产力布局产http://www.scecea.org.cn/show-46-3511-1.html
8.水泵常见故障及分析机械密封在出厂前须做密封性能试验,并有合格证。机械密封经过长期运行,使动环与静环磨损,弹簧与轴锈蚀磨损、密封胶圈磨损、老化、变形等,都能造成密封的泄漏,必须修理或更换新件。动环和静环的密封面不得有裂纹、掉角、划痕、麻点、飞边及偏磨,划痕、麻点不能贯穿整个密封端面。若使用修复的动静环时,动静环的凸台https://www.360doc.cn/mip/25853969.html
9.重庆2025年车牌自主选号字母是什么号段了重庆2025年车牌自主选号字母是什么号段了是驾驶员考试网为大家收集整理的,重庆2025年车牌自主选号字母是什么号段了和驾考刷题宝典2025科目一,重庆2025年车牌自主选号字母是什么号段了能让你更快通过元贝驾考刷题宝典2025科目一科目四模拟考试。重庆2025 年车牌自主选号字母是什么号段了。 https://www.jsyks.com/ks/ccf19f_500240104.htm
10.官网农机三角带,工业三角带,农机橡胶件,农机三角带价格,三角联农有话说:三角带上的字母代表什么? 机手朋友们你们在挑选皮带时注意过三角带上面的英文后缀嘛Lw、Le、La、Ld、Li它们有什么特殊含 三角带运行时为什么会打卷、扭转? 三角带有时候会打卷、扭转,这是什么情况,怎么解决?原因分析1、带轮偏斜2、带截面与槽截面不符3、带 三角带的日常保养方法?http://www.liannongchina.com/
11.各部门待遇排名公务员报考必看推荐xxxxxxxx1x2xxxxxxx31、农机局 事业单位。从名字上就能看出其重要与农机打交道,但机关毕竟是事业全供,谨慎选择. 32、人防办 机关是行政单位。差点漏了这个好单位,其不太好听的名字,让一般人不会注意,其实这个单位福利特别好,据说以前年底发奖金可以和税务相比,成万的发。 33、广电局 机关是行政编制。也不错的单位,下面管着电视台https://www.cnblogs.com/timssd/p/5779568.html
12.科学网—参观世界领衔的农机制造商约翰迪尔公司JohnDeere参观完拖拉机车间,继续乘坐Dr. Han的BMW车前往下一个点(在车上我还调侃问韩老师BMW代表什么,他说不知。我解释道,BMW就是汉语拼音首字母缩写——别摸我!相应的MSN——摸死你!),参观发动机装配工厂(Complete Assembly of Engines 200 - 600 Hp and Deere Crossing II Gift Shop,3801 Ridgeway Avenue 319.292.https://blog.sciencenet.cn/blog-39523-392720.html