它尤其适用于描述L2-L3-L4自动驾驶的智能化处理方式。而自动驾驶是“具身智能”重要落地场景。最上面是“传感后融合“,传感器数据处理后再融合、预测、决策、控制。中间是“传感前融合“,即数据先同步和融合后,再预测、决策、控制。下面近似为“端到端”,大大增加了预测、规划、控制的数据处理。如果这个问题扩张到更大的范畴,例如增加AI推理+理解+运动,把机器人也绘制进去,就得到下面的“具身智能产业链图”。
1.2传感器:机器人传感器
1.3AI3D视觉:NeRF,三维重建新范式
NeRF,即NeuralRadianceFields(神经辐射场)。其通俗理解:给予海量不同视角的二维图,合成同一场景不同视角下的图像。还可以通俗理解为X-Y-Z到三维极坐标的转化,第三视角到第一视角的转化。NeRF提出的隐式表达以空间点的坐标和观察者的视角、位置作为输入,输出则是点的RGB信息和占用密度。占用密度这一点与占用函数相似,但没有像占用函数那样粗暴地用0和1表示一个点是否被占用,而是用0~1之间的数字表示点被占用的程度这样可以大幅减少计算量。
辐射场:如果我们从一个角度向一个静态空间发射一条射线,我们可以查询到这条射线在空间中每个点(x,y,z)的密度ρ,以及该位置在射线角度(θ,φ)下呈现出来的颜色c(c=(R,G,B))。即F(x,y,z,θ,φ)→(R,G,B,ρ)。密度是用来计算权重的,对点上的颜色做加权求和就可以呈现像素颜色。给定F(x,y,z,θ,φ)直接查表获得RGB值和密度,给体渲染方法。体渲染:对上述辐射场的密度和颜色做积分,就可以得到像素的颜色,并遍历所有像素,这个视角下的图像就渲染出来了。
1.4AI3D感知:BEV,可用于具身智能感知
这种方式的优点有:减少硬件传感器、提高纯视觉精度、可复用多种数据源(甚至多模态),缺点是成本高。1)这种鸟瞰图仿佛就是开了一个整体视角,让车辆能够把近处的感知统一放到一个平面中,尽可能的增大了感知的范围和冗余度。2)但缺点是成本,2023年,如果要做BEV的城市辅助驾驶,可能需要投入超过百亿元。3)BEV可以结合国内的传感器优势。尽管国外通常利于AI软件优化智能驾驶,国内通常利用激光雷达等传感器优化智能驾驶,但BEV可以融合激光雷达的点云,做到尽量统一。下图就是一个案例:主要有两个分支将点云数据转换为BEV表示。上分支提取3D空间中的点云特征,提供更准确的检测结果。下分支提取2D空间中的BEV特征(原始点云转换),提供更高效的网络。
1.5AI3D感知:占用网络
1.6从AI感知,到端到端+具身智能(感知+预测+推理+理解+运动)
2)Userontheloop
交互式对话,以解决复杂的机器人任务,例如需要多步骤或多个目标的任务。用户可以通过对话提供高层次的反馈、指导或修改指令,而ChatGPT可以根据用户的意图和上下文调整代码或行为。这种能力可以让用户更灵活地控制机器人,而不需要一次性给出完整的指令。
场景:机器人协作、机器人教学、机器人规划等。优点:可以提高机器人任务的成功率和鲁棒性。缺点:可能需要更多的对话轮次或用户干预。
3)Perception-actionloops
ChatGPT可以利用视觉信息来指导机器人的动作,例如识别物体、估计距离、规避障碍等。可以通过XML标签或其他格式来接收和处理图像数据,并生成相应的代码或动作序列。这种能力可以让机器人更好地适应复杂和动态的环境,而不需要预先定义所有可能的情况。适用场景包括机器人导航、机器人抓取、机器人搜索等。优点是可以增强机器人的感知和决策能力。缺点是可能存在视觉误识别或动作不准确的风险。
4)Reasoningandcommon-senseroboticstasks
ChatGPT可以利用常识知识和推理能力来解决一些需要逻辑、几何或数学思维的机器人任务,例如计算角度、判断方向、选择最优路径等。ChatGPT可以通过自然语言或数学表达式来表达和解决这些问题,并生成相应的代码或动作序列。这种能力可以让机器人更智能地执行一些抽象或难以描述的任务,而不需要用户提供过多的细节。适用场景包括机器人推理、机器人游戏、机器人创造等。优点是可以拓展机器人的应用范围和难度。缺点是可能存在常识错误或推理失败的风险。
1.8具身智能:AI理解+运动
1.9具身智能的零样本尝试:如李飞飞VoxPoser
我们分析了2022年12月《RT-1:ROBOTICSTRANSFORMERFORREAL-WORLDCONTROLATSCALE》、2023年7月《RT-2:Vision-Language-ActionModelsTransferWebKnowledgetoRoboticControl》,做一些分析。2022年12月《RT-1:ROBOTICSTRANSFORMERFORREAL-WORLDCONTROLATSCALE》,指出:1)难点是可扩展和大容量。AI在视觉、NLP等领域已经成功,从孤立的小规模数据模型转向大型通用模型(预训练过)。后续,要点是开放式任务不可知训练,以及能够吸收大规模数据,形成高容量架构。2)难点是机器人的多任务模型。在有监督学习中,消除对大型特定任务数据集的训练很有意义,但对于多任务训练很难。在机器人领域,希望训练一个强力的、大型的多任务骨干模型。
2023年7月《RT-2:Vision-Language-ActionModelsTransferWebKnowledgetoRoboticControl》。1)增加互联网学习能力,利于扩展。论文指出:研究了如何将基于互联网规模数据训练的视觉语言模型直接纳入端到端机器人控制中。并使RT-2能够从互联网规模的训练中获得一系列紧急能力。这利于解释机器人训练数据中不存在的命令的能力(例如将对象放置在特定数字或图标上),以及响应用户命令执行基本推理的能力(如例如拾取最小或最大的对象或最接近另一对象的对象)。2)增加有效率的“泛化“能力。论文指出:为了将自然语言响应和机器人动作都适应相同的格式,将动作表示为文本标记,并以与自然语言标记相同的方式将其直接合并到模型的训练集中。正文称之为视觉语言动作模型(VLA)。值得注意的是,本文的VLA/VLM与李飞飞团队定义的VLM的含义有相似之处,均为visionlanguageactionmodel,只是VLA更强调动作action。3)强调了动作微调。为了使视觉语言模型能够控制机器人,必须训练它们输出动作。论文采取了一种直接的方法来解决这个问题,将动作表示为模型输出中的标记(类似语言标记)。动作空间主要包括机器人末端执行器的六自由度(6DoF)位置和旋转位移。
1.11产业链小结
本章讨论两大关键问题:耦合/解耦,钟摆效应。
2.1软硬件耦合或解耦:可能是两套体系
2.2钟摆效应
最终两种路径往往互相学习、借鉴,形成“折中”的形态。
当前情况下,具身智能和AI软件的工程化落地是关键。我们从历史经验中发现,现金流好的公司,创新胜率明显更高。工程化能力虽然难以量化,但净营业周期往往是很好的代替,就是经营周转能力。往往反映了“研发+产品+工程+销售+话语权”。
3.1“仓廪实而知礼节”:适用于具身智能+AIGC
3.2技术和工程能力的财务筛选
工程化能力虽然难以量化,但净营业周期往往是很好的代替,就是经营周转能力。往往反映了“研发+产品+工程+销售+话语权”。
其次,“SaaS+AI”拉动新增量,萤石云有望非线性加速。此前云服务付费率不高(根据公司年报,2022年C端持有萤石设备的年度累计活跃用户数约2100万,持有萤石设备的年度累计付费用户数约227万,付费率约10.8%),主要由于能力单一(云存储占绝对大头)。当前变化正在发生,2022年底公司推出了首款老人看护服务套包,此外面向宠物看护、儿童看护等特殊场景将持续推出SaaS化订阅的AI算法包,通过为客户提供增量价值、切中用户刚需,实现云业务付费率、ARPU值的上行。并且在未来有望结合AI大模型,在改善体验的同时增加收费点,进一步提升云服务收入增速和占比。
此外,公司在线上线下、国内国际渠道全面布局,助力上述逻辑加速兑现。1)国内电商渠道方面,加大在常规的电商平台上直播和优质达人带货,还积极开拓抖音等内容兴趣电商的直播渠道销售;2)国内线下渠道方面,公司形成了直营旗舰店、经销商专卖店、下沉市场堡垒店等多层次的终端渠道架构,积极布局线下专卖体验店,助力全屋智能系统业务;3)海外渠道方面,上半年在零售连锁卖场、家居建材类连锁店、专业经销渠道和街边店等多渠道中均取得了较好的增长,目前已在多个国家和地区实现线上与线下多渠道覆盖。
公司上市前主业为激光切割设备运控系统,上市后公司纵向延伸智能激光切割头业务、横向拓展智能焊接机器人控制系统业务。
(一)业务1:激光切割系统-柏楚方案降低行业准入门槛,综合市占率持续提升
(二)业务2:智能切割头-搭载高功率切割设备,渗透率提升+国产替代
切割头充当“四肢”的角色,与控制系统实现协同互补。激光切割控制系统与智能激光切割头是大脑与四肢的关系,两者软硬结合,需要在信息收集、传输、反馈的同步性和精密性上达到很高的契合。切割头在激光切割中的工作流程是:激光器产生激光,通过外光路传输,在切割头内经聚焦镜聚焦后,作用于被加工材料表面,将材料气化或者在切割气体辅助下形成熔池,以实现吹散被激光融化的金属熔渣或助燃。由于高功率激光切割的工作环境恶劣,设备需要在高温、高湿、粉尘污染大的环境下运行,外部环境和切割头内部任何微小的变化都会对设备性能和切割效果产生较大影响,因此及时将工况信息传递回控制系统,由控制系统进行实时调整,有助于最大程度保证激光切割设备的工作效率。
(三)业务3:智能焊接机器人控制系统-机器换人大势所趋、柏楚产品或迎放量期
钢构非标场景属性,倒逼智能焊接机器人需求。智能焊接机器人产品为电弧焊焊接机器人。按照机器人加工路径生成的方式不同,焊接机器人产品可以分为示教焊接机器人和智能焊接机器人两类。示教焊接机器人主要需要人工示教来编辑焊缝的加工的路径;智能焊接机器人通过离线编程来生成焊缝加工路径。目前国内焊接行业自动化水平较低,现有进口产品成本过高,且对操作调试人员的技术能力具备较高的要求。而随着我国钢结构产业的持续快速发展,钢构产品产量增加将直接带动钢构焊接市场需求。与此同时,焊工工种的持续短缺,使得钢构企业对于焊接自动化解决方案的需求与日俱增,智能焊接机器人替代人工为行业趋势。
完整的钢结构零件焊接加工流程及公司核心技术在焊接工艺的应用情况如下:第一步、从Tekla,Revit等建筑设计软件里导出需要焊接的钢结构零件模型。第二步、对钢结构零件模型进行编辑,设置焊缝,生成坡口并设置焊道顺序。第三步、在数字孪生系统中编辑机器人焊接动作,进行运动仿真,确认加工路径正确没有碰撞。并生成焊接加工站运行指令。第四步、3D相机扫描整个工件,对工件进行识别和空间定位,并校正焊缝的加工位置数据。然后机器人根据焊接指令运动到焊缝起始位置进行焊接。焊接过程涉及机器人姿态自适应调整,动态规划路径以及自动避障,焊接工艺选择匹配,焊缝跟踪传感器控制,图像信号处理,焊缝跟踪过程以及焊接工艺动作实时调整,最终完成零件的焊接。
切割与焊接为上下道工序,柏楚切割场景积累技术工艺可部分复用于焊接场景。切割与焊接在钢结构产品生产制造中属于上下游工序的关系。由于焊接与切割在CAD技术、CAM技术、NC技术、传感器技术和硬件设计在智能制造和自动化领域的共通性,公司在切割领域所积累的核心技术储备为进军智能焊接机器人及控制系统领域奠定了坚实的基础。目前,国产焊接机器人大多数为需要人工示教的半自动化模式,公司通过开发工件视觉定位系统、智能焊缝跟踪系统通过视觉传感器识别工件和焊缝,智能焊接离线编程、控制系统通过CAD技术、CAM技术、NC技术进行焊接机器人加工工艺控制,达到取代人工示教模式进行自动化智能焊接的效果。当前下游钢构企业迫于产能及成本压力,对于智能焊接机器人需求迫切,随着公司产品成熟度提升及积极市场推广,未来焊接产品或将迎来放量期。
中控技术是基于流程制造业智能制造的解决方案领军,其软件能力近年大大增强。根据Wind,公司始终坚持通过自主创新打破跨国公司的技术壁垒,持续加大研发投入及研发平台建设,成功取得了一系列发明专利、技术奖项、产品认证及国际标准和国家标准。公司曾获得国务院授予的国家科学技术进步奖二等奖、一项中国标准创新贡献一等奖和多项省部级以上科技进步类奖项,牵头或参与制定国际标准、国家标准多项。2014年公司成为首批被推荐的两化融合管理体系贯标咨询服务机构,首次通过CMMI5级软件能力成熟度认证;2017年,公司入选全国首批智能制造系统解决方案供应商推荐目录和全国首批30家服务型制造示范企业名单;2018年,入选中国智能制造系统解决方案供应商联盟第一批供应商推荐目录;2019年,被工信部评为国家技术创新示范企业,被国家发改委认定为国家企业技术中心。