[2312.09397]LargeLanguageModelsforAutonomousDriving:Real

根据人类驾驶员和乘客的口头命令做出明智、合理的决策对于自动驾驶车辆的安全性和可靠性至关重要[1,2,3]。这不仅需要对命令的技术翻译和理解,还需要对人类语言固有的细微差别的常识掌握和情感理解。因此,大型语言模型(大语言模型)在该领域的研究人员中广受欢迎[4,5,6,7]。它们源自大量数据的全面知识库和强大的推理能力使它们能够以极高的准确性和类似人类的理解来解释各种人类输入并采取行动。

自动驾驶领域的传统方法虽然在某些方面有效,但在理解和适应人类复杂命令时面临一些关键限制:

为了应对这些挑战并成功地将大语言模型集成到自动驾驶系统中,我们引入了一种称为Talk2Drive的新颖框架。特别是,它将人类的口头命令转换为文本指令,然后由云端的大语言模型进行处理。大语言模型生成由自动驾驶车辆执行的特定驾驶代码,调整驾驶行为和控制参数以符合人类的偏好。车辆中的内存模块存储所有人车交互数据,确保每次驾驶体验都根据人类的历史偏好和命令进行个性化。这种方法旨在克服传统自动驾驶系统面临的几个关键挑战。

Talk2Drive框架的突出特点之一是其个性化功能,这是通过记录人与车辆之间的历史命令和反馈的新颖内存模块来实现的。每次激活大语言模型时,都会加载该内存模块,使系统能够回忆起以前的交互和偏好。这一历史背景使得大语言模型能够增强对人类个体的反应和驾驶模式,从而增强驾驶体验的个性化。

此外,传统系统无法解释人类的抽象表达,而Talk2Drive框架却表现出色。它采用了大语言模型算法,能够理解和响应各种人类情感和上下文线索。这对于增强人与车辆之间的交互特别有益,可以对诸如“我迟到了”之类的陈述做出更直观和同理心的反应,车辆可以理解紧急情况并相应地调整其操作。

我们的工作展示了基于LLM的自动驾驶系统在现实车辆中成功的端到端实施,据我们所知,这是此类系统中的第一个。本文的主要贡献总结如下:

在过去的二十年里,自动驾驶系统取得了显着的进步。以汽车工程师协会(SAE)对自动化水平的定义[11]为指导,并以深度神经网络(DNN)的快速发展为推动力[12,13]和深度强化学习(DRL)[14,15,16],自动驾驶汽车获得了增强的感知和决策能力。这些技术促进了乘用车先进驾驶辅助系统(ADAS)的发展以及更高级别自动驾驶的出现[17,18]。

还有一些研究涉及提供个性化体验来预测人类行为并增加人类信任的系统,而不是直接改变车辆控制[27]。杜等人提出了一种个性化联邦学习框架,通过监控驾驶员意图来预测换道操作,与传统模型相比,精度有所提高[28]。作为所提出的移动数字孪生框架[29]的具体应用,廖等人开发了驾驶员数字孪生,用于在线预测混合交通中的个性化变道行为,增强了联网和自动驾驶车辆的能力(CAV)来高精度预测人类驾驶车辆(HDV)的操作[30]。Sun等人探讨了个性化自动驾驶汽车对人类信任的影响,发现这种个性化显着增强了系统可靠性和人类信任[31]。然而,这种个性化框架经常遇到限制,例如动态适应人类偏好或看不见的流量场景。这就是大语言模型可以通过提供更细致和上下文感知的适应,利用其先进的语言理解和生成能力来补充这些系统的地方。

Talk2Drive框架是一种用于自动驾驶车辆规划和控制任务的创新方法,它将基于云的大语言模型与现实世界的车辆动力学相集成,以个性化的方式响应人类输入。本节详细介绍了支持Talk2Drive的方法,阐明了云端和实际操作的不同角色。在本文中,我们用I表示人工输入,用C表示驾驶上下文信息,用H表示历史数据,用P,以及F人类对行程的反馈。

Talk2Drive框架的第一步涉及直接接收来自人类的任意口头命令。利用尖端的语音识别技术,特别是开源APIWhisper[44],可以准确捕获这些口头命令,然后将其转换为文本指令(I)。这种翻译对于确保人类口语的内容和特性有效地转换为可供大语言模型处理的文本格式至关重要。同时,大语言模型还可以访问额外的基于云的实时环境数据,包括天气更新、交通状况和当地交通规则信息。例如,大语言模型可以通过OpenweatherAPI[45]获得天气信息,通过OpenStreetMapAPI[46]获得地图信息(如道路类型和速度限制)。t1>和通过TomTomAPI[47]的交通信息。所有这些背景数据(C)均采用文本格式,对于为决策过程提供信息、确保响应考虑环境背景至关重要。

然后,大语言模型推理过程的输出由用于规划和控制的可执行代码组成。受“代码即策略[48]”概念的启发,大语言模型根据这种解释生成相应的代码(P)。这些代码不仅仅是简单的指令;它们包括复杂的驾驶行为和需要在车辆的低级控制器中进行调整的参数。具体来说,生成的代码调整前视距离和前视比率等控制参数,以优化纯追踪性能。此外,这些代码还可以修改车辆的目标速度以满足驾驶员的命令。这些动作代码以ROS主题命令的形式,指导基于Autoware[49]的自动驾驶系统修改其轨迹跟随配置。

在此步骤中,提出了一种新颖的内存模块来存储人与车辆之间的历史交互(H),这是Talk2Drive框架的关键特征,有助于其强调个性化。人与车辆之间的每次交互都会被记录并以文本格式保存到ECU内的内存模块中。该记录包括人的命令I、大语言模型生成的代码P以及人的反馈F。每次行程后都会更新内存模块中的历史数据。考虑到大语言模型的适应性,如果用户对相似的命令做出不同的反应,大语言模型将优先考虑最近的响应作为当前决策过程的参考点。当用户发出命令时,大语言模型访问内存模块并将存储的信息(H)作为决策过程输入提示的一部分。

同步定位与建图(SLAM)是自动驾驶系统的重要模块[50]。在我们的Talk2Drive框架中,我们采用SLAM从传感器数据中提取特征,然后使用估计算法不仅获取车辆,还获取周围环境的配置。在我们的框架中,SLAM的定位任务将传感器检测到的特征与3D地图进行匹配,而SLAM的建图任务生成3D地图,并使用正态分布变换(NDT)通过将LiDAR扫描数据与3D点进行匹配来进行定位。云地图,并在开源自动驾驶软件Autoware.AI[49]中实现。

3D-NDT[51]用于我们框架中的本地化,是从2D-NDT[52]扩展而来的。该算法利用正态分布找到位于某一位置的点的概率,而不是直接利用点的位置信息。正态分布使得数值优化变得可行[51]。对于地图生成任务,我们使用3DNDT算法将周围环境分割成3D单元(体素)网格。对于每个单元,NDT估计最适合该单元内点的正态分布,从而形成3DNDT图。然后,在定位任务中,我们采用匹配策略,通过计算创建的地图的单元格中当前扫描点数据的可能性来找到最能对齐分布的姿势p→,通常通过以下方式进行优化高斯近似p~(T)来找到最适合分布的姿势。我们使用得分函数来表示可能性,其在方程中定义如下:

其中T(p→,mis→)是对位姿p→[53]对应的点m→进行变换的变换函数。特别地,点集Ms={m1s→,m2s→,m3s→…mns→}被定义为扫描点云。点集Mm={m1m→,m2m→,m3m→…mnm→}被定义为生成的地图中的点云。只要找到一个使得分函数达到最大值的位置和方向,我们就将该位置和方向视为车辆当前的位置和位姿。算法1提出了通过查找位姿p→来匹配点集Ms和Mm的NDT算法。

导航到所选轨迹上当前前瞻航路点时,前转向角δfk可以通过以下公式[54]计算:

其中是轴距,k是圆弧的曲率,定义如下:

为了保持所需的恒定纵向车辆速度Vd,我们使用以下公式直接计算车辆的当前加速度ak:

其中Vk是车辆惯性坐标下的当前车速。

在本研究中,我们使用自动驾驶汽车进行现实世界的实验,这是一辆支持线控的2019款雷克萨斯RX450h,由AutonomouStuff提供,使用PACMod线控系统以及便利功能、配电系统、传感器、ROS驱动程序以及速度和转向控制(SSC)[56]。

我们的车辆平台上部署了车载计算机ECU,具有较高的处理速度和计算能力,使车辆平台能够完成复杂的任务,特别是行人检测、交通灯识别等复杂自动驾驶场景中的感知任务。核心电脑配置如下:Inteli9-9900第9代3.10/5.0GHz六核65W处理器,8核16线程,64GBDDR42666MhzSODIMMRAM,NVIDIAQuadroRTX-A400016GBGDDR6140WGPU和512GBM.22280NVMe固态硬盘。我们在Ubuntu18.04中使用ROSMelodic部署开源自动驾驶软件Auoware.AI[49]。

在语言学领域,发出指令可以归类为提出请求,属于指令的划分,是一般言语行为分类理论[57]中五种言语行为类型之一。更具体地说,请求的直接程度可以通过三种不同的策略[58]来表征:

在这种情况下,人类明确指出所需的操作,例如“提高车辆的速度”。这通常采用祈使句的形式。

这种情况涉及以社会和文化上公认的礼貌和/或标准的方式表达请求。一个例子是“你能加快一点速度吗?”

其中tresponse是命令发送到云端的时刻,tcommand是代码返回到车辆的时刻。

为了探索大语言模型在命令解释和随后对车辆的影响方面的推理能力,我们测量了速度的百分比变化。这是通过计算有和没有大语言模型处理命令时的车速差异来完成的。

速度方差(σ2)是自治系统中的一个关键安全指标,它衡量速度的一致性,反映系统的稳定性和可预测性[60,61]。计算方法如下:

加速度(A),也称为速度变化率,是车辆动力学舒适度的度量[62,63]。

|Aˉ|值较高表示行程中速度变化更不稳定,从而增加晕车或其他类型不适的风险[64]。

手动干预的频率表明模型适应不同人的个性化偏好的能力[20]。接管率R可以计算为:

其中,Ntakeover是针对特定类型驾驶员涉及接管的实验驾驶试验的次数,而Noperation是针对该类型驾驶员进行的实验驾驶试验的总数。

Fromthedata,wecandrawthefollowingconclusions:

在我们的初步分析中,大语言模型直接处理包括人类命令和上下文信息在内的输入,然后将输出代码发送到ECU。然而,本节探讨了集成记录人车交互历史的内存模块以增强性能最佳的大语言模型GPT-4[9]的个性化的影响。该历史数据包含之前的命令I、生成的代码P以及人类反馈F,例如人类对车辆性能的个人评价(“你还差一点”)。有点慢”),历史数据是为每个驱动程序单独存储的,每个驱动程序都有一个独特的内存模块。此外,我们还设置了输入Token的最大数量限制,上限为512个。通过纳入这种反馈循环,大语言模型利用过去的交互作为改进未来响应的资源。

首先,结果表明所有大语言模型基线都表现出对清晰直接的命令背后含义的正确理解(I级)。对于看起来不太简单的复杂命令(二级和三级),大多数大语言模型仍然能够准确地找到人类的意图,显示出其强大的推理能力。这表明大语言模型具有先进的语言处理能力,即使命令没有明确说明,它们也能掌握人类目标的本质。

此外,结果表明,虽然大语言模型可以理解人类的整体意图,但每个模型可以告诉人们所需的速度调整程度的程度存在差异。这一发现指出了进一步改进的潜在领域。增强大语言模型更精确地量化人类期望的速度变化的能力,可能会在未来的迭代中对人类命令做出更精细的响应。

在本文中,我们在所提出的Talk2Drive框架中创新地使用了大语言模型,证明了自动驾驶汽车在理解复杂且上下文丰富的人类命令并采取行动的能力方面取得了深远的进步。Talk2Drive的高级语言推理功能使其能够通过了解个人的命令偏好来改善驾驶体验,从而提供自动驾驶技术的一定程度的定制。该框架从语音识别模块开始,将用户的口头输入翻译成文本指令,然后发送到大语言模型进行推理。除了这些文本指令外,大语言模型还考虑上下文输入,例如当前天气状况、道路状况和交通规则。此外,大语言模型利用我们架构中新颖内存模块的历史车辆与人的交互来增强个性化决策。在处理这些不同的输入后,大语言模型生成在ECU中执行的代码。然后,ECU将命令传送到CAN总线和线控驱动系统,最终控制车辆的执行器。我们的Talk2Drive框架是第一个在真正的自动驾驶汽车上部署大语言模型的框架,实现了令人兴奋的100%代码执行成功率。此外,我们的框架显着改善了自动驾驶的个性化方面,在保证系统的安全性和舒适性的同时,接管率降低了高达90.1%。

在我们未来对Talk2Drive框架的研究中,我们将重点通过模型蒸馏等技术来减少大语言模型的延迟,以实现无缝的实时性能,以满足精确控制的严格要求。通过模型蒸馏,大语言模型可以被精简,变得更小、反应更灵敏,比当前的迭代反应更快。确保强大的数据安全性也将是一个优先事项,保护用户偏好和敏感信息。此外,我们预计探索与其他智能交通系统和物联网设备无缝集成的潜力,旨在创建更加智能的城市移动网络。

THE END
1.MBTI16人格分析十六人格MBTI是一种人格类型理论模型。全称是“Myers-BriggsTypeIndicator” (迈尔斯-布里格斯类型指标)。 它通过了解人们在精力支配(外向E - 内向I)、获取信息(实感S - 直觉N)、决策方式(思考T - 情感F)、生活方式(判断J - 感知P)这四个维度的偏好,将人的性格分为16种类型,比如ENTP、ESTJ等,用于评估和理解个人的性https://blog.csdn.net/Edward1027/article/details/144345128
2.MBTI深度剖析:NF理想主义者与NT理性主义者到底有何区别?有专家曾对MBTI中的十六种人格类型进行划分,分成了以下四组: SJ传统主义者(ISFJ、ISTJ、ESFJ、ESTJ) SP享乐主义者(ISFP、ISTP、ESFP、ESTP) NF理想主义者(INFJ、INFP、ENFJ、ENFP) NT理性主义者(INTJ、INTP、ENTJ、ENTP) 今天我们来分享,NT理性主义者与NF理想主义者的区别,一起了解! http://xuemaedu.net/news/detail?id=419221e06928440fa7452b39f33e7ecb1436
3.MBTI:16人格3. 思考 (T) vs. 感觉 (F):思考型的人在做决策时更倾向于逻辑和客观标准,而感觉型的人则更倾向于考虑他人的感受和价值。4. 判断 (J) vs. 知觉 (P):判断型的人喜欢有组织、有计划和决定性的生活方式,而知觉型的人则更倾向于灵活、自发和开放的生活方式。这四个维度组合起来形成16种不同的个性类型https://baijiahao.baidu.com/s?id=1808147333815688195&wfr=spider&for=pc
4.梳理STM32F429之通信传输部分NO.8硬件SPI51CTO博客本成员设置波特率分频因子,分频后的时钟即为 SPI 的 SCK 信号线的时钟频率。这个成员参数可设置为 fpclk 的2、 4、 6、 8、 16、 32、 64、 128、 256分频。 (7)SPI_FirstBit 所有串行的通讯协议都会有MSB 先行(高位数据在前)还是LSB 先行(低位数据在前)的问题,而 STM32 的 SPI 模块可以通过这个结构https://blog.51cto.com/u_14970037/5635406
5.品质管理F/T: Function Test (功能测试-终测) AS 组立 P/K:包装 TQM:Total quality control全面品质管理 NTF:No trouble found误判 CIP:capacity improvement plan(产能改善计划) MRB:material review board(物料16 Conformity 合格(符合) 17 Control 控制 18 Control chart 控制(管制)图 19 Correction 纠正 http://www.360doc.com/content/11/1119/22/8171852_165849805.shtml
6.干货,GPower确定被试量教程混合设计重复测量方差分析在F检验中需要将组间效应、组内效应、交互作用分开来算,一一对应的关系。但是Statistical test:Correlation:Two dependent Pearson r’s(no common index) Type of power analysis:当因变量为人为二分变量时,我们就要选择Tetrachoric model,举例来说,现在有930名受访者对人格问卷中两https://www.360doc.cn/article/80445730_1045219072.html
7.心理测试:你是哪种女人?17、你喜欢和不同类型的男人交往? Yes→B型 No→18 18、你喜欢半夜想些伤心的事情? Yes→C型 No→19 19、你认为自己双重人格严重? Yes→D型 No→20 20、你会主动向喜欢的人告白? Yes→E型 No→21 21、你会定期做美容? Yes→F型 No→G型 https://www.meipian.cn/wslbwfa
8.运维基础8)测试端口是否打开.. 21 9)虚拟机克隆之后网卡彻底无法启动 21 第四章 Linux命令行组成结构 21 1.Linux系统命令操作语法的格式 21 2.命令行中的快捷键.. 21 3.命令 22 第五章 Linux目录文件与系统启动 26 1.Linux系统目录建构基本特点: 26 https://www.west.cn/info/html/caozuoxitong/Linux/20200514/4670298.html
9.TypeWarranty:Other;Certification:N/A;Customized:Yes;Type:Other;Grounding:Standard Grounding;Application:Other;WIFI:NO;Place of Origin:CN;ZHE;Network:N/A;Customized support:N/A;Brand Name:YINFEEL;Model Number:IF-DES-50NR;Rated Voltage:250V AC;Rated Current:16https://www.alibaba.com/product-detail/Type-F-CEE-7-4-Schuko_1600787291010.html
10.用于治疗精神疾病和病症的支链淀粉和支链淀粉激动剂的制作方法Arg-Leu-Ala-Asn隱Phe-Leu-Val-His-Ser-Ser-Asn誦Asn画Phe-Gly-Ala-Ile國Leu-S er-Ser-Thr-Asn-Val-Gly-Ser-Asn-Thr隱Tyr (SEQ ID NO:l)。大鼠支f连淀粉 ( rAmylm )具 有 下 列 序 列 来自任何种的支链淀粉的应用被考虑。在本文公开的方法的应用中考虑的支链淀粉激动剂包括在 美国专利第5,68https://www.xjishu.com/zhuanli/05/200680054122.html
11.德`HIMA`SISIO模块Analoginputmoduletype:F62171.025,NO.3 W.B.T.(P)电子传感器SENSOR ELECRTODE TYPE,VERTICALMOUTING TYPE,SENSOR BODY HEX46,CABLE0.75Sq,DWGNO.C00586.SENSOR ELECRTODE TYPE,SIDEMOUNTING,DWG NO.HL-A0243,EXPLOSION TYPE ELECTRODE RELAY继电器KFD2-ER-Exl.WLB,DWGNO.HL-303305、ELS-1ES-1FPT-C with 35M cable、HWDC-100 with 2http://china.makepolo.com/product-detail/101086027429.html
12.absolutelynoway(F) 在公司法及本公司細則下一段之規限下,任何董事或候任或擬委 任董事不得因其擔任任何職務或受薪监狱和改造事务部确认,在马尔代夫的监狱或拘留中心,绝对没有酷刑或 其他残忍、不人道或有辱人格的待遇我们不建议普遍推广前列腺癌筛查,因为至今没有绝对明确的证据可以表明做这些测试可以挽救所有的患者,而且http://cn.linguee.com/%E8%8B%B1%E8%AF%AD-%E4%B8%AD%E6%96%87/%E7%BF%BB%E8%AD%AF/absolutely+no+way.html
13.g++(1)nostdinc++ -fvisibility-inlines-hidden -fvisibility-ms-compat -fext-numeric-literals -Wabi=n -[=type] -gsplit-dwarf -gdescribe-dies -gno-describe-dies -fdebug-prefix-map=old=new -fmsmall16 -mfp-mode=mode -mvect-double -max-vect-align=num -msplit-vecmove-early -m1reg-https://man7.org/linux/man-pages/man1/g++.1.html
14.施耐德断路器NSE250F/4P/250A详解机电一体化网ABB 安全开关 OTR16T6M ABB 断路器DISCONNECT; SWITCH OS30FAJ12, 30A FUSIBLE, TYPE J, 3 POLE 高密度聚乙烯聚丙烯树脂她50100(f.t.a certi.no20156013920 DT:23 / 02 / 2015 HIGH DENSITY POLYETHYLENEhttp://chinamecha.com/chinaconews/4_14988068.html
15.武汉音乐学院2019年招收攻读硕士学位研究生考试大纲28. d小调第十七钢琴奏鸣曲(Op.31,No.2) 29. C大调第二十一钢琴奏鸣曲(Op.53) 30. f小调第二十三钢琴奏鸣曲(Op.57) 2、人格发展的相关知识 3、音乐治疗基本原理及其基本功能的相关知识 4、音乐与情绪和健康的相关知识 5、音乐治疗中治疗关系的相关知识 https://zsks.whcm.edu.cn/info/1106/4166.htm
16.中国物理学会期刊网6. R. Klavans, K. W. Boyack, Which type of citation analysis generates the most accurate taxonomy9. F. Shi, J. G. Foster, J. A. Evans, Weaving the fabric of science: https://www.cpsjournals.cn/index/news/detail/26663
17.The1:50000OriginalMeasurementDatasetonStreamSediments2016—2018年度1∶50 000水系沉积物测量分析项目为Au、Ag、Cu、Pb、Zn、As、Sb、Hg、Bi、Sn、W、Mo、Cd、Co、Cr、Ni共计16种元素。 采用光栅光谱仪(OES)、原子荧光仪(AFS)、等离子质谱仪法(ICP-MS)、发射光谱法(GF-AAS)等仪器进行分析测试,所有元素报出率均为100%。勘查区18种元素分析测试方法配套方案http://en.cgsjournals.com/article/doi/10.12029/gc2019Z106
18.gccRe: egcs 1.1a g++ bug with __typeof?1998-10-31 00:45 Jeffrey A Law Re: egcs 1.1a Re: Fatal signal using -fprofile-arcs -ftest-coverage 1998-10-31 01:47 Jeffrey A Law 1998-10-10 00:16 Mark Mitchell Re: No optimization works on Alpha?1998-10-01 07:49 Oskar https://gcc.gnu.org/legacy-ml/gcc-bugs/1998-10/subjects.html
19.带你走进S7COMM与MODBUS工控协议以上为 header 的全部内容,而 S7comm 协议的Parameter 部分与Data 部分,则是根据header 中PDU type的功能码的不同、协议扩展(Userdata)的内容不同而变得不同。这里仅对 PDU type 的不同功能码进行简单介绍,更为复杂的协议扩展内容,暂不做解释。 当PDU类型是JOB和ACK_DATA时,常见的功能码,如下表: https://xz.aliyun.com/t/6603?page=5
20.TypeIFCRISPRThe type I–F CRISPR-Cas system does not enable cell survival Next, we assessed cell survival of bacteria with CRISPR-Cas immunity upon infection with the virulent phages. Surprisingly, CRISPR-Cas immunity provided no enhancement in cell survival measured in single-cell viable count assays comparedhttps://www.nature.com/articles/s41467-019-13445-2
21.FATEKFATEK,永宏PLC,FATEK触摸屏,永宏触摸屏,FATEK伺服,永宏伺服。本公司FATEK台湾永宏一级代理商。公司代理国内外知名品牌的PLC、变频器、触摸屏、步进伺服等工控产品。承接PLC编程、电气工程。http://www.plcworld.cn/
22.2024届高考英语复习专题:阅读理解七选五最新真题模拟16篇题(原卷【答案】31.C 32.F 33.G 34.B 35.E【导语】本文是一篇说明文。文章主要讲述了性格测试的好处。31.根据上文“Can identifying one’s personality type using the MBTI and other personality assessments really help They may.(用MBTI和其他人格评估来识别一个人的人格类型真的有帮助吗?他们可能有帮助。)”https://mip.21cnjy.com/P/19715304.html
23.计算机专业术语ihaveonlybeliefwjw3DNow!(3D no waiting) ALU(Arithmetic Logic Unit,算术逻辑单元) AGU(Address Generation Units,地址FSUB(Floationg Point Subtraction,浮点减) GVPP(Generic Visual Perception Processor,常规视觉处理器)http://www.cnitblog.com/wjw/archive/2006/06/18/12460.html
24.智力研究资料</noscript> [图片上传失败(image-cc0a71-1687615534214)] 0.92的相关性而已。通俗来说,如果你的某一项表现型是一个定义在时间上的一元函数,那么基因决定了你的零点(0,y1),但你的导数是一个跟个人后天努力和基因都相关的函数。也许横向比较的话终其一生你这个f(t)=-1t也赶不上人家f(t)=exp(t),但终https://www.jianshu.com/p/b6f95f1650b1