端侧实时运行3B媲美7B!美团浙大等提出MobileVLMV2:更快更强的端侧视觉语言模型AI.xAIGC专属社区

美团、浙大等于近日推出了MobileVLMV2,其中包含参数量1.7B、3B、以及7B的一系列视觉-语言模型。代码与模型以及适配的端侧推理方案都已开源。

在延续前作优势的基础上,MobileVLMV2进行了显著的改进,使用了新颖的架构设计、针对移动端VLM量身定制训练方案、并丰富了高质量数据,使MobileVLMV2的性能表现更上一层楼的同时,也为业界对于端侧视觉语言模型解决方案提供了新的思路。

具体而言,与参数量更大的3BVLM相比,MobileVLMV21.7B在标准VLM基准测试中达到了同等甚至更好的的性能;特别是MobileVLMV23B模型在某些标准测试基准上甚至优于参数规模7B甚至更大的VLM。

视觉-语言模型(VLM)已成为当今人工智能领域的一个研究热点。通过融合大型语言模型(LLM)和多模态功能,视觉-语言模型展现出前所未有的多功能性。例如,Gemini和GPT-4V等专有模型在多种任务中展示了卓越的性能。尽管VLM表现出色,但如何将其部署到如移动设备、自动驾驶汽车和嵌入式人工智能系统等实际应用中,依然面临着挑战。

最近,MobileVLM在探索移动端硬件架构导向的小规模VLMs的能力方面走在了前列。MoE-LLaVA采用了mixture-of-experts方法,显著提升了小型模型的性能,使其超越了许多大型模型。最新研究显示,VLMs正朝着扩展模态、优化训练流程、高效架构和高质量训练数据集的方向发展。

本文基于MobileVLM进行了大幅改进,主要集中在三个方面:首先是训练数据的利用:本文通过使用ShareGPT4V收集的120万对高质量图像-文本配对数据,有效地对齐了视觉-语言特征。这一数据集的引入提高了数据的多样性,并增强了模型遵循指令的能力,同时纳入了更多学术任务,例如ScienceQA、TextVQA、SBU等。

其次是训练策略的探索:在训练策略方面,该方法在预训练和指令微调阶段对投影网络和语言模型的所有参数进行了训练,这种做法在充分利用高质量数据潜力方面显示出了有效性。

轻量级高性能投影网络的更新:引入了一个更加精简而强大的轻量级投影机制并通过该机制连接视觉和语言模型。通过改进图像token的表示、增强了位置信息的手段,MobileVLMV2能够在几乎不降低性能的情况下显著减少语言模型所需的输入图像token的数量。本文的主要贡献如下:

本文的方法延续了与MobileVLM相似的框架。如图2所示,MobileVLMV2的整体架构包括一个预训练的用于提取图像特征视觉编码器,一个预训练的端侧语言模型MobileLLaMA来处理多模态token并生成最终回答,以及一个针对端侧设计的投影网络,即轻量级下采样投影器(表示为LDPv2),用于将图像特征在特征空间层面与语言模型对齐。

延续MobileVLM的思想,本文使用CLIPViT-L/14作为视觉编码器

本文采用MobileLLaMA系列作为基础的语言模型(LLM)。该选择有三个原因:首先,MobileLLaMA设计用于即插即用部署,并已在资源有限的设备上展示了实时推理能力和可靠的性能。保持语言模型不变有助于进行受控实验,以探索其他因素的影响,例如扩大数据语料库、改进训练策略、更新投影网络等新设计。

其次,MobileLLaMA与LLaMA2共享相同的分词器,这有助于进行无障碍的知识蒸馏。最后,它是在开放数据集上训练的,并且没有因数据泄露而导致评估污染的风险。这也有助于确认这个模型是否能够在性能上取得优势。

受MobileVLM的LDP设计启发,本文引入了一个新的投影网络,以更少的参数实现更好的视觉-语言特征对齐。它包含三个组成部分,即特征转换、减少token数、位置信息增强。

首先,投影网络在图像token上使用两个逐点卷积层来匹配LLM的特征维度。然后,引入了一个平均池化层来极度压缩图像token的数量。最后,应用了一个非常简单但有效的模块PEG,它带有跳跃连接,能够增强位置信息。与LDP相比,该投影网络更加高效,减少了99.8%的参数数量,并且在运行速度上略有提升。

其中PW和DW分别代表逐点卷积和深度卷积,GELU是GELU激活层,AvgPool2×2是2×2平均池化层。

MobileVLMV2的训练过程分为两个阶段:预训练和多任务训练。如表1所示,与LLaVA-1.5和之前的MobileVLM的训练范式不同,MobileVLMV2在两个阶段中始终训练投影网络和大型语言模型的权重,同时冻结视觉编码器的权重。

(1)预训练

大多数视觉-语言模型(VLMs)在预训练期间通常会冻结视觉编码器和语言模型,以避免优化难题。ShareGPT-4V部分冻结视觉编码器并训练语言模型。在本文中分别从CLIPViT-L/14和MobileLLaMA初始化视觉编码器和语言模型的权重。这种初始化为随后的统一训练过程提供了一个坚实的基础。

本文对投影网络和LLM进行完整训练,同时微调视觉编码器,在训练过程中冻结ViT降低了训练成本。然后,模型利用一个自回归损失函数,将训练目标集中在下一个token的预测上。通过专注于这个特定任务,模型更好地学习视觉信息背景下语言生成的复杂性,从而提高了多模态任务的性能。

如表2所示,在预训练阶段,模型使用ShareGPT4V-PT数据集进行训练,该数据集包含120万图像-文本对。该数据集在提高模型的图像-文本对齐能力方面起着至关重要的作用,是多模态表示学习的一个关键方面。

(2)多任务训练

在图像-文本对齐学习的预训练阶段之后,MobileVLMV2已经获得了基本的图像内容理解能力。然而,它利用视觉信息进行分析和对话的能力还不成熟,尤其是在一系列特定的下游任务中。因此,在多任务训练阶段,本文引入了多个视觉-语言任务,通过对训练过程中的参数进行调整,使模型具备多任务分析和图像-文本对话的能力。

在多任务训练阶段,本文使用了大量的数据集,包含了多种任务,以进一步扩充模型的能力集合。如表2所概述,这些数据集根据功能不同精挑细选,例如使用VisualDialog数据集提高对话能力,通过TextVQA数据集提高OCR技能,通过COCOCaption和SBU数据集提高场景理解能力,以及通过VSR数据集等提高位置理解能力。

总的来说,这一阶段的聚合数据包含了240万个样本,确保了跨不同模态和任务的全面学习。

表三中列出了本文方法在训练过程中所涉及的参数设置:

本文评估了MobileVLMV2的性能,并在表4中展示了准确性结果。与MobileVLM相同,本文采用了一系列基准测试,包括图像问答系列GQA、SQA、TextVQA,综合基准测试MME、MMBench,以及物体幻觉基准测试POPE。

本文的模型的目标虽然是针对真实应用场景而取得准确性与运行时延迟两个方面的平衡,但它们的性能超过了大多数以前的模型,并有在实时推理性能上具有明显的优势。凭借快75%的推理速度优势,MobileVLMV23B在平均性能上仍然比最近的工作MoE-LLaVA-2.7B×4高出1.4个百分点。

值得注意的是,MoE-LLaVA-2.7B×4与许多7B+的VLMs相比展现出可比或更好性能。这些VLM中的大部分都引入了大量的额外训练成本。相比之下,本文的方法在达到最均衡的性能表现的同时,训练成本与计算友好的LLaVA-1.5相当。

(1)与MoE-LLaVA比较

MoE-LLaVA利用多个专家模型来实现良好的性能,每个专家模型规模都较小,以提高推理速度。尽管只有一部分参数被激活,但它仍然需要存储所有参数,这在移动端应用场景中不可避免地会导致IO开销。此外,将模型压缩技术应用到这些模型上非常困难。

相比之下,本文的方法在实际优化部署方面优势很大。本文所提出的模型在TeslaA100GPU上评估的推理速度领先于MoE-LLaVA,如果在真实的端侧环境中测试,优势将会进一步扩大。原则上,MobileVLMV2也可以与其MoE设计相结合,但在不牺牲MobileVLMV2的内存占用和推理延迟优势前提下提出一种新的结合方式,还有待研究。

(2)与MobileVLM比较

表4显示,MobileVLMV2显著提高了MobileVLM的性能表现,平均准确率提高了5.3个百分点。由于这两种方法共享相同的视觉-语言模态编码器,性能的提高归功于更优的数据、更好的训练策略、以及更有效的投影网络。

MobileVLMV2的良好性能表现说明,MobileLLaMA作为小型语言模型也能够成为一个很好的基线,因为它是基于开放资源数据集Redpajama构建的,该数据集可复现且评估数据泄露的风险低。

(3)NVIDIAA100上的运行延迟比较

由于许多模型尚未得到最新的移动推理框架支持,本文使用PyTorch框架在NVIDIAA100GPU上比较了一些模型的推理延迟,如图3所示。

MobileVLMV2模型在token生成速度和测试基准平均得分两方面通常都有优势。MoileVLMV21B/3B的速度分别为37.37tokens/秒和28.97tokens/秒,这比MoE-LLaVA的对应参数量的模型快1.65倍,且平均性能更好。

虽然本文的目标是设计应用在端侧的多模态模型,但本文进一步扩大了模型的参数规模到7B,以验证性能的上限。这也使得MobileVLMV2能够与许多现有VLM进行同异性比较。在都使用Vicuna-7B作为LLM模型的条件下,MobileVLMV2在图4中的结果展现出全面的多模态性能改进。

如图5和表5所示,文中将MobileVLMV27B与主流的大型VLM如LLaVA-1.57B和ShareGPT4V7B在性能和推理速度上进行了比较,可以看出MobileVLMV27B不仅在多个基准测试中获得了显著的性能优势,而且在推理速度上也明显领先。

在几乎快了20%的情况下,MobileVLMV27B在平均性能上比ShareGPT4V高出1.3%。这进一步说明了本文数据扩展策略、训练策略和新的投影网络设计的有效性。

可以观察到,7B模型的推理速度差距较小,所以在去除了减少token数的组件的设置下,本文的7B模型具有与ShareGPT4V相同的延迟速度,并且能够达到性能上界。

在JetsonOrin平台上,MobileVLMV2在相同参数规模下展现了比其他模型更低的推理延迟。如表5所示,MobileVLMV2具有最快的推理速度,这归功于更加轻量化的投影网络设计:将原始的576个视觉提示token数优化为144个,同时在平均准确率上的表现保持不变甚至更好。

如表6所示,第一行代表MobileVLM1.7B的基线。本文用ShareGPT4V数据集替换了预训练数据集,并将指令调优数据集规模扩展到240万图文对,训练策略和模型架构与基线保持一致。

在GQA、SQA和TextVQA上的性能提升表明,模型在认知和对话方面的能力在数据增强后有所提高。然而,在更高质量数据的配置下,保持原始训练策略不能充分利用数据优势,因此模型在MME和MMBench上的性能下降。

基于对训练数据规模影线的观察,本文进一步探索了更合理的训练策略。在增强数据和小参数量VLMs的设置下,在全部阶段对语言模型进行训练能够实现更高效的学习。因此,本文选择同时对投影网络和语言模型进行微调。比较结果显示在表6的第二行和第三行,可以看到,这种训练设置使模型在大多数VLM基准测试中都实现了全面的性能提升,平均准确率提高了2%。

表7的第一行和第二行显示,MobileVLM提出的LDPv1在减少了75%的token数(从576减少到144)的情况下,几乎保持性能不变。基于新提出的数据配置和训练策略,上述相应的架构分别能够实现平均5.4和4.5的性能提升(见表7的第三行和第四行)。

然而,当尝试继续探索视觉和语言特征更好的对齐方法时,本文观察到增加可学习参数的数量容易导致训练过程陷入优化困境,从而导致整体特征对齐效果的下降。

基于这一现象,本文首先用一个非常简单的无参数操作,即2×2平均池化,替换了LDPv1中的[DW^kPW]块,发现可以获得平均0.4的性能提升(见表7的第五行)。

其次,为了使对齐的视觉特征具有更强的位置信息,本文使用可学习的位置编码对位置信息进行增强,取得了0.5的性能提升。PEG的位置编码是动态生成的,并且取决于输入token的局部邻域,受其启发,本文随后用PEG层替换了可学习的PE,以获得更好的增强特征。表7的第7行显示,这种设计带来了0.5的平均性能改提升。

值得一提的是,在MobileVLMV21.7B中应用的PEG层只包含0.02M(2048×3×3)参数,与MobileVLM中的[DW^PW]块相比,可学习参数的数量减少了近630倍(从12.64M减少到0.02M),但总体性能提高了1.4,这证明了本文投影网络结构设计的有效性。

本文提出了一系列基于MobileVLM的高效视觉-语言模型,称为MobileVLMV2。本文深入探索了数据配比、训练策略、以及模态对齐网络的设计,以在小参数量VLM模型的设置下提高整体性能。

在与LLaVA-v1.5相当的训练成本下,本文的方法在精度和实时推理性能方面达到了当前针对真实的应用环境的最优综合性能。在性能相当的前提下,本文的模型在推理优势方面超越了许多更大的模型,这为在资源有限的场景中应用先进的AI技术提供了有效的方案。

THE END
1.彩票指南网www.cpznw.com财哥318期3D参考: 两码合差:0、4。 【本期胆组】567。【双胆】67。【金胆】7。 【定位杀号】6-0-2。 【七码组选复式】2345679。 【五码组选复式】23679。 【七码直选复式】0124579/1246789/0134678。 【五码直选复式】12459/24679/13467。 https://www.cpznw.com/news_dc.php?n_id=460651
2.福彩3D2、组选类型:上期开出组六,本期看好组三; 本期关注升、凹以及C、D区段号码。 3、大小奇偶:近10期两大一小形态开出6期,两小一大开出2期,全大开出2期,全小开出0期,本期关注两大一小防两小一大;近10期两奇一偶形态开出5期,两偶一奇开出4期,全奇开出0期,全偶开出1期,本期关注两奇一偶。 https://www.zhcw.com/h5/c/2024-12-01/875174.shtml
3.323期[大奖斗士]3d专家直选杀号声明:本站所有的文章专家昵称来源互联网,推荐号码以及内容源自AI算法,文章内容由一定牛责任编辑整理发布。上一篇 323期[浪人看和]3d直选预测专家 下一篇 323期[浪人看和]3d直选预测专家 您可能会感兴趣的资讯 323期[大奖斗士]3d专家直选杀号2024-12-02 323期[浪人看和]3d直选预测专家推荐号2024-12-01 323期https://www.ydniu.com/info/sd/zt85131/577220241202.html
4.福利3d技巧:大中小分区定位奖号判断大中小的走势有多种方法,如对称图形等,我在这里介绍给大家一种数字定量计算的方法,也就是把小数012用(1)来代表,中数3456用(2)来代表,大数789用(3)来代表。2007年210-218期百位号码的走势是:4-7-3-1-5-6-4-0-5,用大中小来表示是:2-3-2-1-2-2-2-1-2,这样我们还是无法直接区分它的走势。 https://www.17500.cn/arts/sdetail-11228621.html
5.3D历史上的今天开奖号码323期2002323期 试机号 273 开奖号 172 和 10 2003323期 试机号 573 开奖号 778 和 22 2004323期 试机号 785 开奖号 339 和 15 2005323期 试机号 051 开奖号 162 和 9 2006323期 试机号 478 中奖号 019 和 10 2007323期 试机号 900 开奖号 331 和 7 https://www.800820.net/p/9524413.html
6.综上3D开机号福彩3d开机号中彩网3d开机号3D开机号查询12月03日,北欧三国向民众发放战时手册,《abw311 八卦海管理局在线观看视频》视频大全在线观看-蜂|abw311,八卦海,漫画培训-漫画培训学校-画漫画培训-漫画培训班-名动漫官网|名动漫,黑料网-51吃瓜黑料网-免费吃瓜-独家爆料-吃瓜-爆料-黑料-|黑料网,独家爆料,早报|快手博雅和榜一大哥视频(快手博雅和榜http://zgslkf.cn/v/video/20241202/6799721.shtml
7.利用1以1开头的参考号码表示最小系统方案;标示牌方案包括采用EEPROM制造工艺(参考号码以2开头)和采用OTP EPROM制造工艺(参考号码以3开头)的器件。每组中,字母A该方法中,如果把数据从一个芯片复制到另一个芯片,那么复制数据在应用中将无法工作。有关加密算法的详细资料及软件可在互联网上查到,例如标准与技术国家协会https://www.analog.com/cn/technical-articles/printed-circuit-board-identification-using-1wirereg-products.html
8.Excel函数教程(1)15位的身份证号码:1~6位为地区代码,7~8位为出生年份(2位),9~10位为出生月份,11~12位为出生日期,第13~15位为顺序号,并能够判断性别,奇数为男,偶数为女。 (2)18位的身份证号码:1~6位为地区代码,7~10位为出生年份(4位),11~12位为出生月份,13~14位为出生日期,第15~17位为顺序号,并能够判断http://www.360doc.com/content/11/0305/21/1444297_98449311.shtml
9.体验站点正版独家海军副司令员马立新海军中将在开幕式上表示,希望通过此次论坛交流活动,推动各国增进了解和信任,积极分享院校建设方面的经验做法与发展思路,为培养具有国际视野、能够担当起维护国家海洋权益与世界和平使命的海军人才提供新思路。 【免责声明】上游新闻客户端未标有“来源:上游新闻”或“上游新闻LOGO、水印的文字、图片、音频http://m.xc79.com/ideplpo.asp
10.巴鲁夫BALLUFF光电开关供应服务热线:86-021-51879236 手机号码:13524121256 地址:上海市蒙自路169弄 产品展示 当前位置:首页 > 光电开光快易优自动化选型有收录,并在接收电路中将光脉冲解调为电脉冲信号,再经放大器放大和同步选通BALLUFF BNS819-B02-D08-46-3BBALLUFF BES516-326-S4-CBALLUFF BKS-S19-4-PU-03BALLUFF BES516-http://www.shxierry.com/Products-28884496.html
11.MicrosoftDynamicsCRM4.0更新汇总2958256 在Microsoft Dynamics CRM 4.0 中将潜在顾客转换为客户记录和联系人记录后,不会在联系人记录上填写 "上级客户" 字段。 958280 在Microsoft Dynamics 错误号码:0x80040225 错误消息:指定的用户已禁用或不是任何业务部门的成员。 当您在 office 的 Microsoft Dynamics CRM 客户端的德语版中脱机时,收到以下https://support.microsoft.com/zh-cn/kb/959419
12.SCN3B蛋白,Human(HEK293,Fc)MCESCN3B 蛋白严重影响钠通道动力学,与 beta-1 相比,可诱导独特的持续电流和更慢的失活速率。它与 NFASC 的相互作用被证明可以在轴突发育过程中将钠通道引导至 Ranvier 节点,并将其保留在成熟的有髓轴突中。SCN3B 蛋白, Human (HEK293, Fc) 是重组的 SCN3B 蛋白,由HEK293表达,带有 C-hFc 标签。SCN3B 蛋白,https://www.medchemexpress.cn/recombinant-proteins/scn3b-protein-human-hek293-fc.html
13.武汉凯迪工程技术研究总院有限公司营业执照号码:914201007831599224 发证机关:武汉东湖新技术开发区市场监督管理局 核准日期:2015-11-02 经营期限:10年 经营状态:存续 CN101875862B发明授权2013-02-13生物质气化系统中将木炭粉输送至气化炉的方法及设备石油、煤气及炼焦工业;含一氧化碳的工业气体;燃料;润滑剂;泥煤赵锋;曹民侠https://www.11467.com/qiye/39640377.htm
14.广东紫金抗战英雄钟学栋将军,爱国救亡者全国同胞永远敬佩怀念您清朝武举科举考,台籍国军陆军中将陈岚峰, 日治时期台北西门町 基隆的炮台日军孤魂 辜振甫之父辜显荣由基隆带路引日军进台北城 被义军击毙的日寇北白川宫能久祝康明指出,一般的青天白日勋章,背面刻有篆体书写的“青天白日勋章”,配以号码及厂别。仅颁给蒋介石的这枚勋章背面刻有“特壹”两字、却没有厂别。因此https://www.hakkaonline.com/thread-65535-10-1.html
15.翻译'泰坦3B型運載火箭'–字典英文将“ 泰坦3B型運載火箭 "自动翻译成 英文 错误 再试一次 Glosbe Translate 错误 再试一次 Google Translate 添加示例 在上下文、翻译记忆库中将“泰坦3B型運載火箭"翻译成 英文 无论如何,根据缔约国的说法,融合补贴最高可达工资的70%,最长可发放60个月(见上文第3.29段)。 In any case, according to the https://mapi.glosbe.com/zh/en/%E6%B3%B0%E5%9D%A63B%E5%9E%8B%E9%81%8B%E8%BC%89%E7%81%AB%E7%AE%AD?page=3&tmmode=MUST
16.树莓派使用串口通信(mini串口)树莓派3bmini接口定义本文介绍了树莓派3B+如何配置和使用串口通信。由于蓝牙模块占用硬件串口,需要关闭串口控制台功能,并修改配置文件。通过USBTTL模块连接电脑后,安装并配置minicom进行串口调试,解决可能出现的乱码问题。此外,还提供了设置环境变量简化minicom启动的方法。 摘要由CSDN通过智能技术生成 https://blog.csdn.net/weixin_44231148/article/details/115456557
17.核酸药物:Rab18是GalNAc偶联siRNA诱导Hep3B细胞沉默的关键调控因子在本研究中,研究者报告了使用全基因组池CRISPR-Cas9筛选的单个基因(Rab18)的鉴定,当敲除该基因时,可以在Hep3B细胞中将siRNA介导的基因沉默增强至少20倍(IC50)。鉴于目前人们对使用siRNA作为一种治疗方式的兴趣,以及对改进给药方法的需要,确定这一关键调节因子可能有助于开发未来的药理学策略以提高siRNA的疗效。 https://zhuanlan.zhihu.com/p/523375676
18.难治性抑郁症(TRD)新药!Spravato鼻喷雾剂3b期临床:疗效优于喹硫平Spravato(esketamine)是30年来首个具有新作用机制的抗抑郁药。3b期临床数据支持:在难治性抑郁症(TRD)成人患者中,Spravato短期及长期治疗,帮助实现缓解并保持无复发。 图片来源:摄图网 2022年11月25日讯 /生物谷BIOON/ -强生(JNJ)旗下杨森制药近日在德国精神病学、心理治疗和心身医学协会(DGPPN)大会上公布了ESCAPEhttps://news.bioon.com/article/8a58e49995da.html
19.初中英语SectionA(3a初中英语_SectionA(3a-3b)SavetheSharks!教学设计学情分析教材分析课后反思.doc,初中英语九年级 Unit 8 Section A(3a—3b)Save the Sharks ! ——阅读课 教学设计 【教学目标分析】 1. 语言知识目标: (1)90%以上的学生能够正确理解单词shark, fin, cruel ,chain, ecosyhttps://max.book118.com/html/2021/0403/8117065072003070.shtm
20.“香雪据介绍,“香雪-3B”以其卓越的性能、广泛的通用性、高可靠性,在商用 GPU 服务器中,所参与的五个场景均排名第一。“香雪-3B”可支持各类标准PCIE加速设备且支持全部的IO接口引出,用户可综合考虑业务需求和投入成本进行灵活配置,是进行高密度算力和IO升级的理想选择。 https://news.sciencenet.cn/htmlnews/2022/7/482459.shtm
21.Hep"Hep-3B[Hep3B]细胞系|人肝癌细胞系 在细胞培养过程中会出现这样或那样的问题,客户遇到的问题从细胞生长角度来说,针对细胞培养过程中生长不好、甚至死亡的原因,我们做以下分析并提出相对应的解决方法。一、培养细胞生长不好》可能原因:细胞本身的状态》1)细胞传代次数多,细胞老化;2)细胞的接种量:接种量过低,细胞https://www.chemicalbook.com/SupplyInfo_462235.htm