NeurIPS全称神经信息处理系统大会(ConferenceonNeuralInformationProcessingSystems),是机器学习和计算神经科学领域的顶级国际会议。NeurIPS2024将于今年12月9日至15日在加拿大温哥华召开。
1.MetaLA:对Softmax注意力图的统一最优线性逼近*Oral
MetaLA:UnifiedOptimalLinearApproximationtoSoftmaxAttentionMap
论文作者:侴雨宏,姚满,王可心,潘昱锜,朱芮捷,吴冀彬,钟怡然,乔宇,徐波,李国齐
研究介绍:
Transformer架构以及自注意力机制显著提升了大模型性能,但却引入了随序列长度的二次方计算复杂度。各种线性复杂度模型,如线性Transformer(LinFormer),状态空间模型(SSM)和线性RNN(LinRNN)等,被提出作为自注意力的高效替代。在本工作中,我们首先在形式上统一了目前所有的线性模型,并总结了其自特点。接着,提出了最优线性注意力设计的三个必要条件:动态记忆能力;静态逼近能力;最少参数近似。本文发现目前的所有线性复杂度大模型都不能满足所有的三个必要条件,导致性能次优。进而本文提出了MetaLA模型,能够满足上述最佳逼近必要条件,并在检索任务、语言建模、图像分类和长序列建模等实验上,本文验证了MetaLA的有效性。
线性模型的统一形式(并行和循环两种形式)
02.DuQuant:通过对偶变换分散LLM的离群值,打造更强大的量化大型语言模型*Oral
DuQuant:DistributingOutliersviaDualTransformationMakesStrongerQuantizedLLMs
论文作者:林浩坤,徐浩博,吴一尘,崔景植,张英韬,牟林湛,宋林琦,孙哲南,魏颖
当今LLM中存在非常大的激活值(outliers),为低比特量化带来了巨大挑战,我们在实验中发现LLMFFN模块中的down_projlayer存在明显的massiveoutliers,表现为大于几百的异常值并局限于个别的tokens中,这些massvieoutliers造成SmoothQuant和OmniQuant等算法在4bit权重激活量化中表现糟糕。为了更好消除massiveoutliers和normaloutliers,DuQuant通过学习旋转矩阵和平移变换矩阵,在激活矩阵(Activation)内部将outliers转移到其他通道,最终得到平滑的激活矩阵,从而大幅度降低了量化难度。旋转矩阵和平移变换矩阵都是正交矩阵,保证了权重激活输出(XW)的不变性,我们还通过严谨的理论推导了证明了两种变换有效降低了量化误差。DuQuant在4-bit权重激活量化setting下达到了SOTA的效果,我们验证了LLaMA、Vicuna、Mistral系列模型,在PPL、QA、MMLU和MT-Bench等任务上DuQuant都明显提升了量化模型的性能。
图1.Massiveoutliers显著加大了低比特权重激活量化的难度
图2.DuQuant算法说明,通过旋转矩阵和平移变换矩阵有效降低了massiveoutliers和normaloutliers。
03.MSPE:多尺度Patch嵌入使视觉Transformer适应任意分辨率
MSPE:Multi-ScalePatchEmbeddingPromptsVisionTransformerstoAnyResolution
论文作者:刘文卓,朱飞,马时杰,刘成林
虽然视觉Transformer(ViT)最近在计算机视觉任务中取得了显著进展,但一个重要的现实问题被忽略了:适应可变的输入分辨率。通常情况下,为了在训练和推理过程中提高效率,图像会被调整到固定分辨率(如224x224)。然而,固定输入尺寸与现实场景中的分辨率差异相冲突,图像的分辨率自然是多样的。修改模型的预设分辨率可能会严重降低性能。在这项工作中,我们提出通过优化Patch嵌入来增强模型对分辨率变化的适应性。我们提出的方法称为多尺度Patch嵌入(MSPE),它用多个可变大小的Patch卷积核替代了标准的Patch嵌入,并为不同分辨率选择最佳参数,消除了对原始图像重新调整尺寸的需求。我们的方法无需高成本的训练,也不需要对模型的其他部分进行修改,因此可以轻松应用于大多数ViT模型。图像分类、分割和检测任务的实验表明,MSPE在低分辨率输入上表现优异,并且在高分辨率输入上与SOTA方法表现相当。
图1.带有MSPE的ViT模型示意图。MSPE仅替换了基础模型中的Patch嵌入层,使得预训练的ViT模型可以直接应用于任意尺寸和纵横比的图像。
图2.MSPE在ImageNet-1K上的结果:我们加载了在ImageNet-21K上预训练的ViT-B模型进行评估。
04.Happy:一种用于持续新类别发现的去偏学习框架
Happy:ADebiasedLearningFrameworkforContinualGeneralizedCategoryDiscovery
论文作者:马时杰、朱飞、钟准、刘文卓、张煦尧、刘成林
在变化的环境中不断发现新知识至关重要。本文研究了一个尚未充分探索的任务——持续广义新类别发现,该任务旨在从无标注数据中增量发现新类别,并防止对旧类别的遗忘。持续新类发现是一个更现实、更困难的设定,与传统类别增量学习的核心区别在于,每一个增量阶段,所有训练数据都是无标注的,且同时含有新、旧类别的无标注数据,因此可以看作无监督类别增量学习。我们深入分析了这个任务中新类别发现和防止旧类别遗忘的冲突,发现模型容易存在两种bias,即概率空间的预测bias和特征空间的困难度bias.为了解决这些问题,我们提出了一个去偏学习框架:Happy.具体来说,针对预测bias,我们提出聚类引导初始化和分组熵正则化软约束,为新类学习分配必要的概率,显著提升新类别的准确率;针对困难度bias,我们提出了一种困难度感知原型重采样方法,在不保存样本的前提下,大幅缓解对困难旧类别的遗忘。Happy在多个数据集上取得了最先进的效果,证明了我们方法的优势。
图1.持续广义新类别发现任务设定
图2.本文的方法:Happy,有效发现新类并防止遗忘旧类
05.求解偏微分方程正反问题的隐空间神经算子
LatentNeuralOperatorforSolvingForwardandInversePDEProblems
论文作者:王天,王闯
本文研究了AI+科学计算方向偏微分方程(PDE)正反问题的智能建模与求解。PDE是构建真实场景下的感知和决策的基础,并在流体力学、工业仿真、材料工程、气象预测等方面有广泛应用。神经算子是基于数据驱动的通过学习函数之间的映射来实现PDE求解的机器学习方法,相比于传统的数值PDE求解方法具有更快的推理速度和更好的泛化性能。然而,现有的神经算子方法多是在原几何空间中求解PDE,巨大的采样特征数量限制了核积分算子的表达力,从而使得模型在效率和精度方面不能兼顾。
本文提出了隐空间神经算子(LatentNeuralOperator,LNO),通过具有解耦合特性的物理交叉注意力(PhysicsCrossAttention,PhCA)实现采样特征在几何空间与紧致的隐空间之间的互相转换。通过将输入函数到输出函数的映射过程集中在隐空间中完成,提升了PDE求解精度、改进求解效率同时保留了高度灵活性。实验结果显示我们的方法在减少50%的GPU显存占用的同时,训练速度提升了1.8倍,并在4个正问题和1个反问题上预测精度取得了SOTA结果。
图1.隐空间神经算子
图2.物理交叉注意力编解码器
06.Meta-DT:条件序列建模与世界模型解耦实现离线元强化学习
Meta-DT:OfflineMeta-RLasConditionalSequenceModelingwithWorldModelDisentanglement
论文作者:王志,章力,吴文浩,朱圆恒,赵冬斌,陈春林
图2:Meta-DT在零样本测试中的回报表现与基线算法对比。使用中等规模的数据集,符号“↓”表示与少样本测试相比的性能下降比例。
07.面向视觉强化学习的优先近邻经验正则化一致性策略
GeneralizingConsistencyPolicytoVisualRLwithPrioritizedProximalExperienceRegularization
论文作者:李浩然,江震南,陈宇辉,赵冬斌
08.基于矢量量化离散空间的鸟瞰语义地图估计
VQ-Map:Bird's-Eye-ViewMapLayoutEstimationinTokenizedDiscreteSpaceviaVectorQuantization
论文作者:张一伟,高晋,戈福东,罗冠,李兵,张兆翔,凌海滨,胡卫明
图1:VQ-Map整体框架
09.三维驱动:利用多视角视频扩散模型驱动任意三维模型
Animate3D:AnimatingAny3DModelwithMulti-viewVideoDiffusion
论文作者:江妍沁,于超辉,曹辰捷,王帆,胡卫明,高晋
图1.任意3D物体驱动框架
10.基于预训练视觉语言模型的OOD检测:共轭语义池
ConjugatedSemanticPoolImprovesOODDetectionwithPre-trainedVision-LanguageModels
论文作者:陈孟沅,高君宇,徐常胜
研究介绍:一种用于零样本分布外(OOD)检测的直接流程包括从广泛的语义池中筛选出潜在的OOD标签,然后利用预训练的视觉-语言模型对分布内(ID)和OOD标签进行分类。本文从理论上探讨了提升性能的关键在于扩展语义池,同时提高选定OOD标签被OOD样本激活的概率,并确保这些标签之间的激活具有较低的相互依赖性。一个自然的扩展方法是采用更大的词汇表,但这不可避免地引入了大量同义词和不常见词汇,未能满足上述要求。因此,有效的扩展方式不应仅限于从词汇表中选择词汇。鉴于OOD检测的目标是将输入图像正确分类为ID/OOD类别,我们可以自行构建有助于检测的OOD标签候选项,尽管它们可能不是标准类别名称。基于原始语义池由具体类别名称组成的观察,我们构建了一个共轭语义池(CSP),其由经过修改的超类名称组成,每个超类名称作为相似类别样本的聚类中心。使用CSP扩展OOD标签候选符合我们的理论要求,并在FPR95指标上相较现有最优方法提升了7.89%。
共轭语义池(CSP)的示意图。类别名称可视为类别簇的中心。类似地,CSP中的元素可被视为具有相似属性的超类对象的聚类中心。
11.OneRef:基于掩码指代建模和特征空间统一的单塔视觉定位和指代分割框架
OneRef:UnifiedOne-towerExpressionGroundingandSegmentationwithMaskReferringModeling
论文作者:肖麟慧,杨小汕,彭芳,王耀威,徐常胜
图1.本文所提出的OneRef模型和已有的主流REC/RES模型结构对比
图2.本文所提出的掩码指代建模(MRefM)范式的示意图
12.基于异质观测数据的未观测混杂消除方法
AddressingHiddenConfoundingwithHeterogeneousObservationalDatasetsforRecommendation
论文作者:肖洋好,李昊轩,唐永强,张文生
推荐系统中的数据通常存在选择偏差,许多研究聚焦于已观测特征引起的偏差,但当存在未知特征(如收入)影响用户选择机制和反馈时,这些方法将失效,也被称为未观测混杂问题。为解决未观测混杂,研究者提出基于敏感性分析和额外随机对照试验(RCT)数据的模型校准方法,但前者依赖对混杂强度的强假设,后者则因RCT数据昂贵而受限。本文提出利用异质观测数据来应对未观测混杂,显式建模理想预测误差和隐藏混杂偏差,放宽了之前数据融合方法对RCT数据的依赖。实验表明,无论有无RCT数据,所提方法在处理未观测混杂方面均优于现有方法。
13.与另一个你共同进化:通过序列合作型多智能体强化学习微调大语言模型
CoevolvingwiththeOtherYou:Fine-TuningLLMwithSequentialCooperativeMulti-AgentReinforcementLearning
论文作者:马昊、扈天翼、蒲志强、刘博寅、艾小琳、梁延研、陈敏
强化学习(RL)已经成为在特定任务上微调大型语言模型(LLMs)的关键技术。然而,目前流行的RL微调方法主要依赖于PPO及其变体。虽然这些算法在一般的RL设置中是有效的,但当应用于LLM的微调时,它们往往表现出次优的性能并容易造成分布崩溃。在本文中,我们提出了CORY,将LLM的RL微调扩展到一个顺序合作型多智能体强化学习框架中,用多智能体系统固有的协同进化和涌现能力赋能LLM微调。CORY将多个LLM的交互构造为一个Stackelberg博弈:待微调的LLM被复制为两个自主智能体,一个先锋和一个观察者。先锋基于提问生成回答,而观察者同时接收提问和先锋的回答生成回答。在训练过程中,智能体定期交换角色,促进它们之间的合作和共同进化。实验在代表主观奖励的IMDBReview数据集和代表客观奖励的GSM8K数据集上分别对GPT-2和Llama-2进行微调。结果表明,CORY在策略最优性、抗分布崩溃性和训练鲁棒性方面均优于PPO。
图1.CORY算法框架。RL微调方法可以简单地扩展到CORY版本,只需三个步骤。首先,将待微调LLM复制为两个LLM智能体,一个作为先驱,另一个作为观察者;其次,将两个LLM智能体的任务奖励相加来代替原始任务奖励;最后,在训练期间定期交换两个LLM智能体的角色。经过训练,任何一个LLM智能体都可以独立使用。
14.学会战略性讨论:一夜终极狼人杀案例研究
LearningtoDiscussStrategically:ACaseStudyonOneNightUltimateWerewolf
论文作者:金宣法,王梓岩,杜雅丽,方蒙,张海峰,汪军
沟通是人类社会的基础,促进了人们之间信息与信念的交流。尽管大型语言模型(LLM)取得了不少进展,但最近使用这些模型构建的智能体往往忽视了对发言策略的控制,而这些策略在沟通场景和游戏中至关重要。作为著名语言类游戏《狼人杀》的变种,《一夜终极狼人杀》(ONUW)要求玩家制定战略性的发言策略,因为潜在的角色变化增加了游戏的不确定性和复杂性。在此工作中,我们首先展示了在ONUW游戏中,两种场景下(包含与不包含讨论)的精炼贝叶斯均衡(PBE)。结果表明,通过影响玩家的信念,发言可以极大地改变了他们的效用,从而强调了发言策略的重要性。基于从分析中获得的见解,我们提出了一种强化学习指导的智能体框架,在该框架中,经强化学习(RL)训练的发言策略被用于确定应采用的合适发言策略。我们在几种ONUW游戏设置下的实验结果证明了我们所提出的框架的有效性和泛化能力。
图1.基于RL指导的LLM智能体框架概述。(1)信念建模:基于观测形成对玩家角色的信念。(2)选择发言策略:利用RL训练过的策略从候选中选择发言策略。(3)决策:根据观测采取具体行动(根据不同游戏阶段,也可能包括信念和发言策略)。
15.大型语言模型玩《星际争霸II》:基准测试与摘要链方法
LargeLanguageModelsPlayStarCraftII:BenchmarksandAChainofSummarizationApproach
论文作者:马纬彧,米祈睿,曾勇程,闫雪,吴俣桥,林润基,张海峰,汪军
在TextStarCraftII中使用增强的摘要链(CoS)方法与LLM交互。这种方法简化了由LLM驱动的游戏过程。它从初始化开始,初始游戏数据被转换成文本以供处理。接下来,单帧和多帧摘要利用先进的LLM推理能力对观察结果进行提炼和总结,形成可执行的见解。在指令制定和行动调度阶段,这些见解被细分为具体的行动并排队等待执行。最后,在行动检索和执行阶段,行动在游戏中得以实施。这个循环不断将新的数据转换为文本,从而提升LLM在TextStarCraftII中的表现。
16.从实例训练到指令学习:基于指令的任务适配器自动生成方法
FromInstanceTrainingtoInstructionLearning:TaskAdaptersGenerationfromInstructions
论文作者:廖桓萱,何世柱,徐遥,张元哲,郝彦超,刘升平,刘康,赵军
大型语言模型通过指令微调(IFT)获得通用任务解决能力,但是IFT依赖大量任务数据的实例训练,这在现实场景中因任务标注实例稀缺而受限。同时,传统方法对于同类任务需要重复处理指令(都需要拼接任务描述)导致高计算成本。我们旨在通过模拟人类理解和遵循指令来学习技能的方式,克服实例训练的不足,专注于通过指令学习来增强跨任务泛化能力。基于此想法,本文提出一种“基于指令的任务适配器”(TAGI)自动生成新方法,该方法无需针对新任务进行繁琐的再训练。TAGI将给定的任务指令,利用超网络自动转化为高效且轻量的任务适配器,并无缝集成至大语言模型中,此过程无需针对具体任务实例进行参数更新,即可实现任务模型的自动构建。为了增强TAGI对指令的学习,我们通过知识蒸馏来增强其与实例训练开发的任务特定模型之间的一致性,包括结果概率的显示对齐和中间参数的隐式对齐。在Super-NaturalInstructions和P3数据集上的结果表明TAGI在保持性能的同时显著降低了推理成本。
实例训练和指令学习的对比示意图
TAGI方法概览:通过对齐超网络生成的参数和特定任务模型的参数,以及二者计算结果的表示分布来进行TAGI模型训练。
17.编辑后模型性能下降的原因和解决方案
ReasonsandSolutionsfortheDeclineinModelPerformanceAfterEditing
论文作者:黄修胜,刘佳翔,王业全,刘康
图1.数据和模型角度的分析实验
图2.D4S方法的主要实验结果
18.RWKU:面向大语言模型的真实世界知识遗忘基准测试
论文英文标题:RWKU:BenchmarkingReal-WorldKnowledgeUnlearningforLargeLanguageModels
论文作者:金卓然,曹鹏飞,王晨皓,何致涛,苑红榜,李嘉淳,陈玉博,刘康,赵军
图1.RKUW评估框架图
19.MemVLT:基于自适应记忆提示的视觉语言跟踪
MemVLT:Vision-LanguageTrackingwithAdaptiveMemory-basedPrompts
论文作者:丰效坤,李旭宸,胡世宇,张岱凌,武美奇,张靖,陈晓棠,黄凯奇
视觉语言跟踪(VLT)通过融合语言描述增强了传统的视觉目标跟踪,要求跟踪器不仅理解视觉信息,还能灵活地理解复杂多样的文本描述。然而,大多数现有的视觉语言跟踪器仍然过于依赖初始固定的多模态提示,这些提示难以为动态变化的目标提供有效的指导。幸运的是,互补学习系统理论表明,人类记忆系统可以动态存储和利用多模态感知信息,从而适应新场景。受此启发,我们提出了一种基于记忆的视觉语言跟踪MemVLT。通过引入记忆建模来调整静态提示,我们的方法能够为跟踪提供自适应提示。具体而言,我们依据CLS理论设计了记忆存储和记忆交互模块,这些模块促进了短期记忆和长期记忆之间的存储和灵活交互,从而生成适应目标变化的提示。最后,我们在主流的VLT数据集上进行了广泛的实验。实验结果表明,MemVLT达到了新的最先进性能。令人印象深刻的是,它在MGIT和TNL2K数据集上分别达到了69.4%和63.3%的AUC,比现有的最佳结果分别提高了8.4%和4.7%。
20.超越精度:通过视觉搜索实现更类人的目标跟踪
Beyondaccuracy:TrackingmorelikeHumanviaVisualSearch
论文作者:张岱凌,胡世宇,丰效坤,李旭宸,武美奇,张靖,黄凯奇
人类的视觉搜索能力可以高效而准确地跟踪任意移动的目标,最近提出的中央-外围二分理论(CPD)揭示了这背后的机制。然而,现有的视觉目标跟踪算法在长时跟踪方面仍未达到人类水平,特别是在需要鲁棒视觉搜索技能的复杂场景中。这些场景通常包含时空不连续性(即STDChallenge),这一问题在长期跟踪和全局实例跟踪中尤为常见。
为应对此问题,我们从类人建模的角度进行研究:(1)受CPD理论的启发,我们提出了一种名为CPDTrack的新型跟踪器。CPDTrack的中心视觉利用视频的连续性提高定位精度,外围视觉可以增强全局感知并检测目标运动。(2)为深入评估和分析STDChallenge,我们创建了STDChallenge基准。同时,通过加入人类被试,实现了人机的能力比较。(3)大量实验表明,提出的CPDTrack不仅在该挑战中达到了最先进的SOTA表现,还缩小了与人类行为的差距。
图1.STDChallenge的示意图,展示了目标消失和镜头切换的情况。STDChallenge相当具有挑战性,但CPDTrack能够保持稳健的跟踪性能,展现出比其他跟踪器更强的视觉搜索能力。(b)显示了来自一段序列中的目标状态,红点表示镜头切换。
图2.CPDTrack的整体架构参考了最新的单流跟踪器,模拟了CPD理论。
(a)人眼视觉灵敏度的数学模型与CPD的编码-选择-解码框架。
(b)提出的CPDTrack架构,当前帧被分割为中心-周边视觉,被输入到模型中。
灰色箭头代表了两个部分之间的对应关系。
21.面向泛化增强的分子数据修剪
BeyondEfficiency:MolecularDataPruningforEnhancedGeneralization
论文作者:陈丁硕,李志勋,倪语嫣,张桂彬,王丁,刘强,吴书,于旭,王亮
随着多样且海量分子数据集的涌现,如何进行高效训练已经成为该领域中一个紧迫但尚未深入探索的问题。数据修剪(DataPruning)作为一种常见的减轻训练负担的方法,通过筛选出影响较小的样本,构建一个用于训练的核心集。然而,分子任务中对预训练模型的日益依赖,使得传统的in-domain数据修剪方法不再适用。因此,我们提出了一种可以提升模型泛化能力的分子数据修剪框架(MolPeg),该框架专注于source-free数据修剪场景,即在预训练模型的基础上应用数据修剪。通过在训练过程中维护两个不同更新速度的模型,MolPeg能够同时感知源域和目标域知识,然后用样本在两个模型的损失差异来衡量其信息量。实验结果表明,即便在HIV和PCBA等四个数据集上修剪高达60-70%的数据,MolPeg的性能也能超越全集训练的效果。我们的工作表明,发现有效的数据修剪指标可以为迁移学习中的效率提升和更好的泛化能力提供可行的途径。
图1.MolPeg整体框架图
图2.不同数据修剪方法在HIV数据集的性能比较
22.视觉-语言大模型的知识编辑测评基准
VLKEB:ALargeVision-LanguageModelKnowledgeEditingBenchmark
论文作者:黄翰,仲海天,于涛,刘强,吴书,王亮,谭铁牛
图1.知识编辑的四个指标测试数据构建方法
图2.知识编辑的两种测试情境:单次编辑和连续编辑
23.Pin-Tuning:基于参数高效上下文微调的小样本分子性质预测
论文英文标题:
Pin-Tuning:Parameter-EfficientIn-ContextTuningforFew-shotMolecularPropertyPrediction
论文作者:
王亮,刘强,柳绍祯,孙鑫,吴书,王亮
分子性质预测在药物发现和材料科学中至关重要,但在实际场景中常常面临数据稀缺的挑战。为了解决小样本分子性质预测问题,现有方法通常采用了预训练的分子编码器和上下文感知的分类器。然而,现有的方法在对预训练编码器进行微调时仍然效果不佳。我们将这一问题归因于大量模型参数与少量分子性质标签之间的不平衡,以及编码器缺乏对上下文的感知能力。为此,我们提出了名为Pin-Tuning的参数高效上下文微调方法。具体来说,我们提出了用于预训练消息传递层的轻量化适配器(MP-Adapter)和用于预训练原子/化学键嵌入层的贝叶斯权重整合(Emb-BWC),以实现参数高效微调,同时防止过拟合和灾难性遗忘。此外,我们增强了MP-Adapter的上下文感知能力,使得预训练编码器能够进行上下文微调,从而提高其对特定性质的适应性。在公共数据集上的评估结果表明,我们的方法在减少训练参数的同时,提高了小样本分子性质预测的准确性。
图1.Pin-Tuning与现有方法的比较
24.视觉锚点是多模态大语言模型的有力信息提取单元
VisualAnchorsAreStrongInformationAggregatorsForMultimodalLargeLanguageModel
论文作者:刘浩耕,尤全增,韩笑天,刘永飞,黄怀波,赫然,杨红霞
在多模态大语言模型中,视觉语言连接器在将预训练的视觉编码器与大语言模型连接方面起着关键作用。然而,尽管其重要性显著,视觉语言连接器的研究相对较少。本文提出了一种强大的视觉语言连接器,旨在在保持低计算成本的同时提升多模态大语言模型的准确性。我们首先揭示了VisionTransformer中的视觉锚点的存在,并提出了一种高效的搜索算法来提取这些锚点。基于此,我们设计了AnchorFormer(AcFormer),这是一种新型的视觉语言连接器,能够在预训练过程中利用从视觉锚点中获得的丰富先验知识,引导信息聚合。实验结果表明,该方法在计算成本减少近三分之二的同时,性能明显优于基线方法,展现了AcFormer的高效性和有效性。
图1.平均标准化准确率的对比(MMB、TextVQA、GQA)。PR表示PerceiverResampler,它使用可学习查询作为信息聚合器。与其他方法相比,我们的方法在保持高训练速度的同时,取得了最高的准确率。
图2.结构概述
25.DrivingDojo数据集:推动交互式与知识丰富的自动驾驶世界模型
DrivingDojoDataset:AdvancingInteractiveandKnowledge-EnrichedDrivingWorldModel
论文作者:王宇琪,程科,何嘉伟,王启泰,戴恒晨,陈韫韬,夏飞,张兆翔
图1.DrivingDojo的数据集构建,提升世界模型的交互能力。
图2.丰富的驾驶场景和长尾案例
26.OpenSatMap:用于大规模地图构建的精细高分辨率卫星数据集
OpenSatMap:AFine-grainedHigh-resolutionSatelliteDatasetforLarge-scaleMapConstruction
论文作者:赵宏博、范略、陈韫韬、王淏辰、杨雨然、金小娟、张译心、孟高峰、张兆翔
本文提出了用于大规模地图构建的细粒度高分辨率卫星数据集OpenSatMap。地图构建是导航和自动驾驶等交通行业的基础之一。从卫星图像中提取道路结构是构建大比例尺地图的有效方法。然而,现有的卫星数据集仅提供分辨率相对较低(最高19级)的粗语义级标签,阻碍了这一领域的发展。相比之下,OpenSatMap(1)具有细粒度的实例级注释;(2)包含高分辨率图像(20级);(3)是目前同类数据中最大的一个;(4)收集的数据具有很高的多样性。此外,OpenSatMap还覆盖了流行的nuScenes数据集和Argoverse2数据集,并与之对齐,有望推动自动驾驶技术的发展。通过发布和维护该数据集,我们为基于卫星的地图构建和自动驾驶等下游任务提供了高质量的基准。
OpenSatMap数据集示例。它包含带有精细注释的高分辨率卫星图像,涵盖不同的地理位置和流行的驾驶数据集。
27.重定向预训练的靶标特异性扩散模型用于双靶标药物设计
ReprogrammingPretrainedTarget-SpecificDiffusionModelsforDual-TargetDrugDesign
论文作者:周相鑫,关嘉麒,张嘉涵,彭鑫港,王亮,马剑竹
28.基于直接能量偏好优化的抗原特异性抗体设计
Antigen-SpecificAntibodyDesignviaDirectEnergy-basedPreferenceOptimization
论文作者:周相鑫,薛东雨,陈睿哲,郑在翔,王亮,顾全全
抗体设计是一项在治疗学和生物学等多个领域具有重要意义的关键任务,由于其复杂性,面临着相当大的挑战。在本文中,我们将特异性抗原的抗体序列-结构协同设计作为一种优化问题,考虑其合理性和功能性。利用一个预训练的条件扩散模型,该模型通过等变神经网络联合建模抗体的序列和结构,我们提出了基于直接能量偏好优化的方法,指导生成既合理又对特定抗原具有显著结合亲和力的抗体。我们的方法涉及使用残基级别的分解能量偏好来微调预训练的扩散模型。此外,我们使用梯度修正技术来解决吸引力和排斥力等各种能量类型之间的冲突。在RAbD基准测试上的实验表明,我们的方法有效地优化了生成抗体的能量,并在设计具有低总能量和高结合亲和力的高质量抗体方面达到了最先进的性能,展示了我们方法的优越性。
29.Hallo3D:一种用于一致性3D内容生成的多模态幻觉检测与缓解方法
Hallo3D:Multi-ModalHallucinationDetectionandMitigationforConsistent3DContentGeneration
论文作者:王宏博,曹杰,刘进,周晓强,黄怀波(通讯),赫然
近期,预训练的二维扩散模型显著提升了三维内容生成中的视觉先验指导能力。然而,该过程通常缺乏几何约束,导致空间感知和多视角不一致。为了解决这一问题,本工作引入了Hallo3D,一种无需额外数据支持的三维内容生成方法,利用大型多模态模型的几何感知能力来检测和减轻这些幻觉。本工作的方法遵循生成-检测-校正的范式,使用多模态不一致作为查询信息来指导幻觉的检测,并制定增强的负面提示,确保渲染的一致性。此外,本工作提出了一种去噪策略,通过注意力机制在视觉指导过程中维持多视角的一致性颜色和纹理。该方法与数据无关,易于与现有的三维内容生成框架集成,支持文本驱动和图像驱动的方式。大量实验表明,本工作的方法在显著改善生成的三维内容的一致性和质量方面表现出色,尤其是在减轻基于二维预训练模型常见的幻觉方面。
本工作的模型流程图
30.DreamClear:使用隐私安全的数据集实现高性能的真实场景图像复原
DreamClear:High-CapacityReal-WorldImageRestorationwithPrivacy-SafeDatasetCuration
论文作者:艾雨昂,周晓强,黄怀波,韩笑天,陈政宇,尤全增,杨红霞
由于现有模型容量不足和数据集不够全面,图像复原在真实场景中面临严峻挑战。本工作针对真实场景中的图像复原问题提出了两种创新策略:GenIR和DreamClear。
DreamClear是一个基于DiffusionTransformer的图像复原模型。该模型利用文本-图像生成模型的生成先验和多模态大模型的感知能力,实现逼真的图像复原。为了增强模型对各种真实场景中退化情况的适应性,我们引入了自适应调制器混合模块,它通过token级别的退化先验,动态整合各种复原专家,从而扩展了模型可处理的退化范围。
实验结果表明,DreamClear表现卓越,验证了我们提出的双重策略在真实场景图像复原中的有效性。
图1.DreamClear的真实场景图像复原效果
图2DreamClear整体结构
31.从模式补全中学习:自监督可控生成
LearningfromPatternCompletion:Self-supervisedControllableGeneration
论文作者:陈智强,范国藩,高金颖,马雷,雷博,黄铁军,余山
图1.SCG框架。SCG有两个组成部分:一个是通过我们设计的模块化等变约束,促进网络自发地特化出不同的功能模块;另一种是通过模式补全来执行自监督可控生成。
图2.基于等变约束的模块化自编码器架构
32.基于脑记录的视觉重建与语言交互增强研究
Neuro-VisiontoLanguage:EnhancingBrainRecording-basedVisualReconstructionandLanguageInteraction
论文作者:申国斌,赵东城,何翔,冯令昊,董一廷,王纪航,张倩,曾毅
结合fMRI特征提取与大语言模型(LLMs)进行交互式沟通和重建的多模态集成框架概览。该架构包括:(a)使用VAE和CLIP嵌入进行特征对齐的双流路径;(b)一个3DfMRI预处理器p以及一个fMRI特征提取器;(c)与fMRI集成的多模态LLMs。提取的特征随后输入LLMs,用于处理自然语言指令并生成响应或视觉重建。
33.用于视觉语言目标检测的零样本可泛化增量学习
Zero-shotGeneralizableIncrementalLearningforVision-LanguageObjectDetection
论文作者:邓杰仁,张好剑,丁昆,胡建华,张兴轩,王云宽
本文提出了增量视觉语言目标检测,这是一个新颖的学习任务,旨在增量地使预训练的视觉语言目标检测模型适应各种专业领域,同时保持其在广义领域的零样本泛化能力。为了应对这一新的挑战,本文提出了零干扰可重参化适应,这是一种引入零干扰损失和重参化技术的新方法,可以在不显著增加内存使用的情况下解决增量视觉语言目标检测问题。在COCO和ODinW-13数据集上的全面实验表明,零干扰可重参化适应有效地保障了视觉语言目标检测模型的零样本泛化能力,同时支持模型不断适应新任务。具体地,在ODinW-13数据集上进行训练后,零干扰可重参化适应的表现优于已有的增量目标检测方法CL-DETR和iDETR,分别将零样本泛化能力提高了13.91和8.74个AP。
图1.将视觉语言目标检测模型适应到多个下游任务的三种不同范式:零样本学习(Zero-shot),一般增量学习(GeneralIOD),增量视觉语言目标检测(IVLOD)。
图2.零干扰可重参化适应方法
34.跨任务策略指导的高效多任务强化学习
EfficientMulti-TaskReinforcementLearningwithCross-TaskPolicyGuidance
论文作者:何金岷、李凯、臧一凡、傅浩波、付强、兴军亮、程健
多任务强化学习旨在高效利用各任务间的共享信息,促进多任务的同时学习。现有方法主要侧重于通过精心设计的网络结构或定制的优化过程进行参数共享。然而,这些方法忽视了一种直接且互补的方式来利用任务间的相似性,即已经掌握某些技能的任务控制策略可以为未掌握的任务提供显式指导,加速学习该技能的应用。为此,我们提出了一个名为跨任务策略指导(Cross-TaskPolicyGuidance,CTPG)的新框架。其为每个任务训练一个指导策略,从所有任务控制策略中选择与环境交互的行为策略,从而生成更好的训练轨迹。此外,我们提出了两种门控机制来提高学习效率:其一过滤掉对指导无益的控制策略,其二则阻止不需要被指导的任务。CTPG是一个通用框架,可以与现有的参数共享方法适配,实验证明将CTPG与这些方法结合,能够显著提升在操作和运动基准测试环境中的性能。
图1.机械臂控制任务间存在的全部或局部策略共享
图2.CTPG框架示意图
35.基于上下文搜索的对手建模
OpponentModelingwithIn-contextSearch
景煜恒,刘秉运,李凯,臧一凡,傅浩波,付强,兴军亮,程健
图1.左图:OMIS的预训练过程和神经架构。预训练步骤如下:
图2在与使用未知策略的对手对战时,OMIS的搜索能够迅速评估每个合法动作,预测对手在搜索过程中的行动,并最终选择最有利的动作。OMIS表现出一些有趣的现象:在PredatorPrey环境中,搜索使得我方智能体(绿色)能够避开使用包围策略的对手(红色)的围捕;在Level-BasedForaging环境中,搜索使得我方智能体(蓝色)能够与对手(黑色)合作,采食比自己等级更高的苹果;在OverCooked环境中,搜索帮助我方智能体(绿色)避免阻挡合作伙伴(蓝色)的通路,从而使其能够顺利上菜。
此网站支持IE9及以上浏览器访问
地址:北京市海淀区中关村东路95号邮编:100190Email:casia@ia.ac.cn