2023年12月的NeurIPS会议上举办了许多主题研讨会,其中MATHAI研讨会为第三届,主题为“数学推理与AI”。数学推理是人类认知的基本方面,涉及分析复杂信息、识别模式和关系以及从证据中得出逻辑结论,在科学、工程、金融和日常环境中有着重要应用。最近大语言模型(LLMs)的进展在人工智能和数学推理的交叉领域开辟了新机遇,从解决复杂问题或证明定理的新方法,到数学及其他领域中人机协作的新形式。
研究领域:人工智能,大语言模型,数学推理,多模态,控制论,认知科学
王至宏|作者
历年MATHAI研讨会的链接:
此外还有
目录
1.形式化
2.研究导向
3.数据集
4.工具&智能体
5.数学推理&应用题
6.多模态
7.小模型实验&训练微调
8.认知科学
1.1LLEMMA:一个开放的数学语言模型
Llemma在自然语言问题和形式化语言问题上都表现出了非凡的能力:
自然语言能力
形式化语言能力。左侧:给定形式命题、自然语言命题和自然语言LaTeX证明,生成Isabelle形式证明;右侧:给定形式命题,生成Lean形式证明
这个工作对标谷歌的Minerva模型,模型开源且训练数据和代码完全公开,可以作为后续开展其他数学实验的基础模型
1.2llmstep:基于LLM的Lean证明步骤建议
llmstep示例-vscode
LLMSTEP是一个集成语言模型至Lean证明助手的工具。它通过Lean4策略(tactic)将用户的证明状态发送给托管有语言模型的服务器(下图左侧),然后调用模型会生成建议,这些建议随后在Lean中进行检查,并在用户的开发环境内显示(下图右侧)。研究团队提供了一个语言模型基准,并且提供了用于微调和评估的代码,以支撑未来的发展。他们还实现了几种服务器选项,包括在CPU、CUDAGPU或GoogleColab笔记本上运行的服务,旨在为一般用户提供快速且有效的语言模型建议。
原理图:左侧对接机器,右侧对接人类
默认地,llmstep基于开源模型Pythia2.8b使用LeanDojo数据集进行微调,但具体实现与模型无关,因此支持使用任何语言模型。
1.3基于语言代理的形式定理证明方法
该研究团队提出了一种使用语言代理的方法,COPRA(In-ContextProverAgent),并在形式定理证明任务中展现出了最新的性能。该方法将大型语言模型(GPT-4)作为执行状态回溯搜索的策略组成部分。在搜索过程中,该策略能够选择适当的证明技巧,并从外部数据库中检索引理和定义。所选的每个策略都在底层证明框架内执行,且执行反馈被用来构建下一次策略调用的提示信息。此外,该搜索过程会追踪其历史信息,利用这些信息减少幻觉现象和减少不必要的LLM查询。研究团队在Lean的miniF2F基准测试以及Compcert项目的Coq任务集上对COPRA进行了评估。结果显示,在这些基准测试中,COPRA的性能显著优于单次调用GPT-4以及其他在证明数据上进行微调的最先进模型,尤其是在快速找到正确证明的能力方面。
策略生成流程示意图
1.4Lemur:将大语言模型集成到自动程序验证
大型语言模型展示的代码理解能力引发了一个问题:它们是否可以用于自动程序验证,这类任务通常需要对程序属性进行高水平的抽象推理,而这对验证工具来说是极具挑战性的。研究者们提出了一种将LLMs和自动推理器的能力结合起来用于自动程序验证的通用方法。他们形式地描述了这种方法,并将其形式化为一系列推导规则,并证明了其正确性。研究者将这个演算体系实例化为一个可靠的自动验证过程,在合成程序以及竞赛数据集上都取得了实际的改进效果。
这个工作主要是面向程序验证
1.5基于大语言模型温度缩放的Lean证明步骤预测
1.6Magnushammer:基于Transformer的前提选择方法
1.7大语言模型作为Lean定理证明的“副驾驶”
形式化证明可以通过如Lean这样的证明助手严格检查,不给模型留下任何幻觉的可能。现有基于LLM的证明器尝试在没有人工干预的情况下完全自动地证明定理。在这种模式下,他们在处理全新且具有挑战性的定理时会遇到困难,对于这些定理,人类的洞察可能至关重要。这篇工作探索了作为协助人类证明定理Copilot的LLMs,LeanCopilot,一个在Lean中运行神经网络推断的框架。它使程序员能够构建各种基于LLM的证明自动化工具,这些工具可以无缝集成到Lean用户的工作流程中。LeanCopilot工具利用LLMs提出证明步骤和完成中间证明目标,实验结果证明了该方法在协助人类方面相比于Lean中现有的基于规则的证明自动化更为有效。
这篇工作和llmstep类似,但是代码似乎还没有开放?
1.8LLM对比ITP
这篇工作很有意思,相当于在解释为什么“大语言模型能用于形式定理证明”,以及判断某个模型是否有这方面的能力。
这个类别指面向科学研究领域的工作,区别于针对中小学的应用题竞赛题或常规的推理题,这些工作探索AI在数学研究方面的应用潜力。第一篇是评估综合能力的基准,后边几篇涉及:代数组合,极值图论,量子计算,动力系统,控制论,材料科学等领域的问题。
2.1SCIBENCH:评估大型语言模型在大学水平科学问题的解决能力
随着大型语言模型的发展进步,其在许多数学基准测试中取得了显著进展。然而,这些基准测试大多只包含初高中科目的问题、仅设有选择题,并且限制在基本算术运算的狭窄范围内。为了解决这些问题,这篇论文介绍了一个全面的基准测试套件SCIBENCH,旨在系统地检验解决复杂科学问题所需的推理能力。SCIBENCH包含两个数据集:一个开源集,包括一系列大学级别的科学问题;另一个闭源集,包括本科水平考试中的问题。基于这两个数据集,研究者对五个具有代表性的LLMs进行了深入的基准测试研究,并采用了不同的提示策略。此外,通过详细的用户研究,研究者得到:没有任何单一提示策略能显著优于其他策略,一些在特定问题解决技能上显示出进步的策略,可能会造成其他技能的下降。
与其他基准的对比:SCIBENCH中的所有问题都是开放式的、自由回答的问题。它们需要多个推理步骤,其中的计算涉及复杂的算术运算,如微分和积分。许多现有基准,如ScienceQA和GSM8K,只包含基于年级水平科目的问题,缺乏足够的复杂性;尽管像MATH这样的其他基准引入了高中水平的问题,但它们只涉及有限的运算范围(四则运算和求幂),不能充分评估LLM的推理能力的深度;其次,最近的工作,包括MMLU、AGIEval和CEval,尽管引入了跨越广泛学科的具有挑战性的问题,但主要集中在多项选择题上,而没有提供详细的解决方案,因而无法理解LLM的局限性,也无法辨别它们为什么会犯某些错误;这些基准通常来自在线材料,问题后往往紧跟着答案,模型可能在不真正理解问题的情况下直接预测答案。这些潜在的数据泄露为LLM评估提供了一条捷径,进一步损害了其有效性。
这个工作提出了数学物理化学三门学科的数据集,并给出Baseline
数学物理化学-评测结果
2.2我们能依赖深度学习吗:使用机器学习探索和表征组合结构
深度学习因其出色的模式匹配能力,在多个科学领域中展现了强大的实用性,特别是数学研究领域。近期研究显示深度学习可以发现数学对象间细微关联,这些关联可能被人类专家所忽略。本研究提出一种简单方法,帮助领域专家使用深度学习对数学对象进行表征。当某类函数、空间或线性表示等在计算中自然出现但难以简明描述时,就会面临此类表征问题。总的目标是找到简单的规则,并揭示其中的数学原理。作者开发了一种名为特征归因聚类探索(FeatureAttributionClusteringforExploration,FACE)的方法,通过聚类分析训练模型中的特征归因,得到几种原型归因,专家们可以进一步将这些原型转换为正式且严格的规则。在案例研究中,作者应用该方法在组合数学中取得新成果,表证了一类对应于某些置换表示的0-1矩阵的子集,这些置换表示被称为双边有序词。
这篇工作讨论子集刻画问题(Characterizationproblem):给定集合B中的一个元素子集A,找到一种简单的判别方法以确定任意元素b∈B是否属于A。
这类问题在数学中无处不在,经典例子包括:
2.3使用AlphaZero和禁忌搜索寻找非常大的极值图
极值图(ExtremalGraphs)是图论中的一个重要概念,其研究目标是在满足某些约束条件下,图的某个参数达到极值的情况。非常经典的例子是Turán图(TuránGraph)。通常,低阶极值图是可以直接暴力搜索。利用Mathematica的IGraphM暴力求解,用普通笔记本的CPU计算能遍历前10阶。但图论问题有个共同特点,随阶数增长计算复杂性通常呈指数增长,下表为每一阶简单图的数据:
1-11阶简单图的数目
常规做法是观察低阶的规律,然后进行归纳证明。但如果希望计算更高阶的例子,就必须采用结合深度学习的策略,比如这篇工作。
下边几篇简单带过,分别涉及量子计算,控制论与动力系统,长度泛化问题,材料科学问题的研究。
2.4教小型Transformer改写ZX量子线路图
ZX演算(ZXcalculus)是一个用于推理线性映射的图形语言。映射通过图表示,而推理则涉及图的改写。ZX演算主要应用在量子计算领域。研究人员训练了小型Transformer模型来简化ZX图,即执行量子电路的资源优化。初步实验表明,这些模型可以被训练以高精度简化CNOT和Clifford电路。这些是最简单类型的ZX图,因为它们存在有效的改写策略。此外,还有证据显示,这些Transformer模型学会了简化更为复杂的Clifford+T图,而这类图通常不存在高效的简化算法。
2.5强化学习在控制论中的应用:数学问题解决的新方法
2.6使用Transformer探索Lyapunov函数
本文考虑了数学中一个长期存在的开放问题:探索控制动力系统全局稳定性的Lyapunov函数。作者们提出了一种生成训练数据的方法,并训练了序列到序列的Transformer模型,以高精度预测多项式和非多项式系统的Lyapunov函数。此外,他们还引入了这个问题的新基准,并展示了他们的模型达到了新的SOTA,超过了基于近似的技术和平方和算法常规程序。
2.7Transformer可以学哪些算法?一项长度泛化的研究
大语言模型表现出令人惊讶的涌现泛化特性,但在许多简单的推理任务上,例如算术和奇偶性判断,它们却常常遇到困难。在这项工作中,研究者们集中探讨了长度泛化问题,并提出了一个统一框架来理解Transformers在给定任务上何时以及如何实现长度泛化。首先,他们展示存在某些算法任务,标准的DecoderOnly模型经过从头开始的训练后自然而然能表现出强大的长度泛化能力。对于这些任务,研究者们利用RASP编程语言证明正确的算法解决方案可以被一个简单的Transformer所表示。基于此,他们提出并支持了RASP-泛化猜想:如果存在一个简洁的、对所有输入长度都有效的RASP-L程序,那么Transformers倾向于学习一个能够进行长度泛化的解决方案。随后,他们利用这些洞见为传统上难以处理的任务(如奇偶性判断和加法)开发了新的便签(scratchpad)格式,这些格式在长度泛化方面表现出色。总体而言,这些工作为理解长度泛化机制以及Transformers的算法能力提供了一个全新的视角。
2.8垂直领域的人工智能驱动的科学发现
部分工作比如:SCIBENCH,在前边已经出现,就不重复讨论了。随着大模型能力的不断提升,很多基准测试正在失去其作为评估工具的作用。与之对应,一些难度更大,面向更加细分领域的数据集被提了出来。
3.1SIRD:符号积分规则数据集
3.2ARB:面向大型语言模型的高级推理基准
大型语言模型(LLMs)在各种数量推理和知识基准测试中表现出了惊人的性能。然而,随着LLMs越来越高的得分,许多这样的基准测试正在失去其作为评估工具的效用,尽管它们还没有在这些领域达到专家级别的表现。研究者们介绍了ARB,这是一个由高级推理问题构成的新颖的基准,其涵盖了数学、物理、生物、化学和法律等多个领域,比以往的基准测试提出了更高的挑战标准。作为ARB的一部分,研究者们提出了一系列需要进行高级符号推理和具备深层领域知识的数学与物理题目。他们对最近的模型如GPT-4和Claude在ARB上的表现进行了评估,结果显示当前模型在更具挑战性的任务上的得分远远低于50%。为了改善自动和辅助评估能力,研究者们引入了一种基于评分标准的评估方法,允许GPT-4对其自身的中间推理步骤打分。他们发现,评注员与GPT-4依据评分标准所做的评估得分之间有良好的一致性。
数据集构成:
ARB数据集组成成分
评测效果:
不同模型在ARB数据集上的效果
3.3CHAMP:用于细致分析大语言模型数学推理能力的竞赛级数据集
3.4OpenWebMath:一个高质量数学网页文本的开放数据集
数据过滤过程:
数据清洗Pipeline
工具是智能体构建中最为重要的一环,其使得智能体能够完成许多单靠LLM难以完成的任务。下边几篇工作对数学智能体构建是非常好的参考。
4.1Chameleon:大型语言模型即插即用的组合式推理
大型语言模型(LLMs)因其涌现的推理能力,在解决各种自然语言处理任务方面取得了显著进展。然而,LLMs存在固有的局限性,它们无法访问最新信息(存储在网络或特定任务知识库中)、使用外部工具以及进行精确的数学和逻辑推理。为了减轻这些限制,作者提出了一个名为Chameleon(变色龙)的人工智能系统。该系统通过增加即插即用的模块增强LLMs的组合推理能力。Chameleon通过组合各种工具(例如,LLMs、现成的视觉模型、网络搜索引擎、Python函数和基于启发式的模块)来合成程序,完成复杂的推理任务。Chameleon的核心是一个基于LLM的规划器,负责组装一系列工具以执行生成最终响应。在两个多模态知识密集型推理任务ScienceQA和TabMWP上,Chameleon证明了其有效性。由GPT-4驱动的Chameleon在ScienceQA上达到了86.54%的总体准确率,比最佳发布的few-shot结果提高了11.37%。在TabMWP上,GPT-4驱动的Chameleon将准确率提高了17.0%,将最新技术水平提升到98.78%。分析还表明,在推断指令中潜在约束时,与ChatGPT驱动的规划器相比,GPT-4驱动的规划器展示了更为一致和理性的工具选择。
两个简单示例,取自在TabMWP数据集:
这个工作构建了一个智能体,通过组合各种工具来获取答案,且支持一般的QA问答,而不局限于数学问题。
QA+简单推理
4.2ToolDec:通过有限状态解码实现LLM的无语法错误和泛化性工具使用
通过有限状态机(FSM)进行引导(结合符号与统计)
用有限状态机(FSM)进行引导大模型
4.3结合语言模型与符号求解器解决数学应用题
作为区分,这一专题针对应用题或简单任务的数学推理,这次论坛主题就是推理,WorkshoponMathematicalReasoningandAI,大部分论文可以归到此类。
5.1TinyGSM:通过1B参数在GSM8K上实现80%准确率
小型模型提供了诸多计算上的优势,但模型参数量对于解决问题能力的影响程度仍然是个悬而未决的问题。这项工作研究了小型模型在数学推理任务上的表现。具体来说,研究人员发现,一个具有1.3B参数的模型在解决数学应用题上能够达到80.1%的准确率,这个表现超越了大得多的现有模型,并且甚至可以与其生成训练数据的GPT-3.5-turbo教师模型的性能相媲美。论文的方法很简单,主要包含两个关键部分:第一部分是使用一个由GPT-3.5-turbo生成的、包含解答的数学应用题合成数据集,该数据集将完全公开。第二部分是使用一个验证器,从多个候选答案中选择最终输出。
5.2MinT:通过多视图微调提高数学推理的泛化能力
数学领域的推理对于相对较小的语言模型(LMs)依然是一个重大挑战。许多现行方法专注于使LMs专长于数学推理,并且严重依赖从强大但效率不高的大型语言模型(LLMs)中提取知识。在这项工作中,研究人员探索了一种新方向,避免过度依赖LLM教师,引入了一种多视图微调方法,该方法有效利用了具有多样化注释风格的现有数学问题数据集。该方法独特地考虑到各种注释格式作为可能互相帮助的不同“视图”,并在训练模型时利用它们。通过在输入问题后附加不同的指令,模型可以灵活地学会以多种格式生成解决方案。实验结果表明,该策略使相对较小的LMs的表现超越了先前严重依赖知识蒸馏的方法,以及精心建立的基线。此外,所提出的方法赋予模型在不同视图和数据集上的潜在泛化能力,以及从不准确或不完整的噪声数据中学习的能力。作者们希望通过多视图训练范式能激发其他机器推理领域未来的研究。
多视图微调数据
5.3基于符号规则学习的大语言模型,用以增强数值推理鲁棒性
虽然人们已经提出了一些提示策略来引导大型语言模型进行推理,但对于机器阅读理解任务,数值推理依然是一个挑战。研究者们提出了一种神经符号方法,利用LLM的上下文学习能力将复杂问题分解成更简单的子问题,并采用符号学习方法学习重组部分答案的规则。该方法在DROP基准的不同数字子集上进行了评估;结果表明,这种方法与为DROP专门设计的SOTA模型竞争力相当,并且显著优于纯粹依靠LLM提示的方法。此外,该方法具有数据效率高的特点,因为它无需进行任何额外的训练或微调。神经符号方法还促进了鲁棒的数值推理能力,确保模型忠实于其所呈现的文本,并提供可解释和可验证的推理过程。
神经符号算法
5.4计划、验证和转换:多样化思维方式的集成推理
随着大型语言模型展现出在不同提示方法下的有效性,例如“思维链”和“思维程序”(ProgramofThought),这些方法在数学推理任务上已经显示出了相互之间的极佳互补性。在这项工作中,研究人员提出了XoT,一个通过用多样化推理思路启发LLM的集成问题解决框架。对于每个问题,XoT总是先选择最合适的方法,然后迭代执行每种方法。在每次迭代过程中,XoT会主动检查生成答案的有效性,并纳入外部执行器的反馈,从而能够在不同的提示方法之间动态切换。通过在10个主流的数学推理数据集上进行广泛实验,研究者证明了他们所提出的方法的有效性,并彻底分析了每个模块的强项。此外,实验结果表明,该框架与近期在单一推理方法上取得改进的工作相正交,并且能够进一步泛化到逻辑推理领域。通过允许方法间的切换,XoT为在统一框架内协同集成多样化推理思维提供了新的视角。
5.5EchoPrompt:通过重述问题提高上下文学习能力
这类工作的想法都很简单,让模型在回答前重新表述问题,加强对问题的理解,例子如下:
回答前重新表述问题(右图)
5.6通过算术任务学习多步推理
数学推理被视为语言模型所必需的能力。最近的研究表明,大型语言模型在解决数学问题方面有着令人印象深刻的表现。这种成功被归因于它们的“链式思考”(COT)推理能力,即分解复杂问题成为逐步推理链的能力,但这样的能力似乎只出现在参数非常多的模型中。这项工作探讨了如何将多步推理能力整合进相对小型的语言模型中。作者提出通过在一个由多步算术任务(MSAT)组成的合成数据集上继续预训练语言模型来引入这种能力。在数学应用题任务上的实验展示了这一方法在提升语言模型数学推理能力方面的有效性。
5.7通过重新检验解决数学应用题
解决数学应用题(MWP)的目标是理解描述性数学问题并计算结果,之前的努力大多致力于提升不同技术模块。本文带来了一个不同且新颖的视角——在训练过程中进行重新检验,并引入了一个伪双任务以增强MWP解决能力。研究者们提出了一种模型无关的伪双重(PseDual)学习方案,可以适配任何现有的MWP解决器。这个特定定义的伪双任务是将数学表达式中的数字重新填充回原始的应用题中,并使数字处于屏蔽状态。为了有效地联合两个任务的学习,研究者还设计了一个预定融合策略,用于数字填充任务,该策略平滑地将输入从真实数学表达式转换为预测的表达式。通过实证研究,伪双重学习方案已被验证在多个代表性MWP解决器中有效。
三种模式对比图
5.9语言模型提示空间中基础算术性质的研究
6.1MathVista:在视觉上下文中评估基础模型的数学推理能力
尽管大型语言模型(LLMs)和大型多模态模型(LMMs)在不同领域展现了令人印象深刻的技能,但它们在视觉背景下进行数学推理的能力尚未正式评估。为LLMs和LMMs装备这种能力对于通用目的AI助手至关重要,并且在教育、数据分析和科学发现等方面展现出巨大潜力。
为填补这一空白,研究者提出了MATHVISTA基准测试,该测试旨在结合来自文献中识别出的多样化的数学和视觉任务挑战。研究者首先从28个现有的以数学为焦点和视觉问答数据集中,归类并确定了关键的任务类型、推理技能和视觉背景。然后构建了三个新的数据集,即IQTest、FunctionQA和PaperQA,以覆盖缺失的视觉背景类型。所呈现的问题通常需要超越光学字符识别(OCR)或图像字幕的深入视觉理解,并且要求使用丰富的领域特定工具进行组合推理,这对现有模型来说是一个显著的挑战。研究者对11个知名的开源和专有基础模型(包括LLMs、增强工具LLMs和LMMs)进行了全面评估。表现最佳的模型——多模态巴德(MultimodalBard),仅达到了人类性能的58%(34.8%相比60.3%),表明改进的空间仍然很大。鉴于这一显著的差距,MATHVISTA激励了未来的研究,推动通用AI代理的发展,使其能够处理数学密集型和视觉丰富的现实世界任务。
6.2用于家庭数学学习的口语理解评估
随着最近在会话式人工智能技术方面的进步,借助互动式数学学习家庭系统提升早期儿童教育质量正逐步变成现实。本研究通过实施一种多模态对话系统,在家中支持基于游戏的学习体验,引导儿童掌握基础数学概念。研究团队探索了任务导向型对话系统内部的口语理解(SLU)流程,该流程采用了级联自动语音识别(ASR)和自然语言理解(NLU)组件,并在孩子们参与的“儿童空间”家庭部署数据上进行了评估。这些数据来自于孩子们参与的游戏化数学学习活动。研究验证了NLU多任务架构的优势,并且试验了多种预训练语言表示,用于数学学习领域的意图识别和实体抽取。为了在真实家庭环境中识别儿童的语音,研究调查了若干ASR系统,包括谷歌云服务和最新的开源Whisper解决方案,涉及不同大小的模型。通过在带噪声的ASR输出上测试表现最佳的NLU模型,研究评估了SLU流程,以审视在真实家庭环境中理解儿童数学学习语音的挑战。
6.3通过在向量符号架构中学习规则进行视觉抽象推理的概率归纳
7.1向小型Transformer教授算术
7.2学习最大公约数——Transformer中的可解释预测
作者训练了小型Transformer模型来计算两个正整数的最大公约数(GCD),并证明这些模型的预测是完全可解释的。在训练过程中,模型学会了识别一个除数列表D,并且能够预测出该列表中能同时整除两个输入整数的最大元素。研究还表明,训练分布对模型性能有显著影响。仅从均匀分布的操作数进行训练的模型只掌握了少量的GCD(38/100)。当使用对数均匀分布的操作数进行训练时,模型性能提高到正确预测73个GCD,而基于对数均匀分布的GCD进行训练可以进一步提升性能,达到91个正确的GCD。
7.3系统推理任务中的持续学习与分布外泛化
人类经常能够从一系列狭窄的例子中学习新的解决问题策略,并将这些策略泛化到学习过程中未曾涉及的实例,但神经网络在此方面的泛化能力仍然面临挑战。这种限制影响了数学技巧的学习,这些技巧适用于无界的问题空间(例如,所有实数)。研究者利用神经网络探索了这一局限性,它们在训练解决6×6数独谜题的特定单元格的策略时使用了一种新颖的课程——模型首先学习两个初级任务,随后研究者在训练更复杂解决策略可能会遇到的训练样例子集期间评估其分布外泛化能力。基线模型能够掌握训练分布,但未能在分布外进行泛化。然而,研究者介绍了一组足以支持高准确度和可靠的分布外泛化的扩展组合。这些结果为增强在自然数据集中由于数据分布高度不平衡而训练出的模型的健壮性提供了新的方向。
7.4多样化监督的原则探索
通过下一个词预测来训练大型Transformer模型,推动了AI领域的重大进步。尽管这种生成式AI的方法取得了显著成果,但它极度依赖于人类监督。即便是像ChatGPT这样的最先进AI模型,也需要通过人类演示进行微调,这要求大量的人工输入和领域专业知识。这种对人类监督的高度依赖成为AI创新发展的一个重要障碍。为了应对这一挑战,研究者们提出了一个被称为探索性AI(EAI)的新范式,其目标是自主生成高质量的训练数据。EAI从无监督强化学习(RL)的预训练中汲取灵感,在自然语言空间实现探索。该方法利用大型语言模型来评估生成内容的新颖性,并包含两个关键组成部分:一个按照探索原则生成新颖内容的“行动者”和一个评估并提供指导性批评以引导行动者的“评价者”。实证评估显示,EAI在复杂推理任务上显著提升了模型性能,克服了对人力密集型监督的依赖限制。
8.1AIforMathematics:认知科学视角
8.2卷积神经网络模型对数量概念的敏感性
数的本质是数学哲学中的一个经典议题。认知科学家已证实,人类心理上将数字表示为组织成心理数线(MNL)的量级。本研究探讨了在学习分类图像时,卷积神经网络模型是否会无意中学到关于数字和数量的概念。事实确实如此。一个代表性的模型显示出距离效应、大小效应和比例效应,这些都是人类数量表示中的标志性特征。通过对其潜在表示进行多维尺度分析(MDS),研究者发现这些表示与人类所记录的心理数线有着密切的相似性。这些发现挑战了发展科学中的观点,该观点认为数字是所有人类婴儿固有的“核心知识”,并且提供了数字概念可学习性的存在证明。
作者简介
王至宏,华东师范大学计算机学院在读博士,本硕基础数学专业。本科获全国大学生数学竞赛决赛一等奖,全国高校数学密码挑战赛中南赛区二等奖等竞赛奖项,硕士自学GAP,SageMath等代数编程语言,探索ProgrammingForMath,当前方向为大语言模型与基础数学的融合研究。
人工智能与数学读书会
数十年来,人工智能的理论发展和技术实践一直与科学探索相伴而生,尤其在以大模型为代表的人工智能技术应用集中爆发的当下,人工智能正在加速物理、化学、生物等基础科学的革新,而这些学科也在反过来启发人工智能技术创新。在此过程中,数学作为兼具理论属性与工具属性的重要基础学科,与人工智能关系甚密,相辅相成。一方面,人工智能在解决数学领域的诸多工程问题、理论问题乃至圣杯难题上屡创记录。另一方面,数学持续为人工智能构筑理论基石并拓展其未来空间。这两个关键领域的交叉融合,正在揭开下个时代的科学之幕。
为了探索数学与人工智能深度融合的可能性,集智俱乐部联合同济大学特聘研究员陈小杨、清华大学交叉信息学院助理教授袁洋、南洋理工大学副教授夏克林三位老师,共同发起“人工智能与数学”读书会,希望从AIforMath,MathforAI两个方面深入探讨人工智能与数学的密切联系。