ChatGPT是第一个真正意义的人工通用智能
看到标题,很多专家可能马上想来争辩,别急,本文我们一步步推演。
首先订正一个词:AGI,国外称ArtificialGeneralIntelligence,国内译作通用人工智能GeneralArtificialIntelligence,看似很小的一个顺序差异,实则谬以千里,大家多读英文几遍仔细体会。
生命是什么
薛定谔在1944年出版的书《WhatisLife》中阐述了他对生命的观点,生命是由负熵喂养大的,后来更正为,自由能才是生命的源泉。薛定谔眼里的生命就是一团活生生的自由能,也是普里高津世界里,不断获取自由能的开放的耗散结构。
大脑如何工作
一.贝叶斯大脑假说
大脑是一个贝叶斯推理机器。大脑不断从世界接收感官信息,并使用这些信息来更新其对世界的内部模型,并对未来事件做预测。大脑的内部模型可以被视为关于世界的先验信仰或假设,感官信息被用于更新这些信仰。
二.大脑的自由能理论
基于贝叶斯概率理论和生物物理学原理,大脑的主要目标是预测和控制外界的信息,以最大限度地降低不确定性和内部熵。大脑通过不断收集和处理外部信息来构建内部模型,以预测和控制外界。
三.大脑的信息熵
信息熵用来衡量系统不确定性或随机性,这里指大脑关于世界的内部模型的不确定性。大脑的目标是将其内部模型与感官输入之间的预测误差最小化,减少信息熵是减少预测误差的一种方法。通过减少信息熵,大脑可以对世界做出更准确的预测,这等于是使系统的自由能最小化。
ChatGPT机理
一.Embedding,形成自己的语言系统
借助Embedding,GPT将人类的语言“编码”成自己的语言,然后通过注意力Attention从中提取各种丰富的知识和结构,加权积累与关联生成自己的语言,然后“编码”回人类的语言。
本质上看,GPT其实是构建了一个高维的语言体系,可以将自然语言,程序语言,视觉听觉语言,映射(或者叫编码)到这个高维的语言空间中。高维语言空间是概率分布张成的空间。
二.Transformer,提取海量人类知识与相应的知识结构
GPT在自己构造的高维语言空间中,通过预训练,记录了人类海量的语言实例,从中提取了无数的结构与关联信息。这个高维的语言空间,加上训练提取的结构与关联信息,可以理解构成了GPT的脑。
从GPT目前的表现看,他应该也已经从这些人类语言蕴含的知识中,学习到了归纳、演绎、对比、类比等基础能力,而这些都是本质的原子思维能力,组合成为推理能力。诸如贝叶斯推理,最优输运,估计都可能已经被提取出来,成为GPT的思维结构的一部分。
三.Pre-train,海量学习最小化各领域信息熵
预训练pre-train阶段,优化目标是最小化交叉熵(crossentropy),对于GPT自回归语言模型而言,是看能否正确预测到下一个单词。这里的交叉熵就是信息熵。
人们发现,增加多任务的任务数量,增加模型大小,提供思维链提示,以及增加任务的多样性,都可以提高GPT泛化能力,包括理解能力,以及推理能力。这些措施都是丰富GPT在某一问题域的信息量,降低其信息熵,尽力让他见多识广。
上下文学习,通过提供一些例子,具象的表达任务命令。命令是一种更符合人类习惯的抽象任务描述。两者本质上是相通的,GPT从中都是学到了任务的信息熵结构。
上下文中,直接追加辅助推理的提示,例如“因此”是典型的关系模式选择健,GPT可以借助这些提示选择不同的关系模式。例如“解题思路如下”这样的提示,可以很好激发GPT推理能力,应该缘于训练语料中此类说法很多,可以很好的降低信息熵。
四.代码训练,获取长程关联与推理能力
目前研究已经证明GPT对知识有强大的记忆能力。而增强GPT推理能力的方法:a)提供提示语或提示样本b)预训练中引入代码样本。ChatGPT强大的推理能力,被认为大概率来自代码参与GPT3.5的预训练。
代码使用计算机语言,是设计完善的特殊语种,结构性强,长程关联,关系明确。可以用微语言结构的概率分布为基底,张成语言空间,程序就是该语言结构空间的点线面体。GPT可以用自己构建的高维语言空间简单方便的学习代码。
代码其实也可以看成特殊的思维链,训练可以降低信息熵,让信息更可预测。大量这种语言结构示例参与预训练的话,GPT被注入足够的信息量,形成各种复杂关联的模式,涵盖代码中的知识和知识结构。高质量的代码,可以显著的降低GPT获取的信息熵,这也是为什么GPT在代码上比自然语言更让人惊艳。
五.EmergentAbility,涌现能力,相变完成量变到质变
GPT表现,取决于任务类型。a)知识密集型任务,体现Scalinglaw,也就是学的越多,做的越好;b)推理密集型任务,体现“智慧”,学到一定程度,能力突然爆发。这个好比物理现象,虽然一直维持零度,冰却需要不断吸收热量,最终相变成了水。
信息熵的背景下同样可以出现相变现象。信息熵是衡量系统不确定性或随机性的度量,熵的相变可以被视为系统基础模式或组织的变化。复杂网络系统和量子系统中都可以观察到熵的相变。
GPT构建了海量自然语言和代码的概率分布空间,被注入足够的信息量(等于注入大量负的信息熵),形成各种复杂关联的模式,涵盖自然语言和代码中各种知识与结构。这些知识和结构,体现为概率分布的距离与关系,从而为对比、类比、归纳、演绎等推理步骤提供支撑,也就是“涌现出”这些推理能力。
大胆猜测,GPT甚至可能学习到了在空间里面的贝叶斯概率图和推理,概率分布的比较和迁移基于Wasserstein距离和最优输运OptimalTransport.(笔者在设法从用户的角度进行检验)。提供足够语料,可以降低概率空间的信息熵到一定阈值,从而对某类任务达成相变。
后ChatGPT时代
今天来自斯坦福大学的最新研究结论,“原本认为是人类独有的心智理论(TheoryofMind,ToM),已经出现在ChatGPT背后的AI模型上。”所谓心智理论,就是理解他人或自己心理状态的能力,包括同理心、情绪、意图等。这项研究发现:davinci-002版本的GPT3(ChatGPT由它优化而来),已经可以解决70%的心智理论任务,相当于7岁儿童;至于GPT3.5(davinci-003),也就是ChatGPT的同源模型,更是解决了93%的任务,心智相当于9岁儿童!
ChatGPT给GPT注入几万人工标注,有监督学习,虽然不足以修正GPT千亿参数,但是为GPT注入人类偏好,让他听的懂人话、也比较礼貌。这等同于对这个7-9岁儿童的社会教育与激发。
这一天还是到来了,ChatGPT,人类创造的第一个真正意义上的AGI,人工通用智能.后ChatGPT时代,人们应该如何学习与工作?听听ChatGPT的建议:
在ChatGPT时代,人们应该采取综合的学习方法,包括接受传统教育,并通过实际应用和独立研究来加深对知识的理解。同时,人们应该不断学习和提高自己的技能,以适应不断变化的环境和技术。此外,利用ChatGPT等人工智能技术增加学习效率和提高学习质量也是一种很好的途径。