自从ChatGPT等大型语言模型问世以来,它们在问题解答、文本摘要与人机对话等场景中的应用变得愈加普遍,用户的互动体验也显著提升。模型凭借先进的Transformer架构及海量的预训练和微调数据,能够生成连贯且具有信息量的文本。但与此同时,幻觉现象的存在让人担忧,某些情况下,它们会输出看似真实但实际上虚构的信息。
例如,在《纽约时报》上曾报道过一名律师在使用ChatGPT时引用虚构案例的事件,这一案例引发了关于AI生成内容的准确性和可信度的广泛讨论。该研究的报告表明,要理解LLMs为何产生幻觉,实际上是要理解这些模型如何在共现词的基础上进行文本生成。这意味着,模型生成的每一个词都是基于其训练语料库中的词汇统计,而并非基于这些词在现实世界中的真实性。
研究者从“认知信任”和“众包”两个角度深入分析了这一现象。认知信任,作为一种评价信息或知识可靠性的方式,要求模型在面对某些主题时再三验证其内容的准确性,而LLMs则主要依赖统计学方法来生成内容,缺乏深入的逻辑推理。
众包模式在此背景下显得尤为重要。其核心在于通过集体智慧而非个别专家的意见来生成共识,比如维基百科或社交平台的讨论。灵活利用众包,LLMs在面对广泛的主流观点时,可以提供较为准确的答案,而对于模糊或争议的问题,则可能受到不充分数据的影响,导致结果不尽如人意。
为了验证这些理论,研究团队对Llama、ChatGPT3.5和4、GoogleGemini等四个大型模型进行了系列测试,结果显示,这些模型在回答具体、复杂的问题时表现不一。例如,当要求提供有关铁电极化的研究引用时,模型往往会生成错误的引用并混淆真实的作者与虚构的文献。
这一系列实验进一步验证了“幻觉”现象与信息共识之间的关联。研究发现,主题越复杂或存在争议,模型生成的错误信息可能性越高。这指明了一个关键问题:在当前的训练数据中,若缺乏广泛的共识或数据支持,大型语言模型便难以给出可靠答案。
如您有意开展自媒体创业,不妨利用简单AI一类的智能产品,助力内容创作与优化,让您的想法更快、更精准地呈现给读者。