「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述科学论文引文

【新智元导读】Ai2和华盛顿大学联合Meta、CMU、斯坦福等机构发布了最新的OpenScholar系统,使用检索增强的方法帮助科学家进行文献搜索和文献综述工作,而且做到了数据、代码、模型权重的全方位开源。

前有Perplexity横空出世,后有谷歌Gemini和OpenAI的SearchGPT纷纷加入。

就在11月23日,有人发现搜索引擎大佬DarinFisher正式加入OpenAI,这让人更加确信:SearchGPT只是一个开始,OpenAI也许会正式打造以LLM为基础的搜索引擎和浏览器,和谷歌展开一场正面battle。

虽然当下的LLM可以应付大多数场景下的常识问答,但在学术打工人眼中,用AI进行文献搜索依旧缺陷重重,还是传统的谷歌搜索和谷歌学术更好用。

为了填补这方面的空白,华盛顿大学NLP实验室和Ai2、Meta等机构合作,开发了专门服务科研人的学术搜索工具OpenScholar。

本质上,OpenScholar是一个进行过检索增强的语言模型,外接一个包含4500万篇论文的数据库,性能可以优于专有系统,甚至媲美人类专家。

为了方便自动化评估,团队还一道推出了全新的大规模基准ScholarQABench,覆盖了CS、生物、物理等多个学科,用于评价模型在引用准确性、涵盖度和质量的等方面的表现。

由UWNLP和Ai2两大顶流机构联手,OpenScholar在开源方面几乎做到了无懈可击。不仅放出了训练数据、代码和模型检查点,还有ScholarQABench的全部数据,以及用于专家评估的自动化脚本。

论文开头就给出了全部网址,此外团队还构建了一个公开可用的搜索demo,基于一个参数量为8B的语言模型,综合了超过100万篇CS领域的专业文献。

OpenScholar介绍

虽然LLM在成为科研助手方面非常有前景,但也面临着重大挑战,包括幻觉、过于依赖过时的预训练数据,并且缺乏透明的信息出处,条条对科研领域都是重大弊病。

就拿幻觉来说,实验中让GPT-4引用最新文献时,它在CS、生物医学等领域伪造引用的情况达到了78%~90%。

检索增强(retrieval-augmented)的语言模型可以在推理时检索并集成外部知识源,从而缓解上述问题。然而,许多此类系统依赖于黑盒API或通用的LLM,既没有针对文献综合的任务进行优化,也没有搭配适合科研的开放式、领域特定的检索数据库。

此外,LLM在科研文献综合任务上的评估也存在限制,现有的基准大多规模较小或只针对单个学科,或者使用了过于简化的任务(如选择题问答)。

OpenScholar概述、ScholarQABench概述和自动化&人类专家评估结果

模型概述

对于OpenScholar而言,问题定义如下:

然后,负责生成的语言模型根据段落和输入查询x产生输出y以及相应的引文,这个过程可以形式化表示为:

其中,中但每个ci对应检索到的特定段落,负责生成的LM可以被灵活替换为各种县城的模型,比如GPT-4o。

看起来,OpenScholar的检索和推理流程基本复刻了经典RAG的流水线,但团队做出了以下两方面的贡献:

-新训练出了小而高效的生成模型OpenScholar-LM

-开发了自反馈检索增强推理(elf-feedbackretrieval-augmentedinference),以提高可靠性和引用准确性

检索与推理

为了应对这些挑战,OpenScholar引入了一种带有自我反馈的迭代生成方法,包括三个步骤:(1)初始响应和反馈生成以输出初始草稿y0以及一组反馈;(2)使用额外的搜索,根据上一步的反馈迭代改进y0,以及(3)引文验证。

模型训练

由于缺乏针对该问题的训练数据,构建能够有效综合科学文献的强大LM非常具有挑战性,之前的大多数工作并没有设置开放式检索,而且是单论文任务,而且依赖于没有开源的专有模型,这对复现性和推理成本提出了挑战。

研究团队想到了采用上述的推理pipeline,通过自反馈合成高质量的训练数据,训练出「小而美」的OpenScholarLM模型,具体训练流程如下图所示。

训练数据的生成主要包括三个步骤:

-从数据库中筛选出最高引用量的论文

-使用OpenScholar推理pipeline生成高质量响应

尽管合成数据是有效且可扩展的,但也可能包含幻觉、语句重复、指令遵循有限等问题,因此在上述步骤之后,团队还引入数据过滤步骤,包括「成对过滤」(pairwise-filtering)和标题过滤。判断并筛选出较高质量的输出。

从上述的合成管道中,可以得到三种类型的训练数据:答案生成(x→y),反馈生成(y0→),以及反馈合并(yt1,ft→yt)。论文指出,在训练期间结合中间结果和最终输出有助于较小的语言模型学习生成更有效的反馈。

最后,研究人员将上述的合成数据与现有的通用领域+科学领域的指令调优数据混合,并确保50%的训练数据来自科学领域。在这些数据上,团队将Llama3.18BInstruct训练成了OpenScholarLM。

全新基准ScholarQABench

为了应对这些挑战,研究人员整理了一个包含2967个文献综合问题的数据集,以及由专家撰写的208个长篇回答,涵盖计算机科学、物理、生物医学和神经科学等4个学科。

此外,基准中引入了多方面的评估方案,结合了自动指标和人工评估,以衡量引文准确性、事实正确性、内容覆盖率、连贯性和整体质量,确保评估的稳健和可重复性。

SchlarQA-CS的数据样例和评估概述

评估结果

评估中使用了开放权重模型Llama3.1(8B、70B)以及专有模型GPT-4o(gpt-4o-2024-05-13)。

首先,在单论文任务中,每个LM在不连接外部检索的情况下独立生成答案,并提供所有参考论文的标题。如果参考论文确实存在,则检索相应摘要以用作引文。

对于多论文任务,团队还进一步评估其他专有系统,包括PerplexityPro和PaperQA2,后者是一个并发文献综述智能体系统,使用GPT-4o进行重排、总结和答案生成。

具体的评估结果如下表所示,其中+OSDS表示外接了数据库OpenScholar-DataStore并检索到topN段落拼接到原始输入中;OS-8B模型经过重新训练,OS-70B和OS-GPT-4o仅仅使用了团队自定义的推理pipeline。

总体而言,OpenScholar实现了SOTA性能,大大优于GPT-4o和相应的标准RAG版本,以及PaperQA2等专用的文献综述系统。

在单篇论文任务中,OpenScholar始终优于其他模型。无论是否有检索增强,OS-8B和OS-70B均优于原来的Llama3.1模型,OS-70B在PubMedQA和QASA上甚至可以对打GPT-4o。

此外,OS-8B、OS-70B和OS-GPT4o在多论文任务中也表现出强大的性能,OS-GPT4o在Scholar-CS中比单独的GPT-4o提高12.7%,比标准RAG版本提高了5.3%。结合了重新训练过的OS-8B,OpenScholar的性能显著优于使用现成的Llama3.18B,说明了特定领域训练的优势。

甚至,在多论文任务的很多指标上,OpenScholar-8B的性能远远优于GPT-4o、PerplexityPro和PaperQA2。值得注意的是,通过利用轻量的bi-encodeer、cross-encoder构建高效的检索pipeline,OpenScholar-8B和OpenScholar-GPT4o显著降低了成本,在保持高性能的同时比PaperQA2便宜了几个数量级。

无论是单论文还是多论文任务,没有检索增强的模型几乎都表现的相当糟糕,难以生成正确的引用,甚至会产生严重的幻觉,而增加了检索之后都能大幅提升性能。

如表3所示,在没有检索增强的情况下,虽然GPT-4o和Llama等模型可以生成看起来靠谱的参考文献列表,但其中78-98%的引文都是捏造的,而且这个问题在生物医学领域更加严重。即使指向了真实论文,大多也没有相应摘要的证实,导致引文准确性接近于零。

除了在ScholarQABench上进行自动评估外,团队还与来自计算机科学、物理学和生物医学等领域的16名科学家合作,进行了详细的专家评估。

他们根据ScholarQABench中专家编写108个对文献综述问题的答案,对OpenScholar的输出进行了成对和细粒度的评估。结果发现,无论是使用GPT-4o还是经过训练的8B模型,OpenScholar的表现始终优于专家编写的答案,胜率分别为70%和51%。

相比之下,没有检索的单独GPT-4o模型被认为不如人类专家有帮助,胜率仅为31%。这表明OpenScholar生成的输出更加全面、有条理,并且对于文献综述非常有用,不仅可以与专家撰写的答案相媲美,而且在某些情况下甚至超过了专家。

消融实验

为了研究OpenScholar各个组件的有效性,作者进行了详细的消融实验,涉及推理期的重排、反馈、查找文献出处等步骤,并尝试不进行任何训练,直接使用原始的Llama3-8B模型。

如下图所示,删除这些组件会显著影响模型输出的整体正确性和引用准确性。值得注意的是,删除重排会导致模型性能大幅下降;相比8B模型,GPT-4o对删除反馈循环更加敏感,这表明更强大的模型可以从自反馈循环中受益更多。

此外,取消论文出处的查找(attribution)会对引文准确性和最终输出正确性产生负面影响;经过训练的OS-8B与原始模型之间也存在显著性能差距,这表明,对高质量、特定领域数据的进一步训练是构建高效的、针对专门任务的语言模型的关键。

结论与局限性

尽管OpenScholar在ScholarQABench在评估中表现出了强大的性能,能够成为支持科研人的效率工具,但负责标注和评估的专家依旧发现了一些局限性。

未来的工作可以进一步探索如何改进OpenScholar-8B的训练。尽管OpenScholar-GPT4o具有竞争力,但依赖于OpenAI的专有黑盒API,无法保证之后仍能精确复现当下的结果。

此外,数据方面也存在诸多繁琐且棘手的问题。

这种数据集由于规模较小,更容易被注释者的专业知识所影响,从而引入统计方差和潜在偏差。未来的研究需要探索,如何扩大ScholarQABench的规模和范围,实现更加自动化的数据收集和标注pipeline。

THE END
1.快讯信用卡逾期了无力偿还怎么办本指南旨在为您揭示一系列免费外国文章下载网站的使用技巧,助力您轻松掌握海量学术资料的获取之道,这些平台覆盖众多学科领域,让您无需额外费用,即可快速、便捷地获取所需文献,随时随地满足您的学术需求。在信息时代的浪潮中,高效获取高质量的外国学术文章资源对学者、http://www.xinyongkayuqi.com/post/64700.html
2.香港特区法律文献资源的检索与利用香港法律的渊源直接影响香港法律文献体系的结构和内容。根据法学文献的效力,香港法律文献可分为两类:一是具有法律效力的原始文献资源,包括《香港特区基本法》及人大有关香港特区的规范性文件、《香港政府宪报》、1901年以来历次修订的香港法律、判例、判例摘要、索引以及未经登载的高等法院裁决等内容;二是对法律的解释、http://iolaw.cssn.cn/gyyd/200809/t20080929_4601418.shtml
3.图书馆2024年“学术论文写作”系列培训计划2、法律人高效法律检索方法 3、用高级检索筛选复杂案例 4、权威观点的查找方法 5、法宝AI检索探索与实践 培训时间:11月 16.培训主题:维普期刊&考试平台 培训内容: 维普经纶知识服务平台是以“数据智能的资源服务”为基础,整合全球中外学术文献的综合型新一代知识资源服务平台。维普考试服务平台是集各项职业资格与高校https://lib.jisu.edu.cn/content/12638.cshtml
4.中外法律文献查找下载常用数据库大盘点法律外文文献数据库中外法律文献查找下载常用数据库有: 一、Westlaw(法律全文数据库) 是法律出版集团Thomson Legal and Regulator’s于1975年开发的,为国际法律专业人员提供的互联网的搜索工具。 Westlaw International其丰富的资源来自法律、法规、税务和会计信息出版商。可以通过Westlaw International迅速地存取案例、法令法规、表格、条约、https://blog.csdn.net/yunhk/article/details/128393626
5.何海波《法学论文写作》十五个问题,54条笔记(法学论文写作)书评直到今天,法律解释仍然是法学研究的一个基本主题,援引法条、案例和学说进行法律论证仍然是主流的研究方法。9. 在传统的政治哲学和法律教条之外,社会学、经济学、政治学甚至法律与文学研究方法的引入,在很大程度上改变了法学研究的面貌。10. 法律社会学:它把法律看成一种社会事实(而不仅仅是规范),致力于观察和描述https://book.douban.com/review/9830267/
6.通过“万方数据资源系统”可以查找法律法规文献的全文。()刷刷题APP(shuashuati.com)是专业的大学生刷题搜题拍题答疑工具,刷刷题提供通过“万方数据资源系统”可以查找法律法规文献的全文。( )A.正确B.错误的答案解析,刷刷题为用户提供专业的考试题库练习。一分钟将考试题Word文档/Excel文档/PDF文档转化为在线题库,制作自己的电https://www.shuashuati.com/ti/0103cfe855b9417a8f282cf6f926cc70.html?fm=bd9aedf7c286da5dda8f4aa0077bd2671f
7.论文期刊的issue答:你是说怎么看英文文献是第几期怎么看期号是么,方法如下: 一般英文文献的卷号期号标注中,中间会有个括号,括号前面是卷,括号里是期,括号后面缀的是页码。 issue是期(定期发行的刊物,按月或者年)。 issue前面一般是volume,合起来就是第几卷第几期的意思,这个issue有时候也叫做number,引用管理软件jabref就是写https://www.igaichong.com/article/fffb11d5830bd5d770de7837.html
8.大学生文献检索6篇(全文)高校大学生在网络文献检索时,主要依靠自己的力量,遇到问题后,增换检索词的最多,占44.2%,其次才选择换搜索引擎(26.7%),甚至宁愿埋头苦找(22.2%),在网上一页一页的翻下去,寻找检索内容,只有6.9%的大学生会寻求他人的帮助。据此可以看出,90后大学生的性格比较独立,他们更愿意独自完成检索目的和检索任务,协作能力也https://www.99xueshu.com/w/filevebgz4lk.html
9.谈法律文献汉译英的理解与表达问题翻译技巧一个法律词在不同的场合,译成英文有不同的含义,要正确理解法律原文的词义,必须注意词义在上下文中的一致,切不能拘泥于字面上的一致,如果保持字面上的一致,译文往往不能准确达意。请看下面句子,“如在解释上遇有分歧,应以英文本为准”。“解释”,在汉英词典上可译成:“construe”、“explanation”、“expositionhttp://www.lawyertranslation.com/legaltranslation/149.html
10.法律文献英文怎么写法律文献英语怎么说沪江词库精选法律文献英文怎么写、英语单词怎么写、例句等信息 juristic writting 相似短语 juristic person 法人 juristic writting 法律文献 civil juristic act 民事法律行为 supervision over juristic person 【法】 法人的监督 dissolution of juristic person 【法】 法人的解散 registration of juristic https://www.hujiang.com/ciku/39387_1032672786/
11.科技查新规范1.6.19 刑事责任 是指违法,造成严重后果,已触犯国家刑事法律,由国家审判机关依法给予行为人以相应的刑事制裁。 1.7 其他 1.7.1 信息 中国国家标准《情报与文献工作词汇基本术语》(GB/T4894-1985)中定义:信息是物质存在的一种方式、形态或运动状态,也是事物的一种普遍属性,一般指数据、消息中所包含的意义,可以使消https://www.nanchong.gov.cn/kjj/ztzl/bszn/kjcxzn/202009/t20200919_1684281.html
12.法律文献翻译的英文法律文献翻译翻译法律文献翻译英语怎么说海词词典,最权威的学习词典,专业出版法律文献翻译的英文,法律文献翻译翻译,法律文献翻译英语怎么说等详细讲解。海词词典:学习变容易,记忆很深刻。http://dict.cn/%E6%B3%95%E5%BE%8B%E6%96%87%E7%8C%AE%E7%BF%BB%E8%AF%91
13.法律文献引证注释规范(收藏版)为了方便使用者,在第二到第五章中的各种文献的引注规则用黑体字表示,并在规则后加上引注例子。在第二部分的附录里,列有《法律缩略词对照表》、美国法律引注常用的《蓝皮书》中有关中国司法、政府机关、公报等常用的法律名词的英文缩略词语对照表,以便读者运用法律缩略词。https://www.ilawpress.com/share/material?id=427265326586003968