ChatGPT在临床试验中的应用探索康德弘翼WuXiClinical

随着OpenAI推出的人工智能系统ChatGPT的持续火爆,各行各业的人们都在讨论ChatGPT。作为ChatGPT早期使用者之一,我们将结合临床试验中的工作场景,从以下三个方面了解ChatGPT的潜力和能力边界。

一、ChatGPT是什么?

二、ChatGPT在临床试验中的应用案例。

三、ChatGPT的局限性。

一、ChatGPT是什么

ChatGPT由Chat+GPT组成,Chat指会话,GPT是“GenerativePre-trainedTransformer”的首字母,译为“生成式预训练模型”。它是一种基于深度学习的自然语言处理模型。我们可以将ChatGPT想象成一个会说话的图书馆,里面存储了海量的知识。当我们用人类的自然语言向它提问时,它能够“理解”我们的问题,迅速从这些知识中找到合适的答案,并生成连贯的语言回复我们。

在我们使用ChatGPT之前,它已经通过大规模无标签数据进行了预训练,掌握了丰富的知识。这也是它为什么能快速响应我们的提问的原因。

二、ChatGPT在临床试验中的应用案例

在正式开始案例之前,需要先简单了解一下打开ChatGPT大门的金钥匙——提示词(Prompt)。

提示词(Prompt)指在自然语言生成任务中,提供给模型的一个短语或语句。它的作用是给模型提供背景信息,引导和指示模型生成符合我们预期的回复。

提示词的好坏,直接关系到回复结果的质量。很多时候,我们发现模型的回复总是泛泛而谈,都是因为提问没有提供必要的背景信息,任务描述不够明确具体造成的。

接下来我们举两个临床试验中使用ChatGPT的例子。

案例一:数据一致性核查

在这个例子中,我们让ChatGPT用Python代码实现两个文件的一致性核查,我们向ChatGPT提出下面的问题:

最终ChatGPT给出了如下代码和注释,代码生成是ChatGPT的强项,我们只需要稍加修改就可以使用了。

案例二:CDASH变量标准化

第二个案例要复杂一些,我们将探索ChatGPT对不同数据格式上下文的理解能力,以及通过举例推理的能力,也就是少样本提示(FewShotPrompting)。

在建立eCRF时,我们通常要按照CDASH标准命名字段变量,但在实际工作中,由于对数据标准的理解、个人经验、不同治疗领域等原因,字段变量的命名常常会出现不符合CDASH标准的情况。

我们是否可以借助ChatGPT来实现变量命名的自动化审核呢?让我们做个实验。

实验的思路是:将CDASHModel中的观察类输入到ChatGPT中,然后给出CDASHIG中某个Domain的CRF中的问题,让ChatGPT根据CDASHModel给出这些问题的变量名。

具体步骤是,第一步,选取CDASHModel的发现类(FindingsClass),将发现类的CDASHIGVariable,DRAFTCDASHIGDefinition和QuestionText输入给ChatGPT(见下图),由于ChatGPT无法输入表格,所以这三列数据我以“|”做了分隔。

第二步,将CDSASHIG中的DA域的QuestionText输入给ChatGPT,让它给出每一个QuestionText对应的符合CDASH标准的变量名,为了让ChatGPT理解我们的任务要求,在这一步我们给ChatGPT举了一个任务的例子。

这些变量名在CDASHIG中已经给出,我们的目的是检验ChatGPT能否理解我们给出的CDASHModel,并正确推理出不同问题的变量名。

下图是ChatGPT给出的结果:

从实验结果来看,DATEST、DADTC、DALBLID都是错误的,RES和ORRES也没有区分开,实验结果并不理想。

那么,是不是意味着ChatGPT在专业邻域没有用武之地呢?

答案是否定的。之所以实验结果不理想,原因有以下几个方面?

2.通过ChatGPT官网的对话界面输入的CDASHModel数据量有限,导致模型不足以推理出正确的结果;

3.作为通用模型,ChatGPT在垂直领域没有经过微调,准确度较低;

了解了原因后,我们就可以“对症下药”,在垂直领域,我们可以借助OpenAI的API将垂直领域的知识“外挂”到大语言模型中,这样一来,可以补充大模型中缺少的数据,二来,通过API微调,可以生成更适合于专业领域的模型,从而提高准确率。

三、ChatGPT的局限性

尽管ChatGPT模型在知识的广度和深度方面已经远超人类,并具有较强的推理能力,但它仍然存在以下三个局限性:

第一,可靠性。由于ChatGP基于概率推算生成内容,无法保证回复内容的准确可靠。其回复可能包含未经验证的信息、误导性陈述以及逻辑错误,因此用户需要对其回复进行判断和验证。

第三,合规性。默认情况下,在ChatGPT官网输入的内容(非API),OpenAI可以用来训练ChatGPT,对于隐私数据和保密性有要求的内容存在数据泄露的风险。

作为通用大语言模型的ChatGPT,在其推出的短短数月内,便在广泛的应用场景中展现出了强大的潜力。相信在未来,随着研究的不断深入,以ChatGPT为代表的人工智能技术在临床试验领域会有更出色的表现。

作者简介

白欣刚

现就职于药明康德全资子公司康德弘翼。在计算机和生命科学领域有十几年的跨领域工作经验。在临床试验数字化系统解决方案上有深入的研究和实践经验。长期在行业内媒体普及电子数据采集系统和各种临床试验数字化系统。

THE END
1.ChatGPT行业报告:算力.pptx演讲人:日期:ChatGPT行业报告:算力目录引言ChatGPT行业概述算力技术发展算力在ChatGPT中应用算力市场需求与供给算力基础设施建设与运维算力成本效益及投资回报结论与展望01引言本报告旨在深入探讨ChatGPT行业中的算力问题,https://www.renrendoc.com/paper/362740549.html
2.如何利用CHATGPT分析数据快熟生成文案:无论是小红书、微博还是公众号, Chat GPT都能帮你快熟生成吸引眼球的文案,让你的创作更具有吸引力。自动撰写报告:无论是工作汇报还是项目 只需输入相关指令, Chat GPT就能为你生成结构清晰、内容肺腑的报告。Chat GPT使用技巧 1、准确提问 Chat GPT功能虽然非常强大, 但由于目前Chat GPT数据库http://www.hlwwhy.com/ask/6705610.html
3.ChatGPT原理和用法GPT3.5和GPT4的区别,一次给你讲明白1.语义理解限制:尽管ChatGPT能够理解上下文,但在某些情况下仍然存在理解限制,特别是当问题含糊不清或需要深入推理时。 2.偏差和错误:由于ChatGPT是通过大规模训练数据学习而来,它可能会反映出数据中的偏差和错误。这可能导致模型生成不准确或有偏的回答。 https://blog.csdn.net/2301_79635820/article/details/132855837
4.国产版ChatGPT大盘点:百度京东阿里腾讯那在类ChatGPT赛道上,哪些中国版的ChatGPT能快速顶上?都各有哪些困境需要突破呢?本文给诸位带来各个玩家的最新进展。 1、百度:文心一言 3月16日,百度正式推出国内首款生成式AI产品“文心一言”,可支持文学创作、文案创作、数理推算、多模态生成等功能。 https://www.shangyexinzhi.com/article/7656581.html
5.十分钟理解ChatGPT的技术逻辑及演进(前世今生)如果说 可以并行、速度更快都是技术特征,让行外人士、普罗大众还不够直观,那么从 当前ChatGPT的震憾效果就可以窥知一二。 **Transformer从根本上解决了两个关键障碍,其推出是变革性的、革命性的**。 3.5.1、摆脱了人工标注数据集(大幅降低人工数量 ) https://www.51cto.com/article/743197.html
6.五分钟带你了解ChatGPT的基本原理五分钟带你了解ChatGPT的基本原理 简介: What is LLM? LLM是大型语言模型Large Language Model的缩写,跟LLM相关的另外一个概念是NLP(Natural Language Processing自然语言处理技术的一种 )。 Nautual Language: 指的是自然形成的语言,诸如Chinese, English, etchttps://developer.aliyun.com/article/1191601
7.一天现六个国产ChatGPT大模型,“百模大战”全面开打钛媒体焦点钉钉宣布正式接入阿里巴巴“通义千问”大模型;字节跳动旗下火山引擎发布自研DPU(数据处理单元)芯片,以及发布大模型训练云平台等;金山办公宣布将推出 WPS AI,类似于基于ChatGPT技术的微软Copilot产品,金山办公CEO章庆元透露这一技术由国内企业MiniMax提供;APUS在北京推出1000亿个参数、自研多模态的天燕大模型AiLMe,以及基https://static.nfapp.southcn.com/content/202304/20/c7589252.html
8.ChatGPT介绍及国内人工智能产品介绍PPT.pptx发展历程-ChatGPT介绍ChatGPT是美国人工智能研究实验室OpenAI新推出的一种人工智能技术驱动的自然语言处理工具,使用了Transformer神经网络架构,也是GPT-3.5架构,这是一种用于处理序列数据的模型,拥有语言理解和文本生成能力,尤其是它会通过连接大量的语料库来训练模型,这些语料库包含了真实世界中的对话,使得ChatGPT具备上知https://max.book118.com/html/2024/0509/8056100031006066.shtm
9.我们向百度文心一言和ChatGPT问了几个同样的问题,结果很意外ChatGPT: 作为人工智能模型,ChatGPT 和百度的文心一言都使用了深度学习算法和自然语言处理技术,可以进行自然语言的理解、生成和对话交互。它们都可以处理大量的信息和语言数据,并具备一定的智能和灵活性。然而,它们的算法和训练数据不同,所以可能有所不同。 https://www.saikr.com/a/507317
10.ChatGPT访问量下降?真相可能是它据SimilarWeb数据显示,前期ChatGPT的访问量增长率惊人,1月份的环比增长率为131.6%,2月份为62.5%,3月份为55.8%,而从4月份开始明显放缓,环比增长率为12.6%,到了5月,这个数字已经变为了2.8%。 截至6月20日,访问量比5月少了38%左右,粗略推算,到6月30日如果没有特别新的刺激,6月的环比或将下降。 https://wallstreetcn.com/articles/3691940
11.ChatGPT的背后:人工智能领域那些巧妙的算法逻辑和数学–数治网ChatGPT是最近的大热门,很多人会很好奇这背后的技术。这个领域的东西,随便聊聊都会涉及普通人比较难理解的数学、算法和逻辑,所以很多科普内容门槛太高了。 但是,也有写得特别好的。之前看过一本书叫做《你一定爱读的人工智能简史》,是由日本的人工智能先驱者,将棋AI“PONANZA”的开发者之一山本一成创作的,他以非常https://dtzed.com/?p=4226
12.通过ChatGPT实现数据整理与分析推荐使用国际直连GPT,立即访问:www.chatgp1.com 通过ChatGPT实现数据整理与分析,可以充分利用其强大的自然语言处理能力和数据生成能力,辅助用户进行数据处理和洞察提取。以下是通过ChatGPT实现数据整理与分析的步骤和方法: 一、数据收集与预处理 数据收集: https://www.729.cn/news/706.html
13.基于ChatGPT的数据权益保护问题研究科技与法OpenAI在公司官网对ChatGPT产生方法进行介绍时说,该模型是使用人类反馈强化学习训练而来,方法与InstructGPT(OpenAI开发的一种“指令生成预训练”语言模型)一致,但在数据收集设置上略有不同。我们通过监督微调的方法训练出一个初始模型:人类人工智能训练师分别扮演用户与AI助手的角色。我们允许AI训练师为模型编写建议,帮助http://www.mzyfz.com/html/1022/2023-07-06/content-1596601.html