ChatGPT在临床试验中的应用探索康德弘翼WuXiClinical

2023-05-18 03:58:53

574 797

随着OpenAI推出的人工智能系统ChatGPT的持续火爆，各行各业的人们都在讨论ChatGPT。作为ChatGPT早期使用者之一，我们将结合临床试验中的工作场景，从以下三个方面了解ChatGPT的潜力和能力边界。

一、ChatGPT是什么？

二、ChatGPT在临床试验中的应用案例。

三、ChatGPT的局限性。

一、ChatGPT是什么

ChatGPT由Chat+GPT组成，Chat指会话，GPT是“GenerativePre-trainedTransformer”的首字母,译为“生成式预训练模型”。它是一种基于深度学习的自然语言处理模型。我们可以将ChatGPT想象成一个会说话的图书馆,里面存储了海量的知识。当我们用人类的自然语言向它提问时,它能够“理解”我们的问题，迅速从这些知识中找到合适的答案,并生成连贯的语言回复我们。

在我们使用ChatGPT之前,它已经通过大规模无标签数据进行了预训练,掌握了丰富的知识。这也是它为什么能快速响应我们的提问的原因。

二、ChatGPT在临床试验中的应用案例

在正式开始案例之前，需要先简单了解一下打开ChatGPT大门的金钥匙——提示词（Prompt）。

提示词(Prompt)指在自然语言生成任务中，提供给模型的一个短语或语句。它的作用是给模型提供背景信息，引导和指示模型生成符合我们预期的回复。

提示词的好坏，直接关系到回复结果的质量。很多时候，我们发现模型的回复总是泛泛而谈，都是因为提问没有提供必要的背景信息，任务描述不够明确具体造成的。

接下来我们举两个临床试验中使用ChatGPT的例子。

案例一：数据一致性核查

在这个例子中，我们让ChatGPT用Python代码实现两个文件的一致性核查，我们向ChatGPT提出下面的问题：

最终ChatGPT给出了如下代码和注释，代码生成是ChatGPT的强项，我们只需要稍加修改就可以使用了。

案例二：CDASH变量标准化

第二个案例要复杂一些，我们将探索ChatGPT对不同数据格式上下文的理解能力，以及通过举例推理的能力，也就是少样本提示（FewShotPrompting）。

在建立eCRF时，我们通常要按照CDASH标准命名字段变量，但在实际工作中，由于对数据标准的理解、个人经验、不同治疗领域等原因，字段变量的命名常常会出现不符合CDASH标准的情况。

我们是否可以借助ChatGPT来实现变量命名的自动化审核呢？让我们做个实验。

实验的思路是：将CDASHModel中的观察类输入到ChatGPT中，然后给出CDASHIG中某个Domain的CRF中的问题，让ChatGPT根据CDASHModel给出这些问题的变量名。

具体步骤是，第一步，选取CDASHModel的发现类（FindingsClass）,将发现类的CDASHIGVariable，DRAFTCDASHIGDefinition和QuestionText输入给ChatGPT（见下图），由于ChatGPT无法输入表格，所以这三列数据我以“|”做了分隔。

第二步，将CDSASHIG中的DA域的QuestionText输入给ChatGPT，让它给出每一个QuestionText对应的符合CDASH标准的变量名，为了让ChatGPT理解我们的任务要求，在这一步我们给ChatGPT举了一个任务的例子。

这些变量名在CDASHIG中已经给出，我们的目的是检验ChatGPT能否理解我们给出的CDASHModel，并正确推理出不同问题的变量名。

下图是ChatGPT给出的结果：

从实验结果来看，DATEST、DADTC、DALBLID都是错误的，RES和ORRES也没有区分开，实验结果并不理想。

那么，是不是意味着ChatGPT在专业邻域没有用武之地呢？

答案是否定的。之所以实验结果不理想，原因有以下几个方面？

2.通过ChatGPT官网的对话界面输入的CDASHModel数据量有限，导致模型不足以推理出正确的结果；

3.作为通用模型，ChatGPT在垂直领域没有经过微调，准确度较低；

了解了原因后，我们就可以“对症下药”，在垂直领域，我们可以借助OpenAI的API将垂直领域的知识“外挂”到大语言模型中，这样一来，可以补充大模型中缺少的数据，二来，通过API微调，可以生成更适合于专业领域的模型，从而提高准确率。

三、ChatGPT的局限性

尽管ChatGPT模型在知识的广度和深度方面已经远超人类，并具有较强的推理能力，但它仍然存在以下三个局限性：

第一，可靠性。由于ChatGP基于概率推算生成内容，无法保证回复内容的准确可靠。其回复可能包含未经验证的信息、误导性陈述以及逻辑错误，因此用户需要对其回复进行判断和验证。

第三，合规性。默认情况下，在ChatGPT官网输入的内容（非API），OpenAI可以用来训练ChatGPT，对于隐私数据和保密性有要求的内容存在数据泄露的风险。

作为通用大语言模型的ChatGPT，在其推出的短短数月内，便在广泛的应用场景中展现出了强大的潜力。相信在未来，随着研究的不断深入，以ChatGPT为代表的人工智能技术在临床试验领域会有更出色的表现。

作者简介

白欣刚

现就职于药明康德全资子公司康德弘翼。在计算机和生命科学领域有十几年的跨领域工作经验。在临床试验数字化系统解决方案上有深入的研究和实践经验。长期在行业内媒体普及电子数据采集系统和各种临床试验数字化系统。

THE END