股市变换莫测,任何一点风吹草动都可能影响股票的走势,面对这种不确定性,投资者们常常感到无所适从。
于是研究者们盯上了如今大火的大模型技术,试图通过高效地处理和分析海量的股市数据,挖掘出其中的隐藏规律和趋势,快速捕捉到新信息对市场的即时影响,预测未来股价的走势,为投资者提供决策支持。
论文标题:LearningtoGenerateExplainableStockPredictionsusingSelf-ReflectiveLargeLanguageModels
这篇论文提出了一个“总结-解释-预测”Summarize-Explain-Predict(SEP)的框架,该框架利用了一种模型自反思思想和近端策略优化(PPO),使LLM能够自主学习如何生成可解释的股票预测。
通过自反思过程,模型学习如何解释过去的股票波动。PPO训练过程中的训练样本来自反思过程中生成的响应,无需人工标注,极大得节省了人力,增大了生成的解释质量,并进一步提高股票预测的正确性。
01任务定义:可解释的股票预测
02Summarize-Explain-Predict(SEP)框架
SEP框架包含三个主要组件,如下图所示:
鉴于天的原始文本中的信息会超过字符限制,自我总结模块利用LLMs强大的摘要能力,将大量文本输入数据转换为事实信息的要点摘要。提示包过两个可变输入:指定的股票,和每天的非结构化文本输入。然后LLM生成影响股票的新闻摘要,例如“包括苹果(AAPL)、谷歌、亚马逊和Facebook在内的大型科技股票超出了盈利预期”。可以表示为:
2.自我解释模块:通过自反思过程生成股价解释
自我解释模块的目标是双重的:一方面生成清晰的股票预测解释,另一方面通过迭代的自反思过程改进LLM自身的预测。
解释模块的提示包含两个变量输入:指定的股票和前一个模块生成的一系列提取信息的序列。给定这些输入,LLM生成响应,其中应包含下一交易日的价格变动和一个可读的解释。形式化为:
在此过程中,还加入了自我反思循坏迭代改进回复,如下图所示:
从生成的价格变动中,通过评估其与实际情况的一致性获得二进制反馈。对于错误的样本,引入LLM为每一次迭代生成一个口头反馈。
对于每一次迭代,每个反思代表LLM从失败中学到的教训,将其表示为一组反思,连同原始输入再次输入LLM,以生成下一次迭代的价格变动和解释。
通过这个过程,能够获得每个成功的反思所对应的正确和错误回答的一对。分别将其定义为和,用于后续模块预测股票走势。
3.自我预测模块:利用PPO训练优化预测能力
自我预测模块使用自我解释模块构建的数据样本微调LLM,以便在测试期间生成最可能的股票预测和解释。具体流程如图所示:
在推理过程中,首先使用预训练的LLM对无结构化输入文本进行总结。然后,使用训练好的策略从总结的事实生成下一天的预测。对于生成预测,使用一个最佳采样器,在生成个响应之后,使用奖励模型的分数选择最佳响应。
03实验设计
1.数据集构建
2.评估指标
04实验结果
1.预测准确性
在预测准确性方面,SEP框架经过实验验证,能够在预测准确性和MCC方面超越传统深度学习和LLM方法,如表1所示。
在使用GPT生成的解释进行微调的SEP模型中,预测准确性比最强基线(GRU+Attention)提高了2.4%。
在MCC指标上,SEP模型在所有设置下都优于所有模型,展示了模型在考虑随机猜测后理解自然语言文本对股票走势影响的真实能力。
2.解释质量的提升
除了生成更好的预测外,使用LLM而不是传统深度学习方法的一个自然优势是它们能够为预测生成解释。而SEP模型在使用自我反思数据微调后,相比一般的LLM能够更加果断地权衡新闻信息,给出质量更高的解释。
05组件效能分析:各模块对SEP框架性能的贡献
SEP有三个核心组件:总结、解释‘预测’模块。这些模块共同构成了SEP框架,它们各自的功能和对整体性能的贡献是不可或缺的。
1.总结模块
解释模块的目标是生成清晰的股票预测解释,并通过迭代的自我反思过程来提炼这些解释。
为了调整LLM以产生预测和解释,解释模块必须首先通过二进制反馈和自省尝试生成正确注释的样本。为了展示其效果,作者绘制了每次反思迭代后生成的“决定性”和“正确”预测数目的变化百分比,如下图:
可以看到随着多次自反思迭代,模型生成了越来越多的明确正确的注释样本。这凸显了解释模块在生成标注样本方面的有效性,而无需人工专家的帮助。
3.预测模块
预测模块的目标是通过使用PPO算法微调LLM,以便在测试期间生成最可能的股票预测和解释。
作者对每个变体删除了一个附加组件,即在推理中没有-shot采样[SEP(1-shot)];没有使用PPO增强学习[SEP(noPPO)];以及没有解释[SEP(binary)],即简单地将LLM调整为进行二元的上升/下降预测。
综上所述,SEP框架中的每个组件都对性能有着显著的贡献。总结模块通过提取关键信息减少了输入的噪声,解释模块通过自我反思生成了高质量的训练样本,而预测模块则通过PPO训练提高了预测的准确性。这些组件的协同工作使得SEP框架在股票预测任务中表现出色。
06跨任务泛化能力:SEP框架在投资组合构建任务中的应用
SEP框架不仅在股票预测任务中表现出色,其泛化能力也在投资组合构建任务中得到了验证。
对于投资组合任务,采用与上述相同的方法来微调LLM。输入信息是每天股票篮子的所有生成解释。对于这个实验任务,仅筛选出具有正预测的股票,以减少LLM需要评估的股票数量,并防止产生负权重。然后,提示LLM根据每个给定股票的前景生成投资组合权重,如下图所示:
在每次自我反思迭代中,向反思型LLM提供投资组合权重和对应的总体利润,引导其思考如何提高预测准确性来增加利润。基于这些反思,LLM生成新的权重。接着,将新旧权重输入PPO训练器,选择利润更高的权重作为优化方向。
结果如下表所示:
SEP模型在多个投资组合性能指标上表现出色,包括总收益、累计收益、收益的标准差和年化夏普比率。这些结果表明,SEP框架能够有效地将股票预测任务中学到的信息量化权衡,用于投资组合构建任务。
07结论
本文研究了利用自反思大型语言模型进行股市预测的可解释性任务,并提出了SEP框架。该框架结合自反思代理和近端策略优化(PPO)技术,让LLM自主学习生成可解释的股票预测。实验结果显示,SEP框架在预测准确性和生成解释的质量方面均优于传统方法和LLM。在投资组合构建任务上的测试也证明了其泛化能力。