中金另类数据策略（1）：文本数据的可能性好投汇|数据清洗的主要任务有哪些?当前有哪些主要的应用领域?_家电

2022年底以来以GPT系列为代表的大语言模型引起广泛的讨论，文本数据在量化策略中的应用也开始受到重视。但多样的NLP模型和海量的文本信息本身都给量化策略应用另类数据带来了不小难度。本篇报告主要聚焦各类文本数据和NLP模型的特点与用法，探讨如何将文本数据有效融入量化投资的分析框架。

海量的另类数据:文本信息的探索路径

综合信息增量和开发成本，我们认为探索性价比较高的另类数据有新闻文本、研究报告、定期报告等文本数据。文本数据信息含量丰富度较高、覆盖面广，NLP模型的复杂度和准确度对于量化策略效果的提升或不是唯一重点，尝试提高数据信噪比和提升数据与场景组合的丰富度，有针对性地应用NLP模型也是同样重要的探索方向。

多样的NLP模型：文本相似度、情感判别和内容生成

文本数据具有丰富的信息含量，处理文本数据的NLP模型也较为多样。我们可以将文本处理模型按特点大致分为三类:词频模型、词向量模型、预训练模型;也可以按照使用方法分为三大类:文本相似度、情感判别与内容生成;每种模型分别具有不同的优缺点和应用场景。

词频模型:应用简单原理直观，对计算资源几乎无要求，但只考虑词频信息，信息提取能力弱，适合快速简单的情感判别；词向量模型：练成本相对较低，运算效率较高，过拟合、黑箱等问题较少，但无法解决一词多义问题，适合计算文本相似度；预训练模型：功能强大，判别准确，但可能有黑箱、虚假内容生成等问题，微调时需样本自带标签，训练成本相对较高，适合高精确情感判别与内容生成。

丰富的应用模式:不仅限于情感判别

目前市面上常见的文本数据的应用方法主要以情感判断为主，但我们认为文本数据在量化领域发挥作用的场景应该更为丰富。我们在这一章展示当前我们在各类量化策略场景下应用不同文本数据的已有成功案例。

分析师研报用于判断市场主要矛盾：纳入使用分析师研报来判断主要矛盾的择时策略可以取得2010年以来共11.96的累计净值，优于通胀维度择时7.37的累计净值，显著强于经济增长、流动性维度的择时净值以及沪深300的同期表现。

基金定期报告用于大势研判和行业配置：使用基金定期报告文本预测乐观与悲观区间与市场大势较为相符。在乐观区间，展望文本词频变化率Top5行业在未来20日平均收益率、Top3行业在未来40日平均收益率表现较好，相对Wind全A指数，前者胜率89%，后者胜率78%。

风险提示

正文

另类数据:金融数据的蓝海

对于量化领域来说，现有的结构化数据在经历十几年发展后可供挖掘的信息逐渐匮乏，市场策略逐渐饱和且新策略开发速度难以跟上资金体量的增长。我们认为量化策略后续发展的重要趋势之一为量化策略对“另类数据”的挖掘和使用，如何发掘另类数据以及用合适的方法将其应用在合适的模型之中是量化策略未来发展的重要方向之一。我们发现海外已有不少大型资产管理公司积极布局另类数据在量化策略中的应用。

1、海外基金积极布局文本数据在投资中的应用

图表1：使用另类数据的时长分布

图表2：是否打算使用另类数据

图表3：基金公司应用另类数据种类

我们在《另类数据策略(3):文本信息助力主题投资》对多家海外知名对冲基金如何使用文本数据做了研究探讨。以主题投资这一话题为例，Fidelity、BlackRock、ManGroup等知名基金公司均采用了文本信息进行主题策略的构建。

图表4：Fidelity主题投资步骤

注:截止2023-08-31

图表5：BlackRock主题投资步骤

2、量化投资模式:数据x模型x场景

我们认为从数据到最终的策略应用，一个量化模型的产生大致可以分为三大要素，即数据、模型和场景，所有量化模型基本都可以被拆分为这三大板块。量化模型的种类也可以按照这三大要素的组合来划分。例如，我们可以使用数据里的新闻数据，模型里的情感打分，再落地到因子选股层面，于是我们得到了一个使用新闻数据结合BERT模型情感打分的事件驱动策略。又或者我们可以使用调研数据，结合文本相似度模型，得到一个调研因子选股策略。我们可以尝试的方向即数据种类D、模型类型M以及落地场景S之间的乘积：Strategy=D*M*S。

图表6：量化应用另类数据的丰富组合

虽然另类数据的历史源远流长，但量化策略对非结构化数据的应用历史却是刚刚启程，主要原因是在NLP等模型及高效的信息采集与传输技术出现之前，量化策略开发者们不能批量使用非结构化数据来满足量化交易策略体系化的特点。因此在2010年之前，量化策略主要使用的数据仍然是价量交易数据和上市公司披露的年报数据等，通过对此类数据的分析以及在各类模型中的应用，构造出可以形成超额收益的量化模型帮助做出交易决策。

由于价量及基本面数据的易得性，多种基于该类数据的量化策略迅速发展，模型的复杂性也随之升高，市场策略拥挤度一再上升，导致模型失效的周期也进一步缩短。一方面，近年来量化私募的快速发展导致了规模快速扩张，而单个量化策略本身的容量有限，同时很多量化策略难以随着规模的快速上升而迅速调整。另一方面，去年以来的量化基金收益率高波动和去年末的大幅回撤也使得市场出现对于量化策略高度同质性的一些质疑。

图表7：另类数据和传统数据的优势对比

从信息增量端和成本端综合来看，开发性价比较高的数据类型有:新闻文本、供应链、研究报告等。此类数据虽然需要使用一定的自然语言处理模型，但数据信息含量总体较高，且相对于港口和电商等数据类型，文本类数据覆盖面更广，如新闻文本数据涉及到上市公司基本可以覆盖全市场所有A股上市公司，而电商销售或港口交通数据则仅能分别覆盖部分消费类上市公司和交运类上市公司等。

中文文本数据处理方法

中文文本处理方法主要有以下几步:1.获取数据，2.语料预处理，3.特征工程，4.模型训练，5.模型表现评价。

图表9：NLP模型处理数据流程

获取数据

获取文本数据是NLP流程的第一步，主要途径有公开网页内容抓取，利用商用数据库和公开资源等方式。

语料预处理

在获取语料之后，为了更好地适配我们的模型并提高模型的学习效率，需要对其进行预处理。主要步骤包括语料清洗、分词、词性标注和停用词移除。

特征工程

特征工程是将预处理后的词序列转化为机器可读取的数据形式的过程。常见的文本表示方法包括整数编码、One-hot编码、词袋模型和词向量方法等。

模型训练

模型表现评价

评估模型的表现是机器学习流程中的重要一步，我们需要确保模型在未见过的数据上有良好的泛化能力。针对二分类问题，我们可以根据真实类别和预测类别，将样例分类为真正例(TruePositive,TP)、假正例(FalsePositive,FP)、真反例(TrueNegative,TN)、假反例(FalseNegative,FN)，分类结果的“混淆矩阵”(ConfusionMatrix)如下。

图表10：混淆矩阵

基于这些统计量，我们可以计算准确率和召回率:准确率(Precision,P):预测为正的样本中，实际为正的比例;召回率(Recall,R):所有真实的正样本中，被正确预测出的比例。计算公式为

此外，ROC(ReceiverOperatingCharacteristic)曲线也是一个重要的评估工具。在构建ROC曲线时，我们会调整模型的决策阈值，这个阈值是我们确定预测结果是正例还是反例的界定标准。具体操作是，将阈值从最小值(此时所有样本均预测为正例)逐步提高到最大值(此时所有样本均预测为反例)。在此过程中，我们分别计算每个阈值下的真正例率(TruePositiveRate，简称TPR)和假正例率(FalsePositiveRate，简称FPR)，然后以FPR为横坐标，TPR为纵坐标画图，即得到ROC曲线。

ROC曲线还可以用于比较不同模型的性能。在ROC曲线图中，越靠近左上角的模型性能越好。因为左上角意味着模型在保持高真正例率的同时，假正例率较低，即模型对正例的识别能力强，且误判为正例的反例数量少。我们通常会比较ROC曲线下面积，即AUC(AreaUndertheROCCurve)，作为衡量模型优劣的依据。AUC值越大，说明模型的分类性能越好。

NLP模型:文本相似度、情感判别和内容生成

本文第二部分我们将重点讨论量化模型构建三要素中的第二大要素:模型要素。另类数据从获取到落地可以大致分为两个步骤:1.从非结构化的另类数据到结构化数据;2.结构化数据到交易信号。对于文本数据来说，要真正挖掘文本数据中的信息还需要重点依赖于多种自然语言处理(NLP)模型。

图表11：文本数据在应用到量化投资的步骤

文本数据从体量上来说，例如社交软件、新闻和政府文件数据。为使量化模型取得文本数据中蕴含的信息，首先需要NLP模型来将非结构化数据处理成量化模型可以理解的结构化数据，例如将新闻文本转化成文本指数。NLP全称为自然语言处理(NaturalLanguageProcessing),它的目的是尝试从传统模型难以理解的人类语言文本中学习特征，进而最终识别自然语言的语义信息。

20世纪50年代到70年代自然语言处理主要采用基于规则的方法。70年代以后随着互联网的高速发展，基于统计的方法逐渐代替了基于规则的方法。从2008年到现在，在图像识别和语音识别领域的成果激励下，人们也逐渐开始引入深度学习来做自然语言处理研究。由最初的词向量模型到2013年word2vec再到2018年的BERT以及2023年初期引发大量讨论的GPT3.5、GPT4等一系列大语言模型(LLMs)，将深度学习与自然语言处理的结合话题讨论热度进一步提高。

图表12：NLP主要模型发展历史

图表13：NLP主要模型横向对比

1\词频模型:主题分类+情感判别？

词频模型是NLP模型发展初期原理最直观的模型类别之一。它忽略掉文本的语法和语序等要素，将其仅仅看作是若干个词汇的集合，文档中每个单词的出现都是独立的。它不考虑句子中单词的顺序，只考虑词表(vocabulary)中单词在句子中的出现次数。向量中每个位置的值为该编码对应的词在这段话中出现的次数。由于词频模型提取的信息相对较少，其的应用场景较为有限，主要可以用作文本主题分类和简单的情感判别。

词袋模型

词袋模型(BagofWords,BoW)是一种简单的文本向量化的方法。这种方法直接将文本中出现的每一个不重复词或者符号统一放置在一个集合中，不考虑词语原本在句子中的顺序，然后按照计数的方式对出现的次数进行统计。

具体而言，若词袋共包含n个词语，则模型将每个文本表达为一个n维的词频向量。向量的每一个维度对应着词袋中的一个独立词语，相应的编码表示这个词在文本中出现的次数。例如，假设词袋是["经济","增长","稳定","下跌"]，那么文本"经济稳定增长经济"对应的向量为[2,1,1,0]。

在给定情感词典和情感打分规则后，我们可以直接基于词袋模型进行情感判断。情感词典通常是预先定义好的，其中包含了已知的正面和负面情感词汇，每个词汇有一个相应的情感得分。比如，"好"对应正情感得分，而"坏"对应负情感得分。情感打分最基本的规则是通过计算文本中各个情感词汇的频率，再将这些频率乘以各自的情感得分后相加。

使用词袋模型进行情感分类的大致流程为，1)建立词袋模型:将文本中所有不重复的词汇构成词袋，并统计每个词在文本中出现的次数。2)计算情感得分:对于词袋模型中的每个词，检查它是否存在于情感词典中。如果存在，则将其情感得分与词频相乘，并将所有词的得分累加，得到文档的总情感得分。3)根据情感得分的正负判断文档的情感:若总情感得分为正，则表示文档具有正面情感;反之表示文档具有负面情感。

图表14：文本数据使用词袋模型(BOW)情感判别流程图

TF-IDF模型

TF-IDF原理

TF-IDF是词袋模型的一种加权方法。基于简单计数的词袋模型只考虑了词频TF(TermFrequency)，然而，有些词在文本中尽管词频高，但是并不重要(例如年报里的“公司”一词)，这时向量化完后一般会使用TF-IDF进行特征的权重修正，再将特征进行标准化。

以上基于词频的模型的优点是简单，但普遍存在如下缺点:1)无法捕获词序和语境信息，如TF-IDF只考虑了词的频率，没有考虑词的位置和上下文，因此，它无法捕捉词的语义信息和词语之间的关系。2)无法处理一词多义问题，如TF-IDF对每个词只生成一个权重，无法区分一个词在不同上下文中的不同含义。

TF-IDF的应用实例:

Loughran和McDonald在2011年发布的论文《WhenisaLiabilitynotaLiabilityTextualAnalysis,Dictionaries,and10-Ks》中采用词袋模型来分析公司年报文本，进而创建了一份金融情感词典，为接下来的金融文本分析提供了一种有效的工具。具体说来，他们通过词袋模型统计了词频，并对在至少5%的文件中出现的所有单词的情感类别进行了深入的审查，这为他们建立了一个包含正面、负面、不确定等五个类别的金融情感词表。

作者采用了TF-IDF的加权方法来减弱高频但不重要的词带来的影响，同时赋予使用较少的词更大的影响力。作者采用的TF-IDF加权公式如下，其中，a代表词语在文档中的平均出现次数，N表示样本中的10K报告总数。而分母加1是为了避免出现分母为0的情况:

他们强调，在使用词袋模型时，如何选定词语的权重是一个关键的步骤，因为仅仅基于简单的词频计数得出的权重并不能充分反映词语在文本中的实际含义。他们还发现，选择更适合的词语权重可以有效地减少由于词语分类错误所产生的噪声。

2、静态向量模型:文本相似度

Word2Vec模型

Mikolov在2013年提出了在NLP领域具有里程碑意义的word2vec方法，利用词嵌入的概念将词汇从离散表示(one-hot编码)转化为连续的数值向量，从而大大提高了词向量蕴含的信息以及模型效率。Word2vec采用了两种训练方式(CBOW和Skip-gram)，以及两种优化算法(HierarchicalSoftmax和NegativeSampling)。

Word2vec模型原理

Word2vec所用到的CBOW和Skip-gram都是轻量级的神经网络，本质上只有输入层和输出层两层，CBOW是在知道中心词上下文的情况下预测中心词;而Skip-gram则正好相反，是在知道词中心词的情况下对其上下文进行预测，简化示意图如下所示。

图表15:CBOW和Skip-gram模型结构

注：数据截至2023-08-31

具体而言，CBOW模型的输入是周围上下文词的词向量(one-hot编码)。CBOW模型的输出是一个softmax函数计算出的概率分布向量，每个单词作为中心词的概率(训练的目标是使得实际的中心词在该概率分布中的概率最大)。另一方面，Skip-Gram模型的输入是中心词的词向量(one-hot编码)，模型的输出是一组概率分布，每个概率分布对应一个上下文位置，表示所有词汇作为该上下文词的可能性。

图表16：CBOW模型原理示意图

在word2vec模型中，每个词生成的词向量是固定且与语境无关的(即“静态向量模型”)，这导致同一词在不同语境下，即使含义不同，其词向量却相同。而深度学习的预训练模型(下文将展开介绍)可以克服这个限制，生成的词向量能根据上下文动态调整，即同一词在不同语境下，其词向量也能随之改变。文本相似度评估的一般步骤为:生成文本的向量表示，再将其输入距离函数计算文本之间的距离。Word2vec是一种常见的生成词向量方法，而文本距离描述了两个文本词的语义接近程度，常用的距离函数有余弦距离、欧氏距离、曼哈顿距离等。

Word2vec的应用实例

3、预训练模型:情感判别+文本生成

图表17：BERT、GPT与ELMo预训练模型结构差异

BERT模型

BERT由GoogleAI团队的Devlin在2018年提出，全称为Pre-trainingofDeepBidirectionalEncoderRepresentationsfromTransformers，BERT是一个基于Transformersencoder的深度双向预训练语言理解模型。Bidirectional也是BERT的主要创新点:BERT前的预训练语言模型，如ELMO和GPT的方向都为单向(ELMO是两个方向相反的单向语言模型的拼接)，都忽略了结合上下文的语义信息对文本理解任务的重要性。

图表17：BERT模型主要训练过程

GPT系列模型

GPT-1的提出要早于BERT模型，也是采用“预训练-微调”的模式，即在大规模无标记的文本语料上进行无监督的预训练，然后再在特定任务上进行有监督的微调。与BERT双向掩码语言模型不同，GPT是自回归语言模型。BERT由Transformer的Encoder部分堆叠组成，而GPT使用的是TransformerDecoder部分，更适合文本生成任务。

GPT预训练的流程可大体分为三步:1)使用ftfy库和spaCy对BooksCorpus语料库分别进行清洗和分词，并将分好词的文本序列输入模型嵌入层。GPT的嵌入层使用了Token嵌入和Position嵌入。2)这些词嵌入被送入多层TransformerDecoder(即DecoderStack)中，其中每一层都包含自注意力机制和前馈神经网络;3)最后一层TransformerDecoder的输出经过softmax函数，得到每个位置中有关下一个token的概率分布。

GPT-2:2019年，GPT-1的迭代版本GPT-2由OpenAI的AlecRadford和JeffreyWu等人在论文《LanguageModelsareUnsupervisedMulti-taskLearners》中提出。GPT-2模型结构和GPT-1同为自回归语言模型，仍由多层TransformerDecoder组成，但是相比GPT-1，GPT-2的预训练所使用的数据以及参数规模变得更大，参数规模约为GPT-1的10倍;此外，GPT-2摒弃了GPT-1中的“微调”模式。此举是由于OpenAI认为语言模型应该直接冲击零样本无监督多任务学习器的目标，即预训练好的模型可以直接用于下游任务。

GPT-3:OpenAI于2020年继续提出了GPT-3模型，其延续了GPT-2中单向Transformer的自回归语言模型结构，但它的模型参数规模是GPT-2的100倍，共有1750亿个参数。此外，GPT-3不再追求zero-shot的设定，而是在下游任务中给定少量标注的样本让模型学习再进行推理生成。因此，GPT-3主要展示了超大规模语言模型的小样本学习能力。

文本数据、模型与投资场景的组合

1、新闻文本数据用于因子策略与热点主题获取

新闻数据是目前另类数据中使用场景最丰富，历史也相对较长的数据种类之一。不仅可以根据新闻本身的热点属性创造市场热点轮动的投资组合，还可以根据新闻的情感倾向创造选股投资的因子策略，或者将新闻数据聚合至行业风格做进一步轮动策略。我们在本篇报告中对其测试结果做简单介绍展示，具体内容请参考《另类数据策略(2):如何优化新闻文本因子》。我们使用数库提供的文本数据聚合至个股和行业层面构造选股和行业轮动新闻文本因子。

数库科技提供的情感判别结果为0为中性，1为乐观，2是负面打分，在实际应用中被转换为-1。数库打分细节中还有对各类判断的置信度。数库的新闻数据数量总量在过去十年逐年上升，2016年前涉及上市公司的新闻数量不超过60万篇，至2022年已超过800万篇;覆盖度在基本宽基指数种的覆盖率也较为稳定，近十年在中证800种的覆盖率稳定高于97%，全A覆盖率也稳定高于90%。

图表20：数库新闻数据数量

图表21：数库新闻数据覆盖度

新闻X情感判别X因子选股

图表22：高信噪比新闻文本因子IC与累计IC序列

图表23：高信噪比新闻文本因子分组收益表现

注：测试时段为2015-07-01至2023-08-31

图表24：高信噪比新闻文本因子测试结果统计

图表25：高信噪比新闻文本因子测试结果统计

新闻X情感判别X行业轮动

我们首先使用数库在新闻数据中为新闻标记的正负情感作为每条新闻的新闻情感得分，将每支股票每天的情感得分求算术平均，再使用SAMI方法将其映射到中信一级行业中。考虑到目前A股市场中，主流的行业指数编制方式均为成分股自由流通市值加权，因此在行业指标构建过程中，个股数据也按照自由流通市场来加权，得到的行业指标值将更为契合行业指数。我们将这种方式构建的行业指标简称为SAMI(StockAlphaMappingIndicator)，该映射方式简称为SAMI映射。具体映射方式如下。其中表示股票i在行业中的自由流通市值权重;h表示股票i在指标alpha上的具体得分或取值。

图表26：数库新闻数据数量

注：测试截止2023-08-31

图表28：高信噪比新闻文本因子多空与超额净值表现

图表29：高信噪比新闻文本因子测试结果统计

回归新闻热点功能，我们希望利用新闻对热点捕捉的及时性来捕捉市场关心的热点板块，落地到热点组合中。我们可以将新闻中出现的热点词汇提取而出，用以与上市公司关键词进行文本相似度的计算，进而将与近期热点词汇相似度最高的个股组合为新闻热点选股组合。

但新闻数据复杂度较高，其中大量文本内容大概率信息含量较低。如何抓取有效的新闻热点关键词是该模型的难点之一。本文创新性提出文本波动率的概念对无效信息进行剔除，进而过滤出更有意义的热点词汇。

利用主题动量优选热点主题股票池。对于月度频率换仓的热点主题投资策略，热点主题从2017年以来的投资价值有所提升，但整体收益有限。由于我们捕捉到的热点主题具有一定滞后性，热点主题股票池中部分股票或已经在前期充分实现收益的增长，因此我们后文将尝试引入量价信息对热点主题成分股实现进一步优化。

图表30：主题识别步骤

依靠上述方式定期选取热点，并使用一定手段筛选的优质主题股票池具有一定超额收益。具体策略效果和构建方法见《另类数据策略(3):文本信息助力主题投资》。

图表31：2023以来热点主题选取

2、分析师研报用于判断主要矛盾

我们使用朝阳永续提供的宏观、策略、固收以及大类资产的全市场分析师报告的摘要部分，通过统计分析师研究报告的摘要中对于不同主题的关心程度来判断当前市场关心的热点问题，进而从中发掘市场当前的主要矛盾。具体报告内容见《量化配置系列(10):如何利用市场主要矛盾辅助大势研判》。

总量研报X相似度X大势判断

本节尝试使用分析师研报摘要等多种方式对不同时期股市在宏观层面(增长、流动性、通胀)的主要矛盾进行定量的捕捉与刻画，判断市场宏观维度当前存在的主要矛盾。具体分两步:首先我们分别从经济增长、流动性、通胀的角度，得到对未来市场走势的观点方向;然后我们判断当前市场的主要矛盾，如果当前股市的主要矛盾在于经济增长(流动性、通胀)，则我们以经济增长(流动性、通胀)维度所给出的观点，作为未来市场走势的方向判断。我们发现分析师研报判断的主要矛盾对A股择时效果有较明显提升，且同样在2015年至今有更高应用价值，对美股择时效果有一定提升。

我们首先分析了从2010年至2022年上半年的总量分析师的研究报告摘要数据，并尝试探索不同时点分析师关心的主要话题来确定当前驱动股价变化的主要矛盾。我们首先统计数据分布:分年度看，年均文本数据量在2万条左右，且近些年呈现平稳缓慢增长的特点。分研报主题看，共有四类报告主题，分别是固定收益、宏观经济、策略研究与大类资产。在四大类数据中，固定收益、宏观经济、策略研究类别下的年度数量差异较小，且均呈现缓慢增长的趋势。大类资产类别下的数据从2019年开始出现，近几年增速相对较快。

图表32：不同主题总量研究报告摘要数量分布

注:数据截至2022年7月底

从以上分析师研究报告摘要中发现文本数据主要有以下特点:

结构稳定:研究报告通常具有一定格式要求，文本结构较为稳定。同时分析师摘要平均段落长度每段平均包含800字以上，内容更为丰富，后续文本处理较为便利。

用词规范:分析师研究报告摘要文本规范性较强，用词精准清晰，主题明确规范，易于进行文本解析。但同时由于存在不少的专有名词，导致后期直接使用jieba默认词库分词带来了数据信息的过度切割并且破坏了专有名词的完整性，因此我们在jieba分词中加载自己的词库进入分词系统，帮助其自动检索存在的专有名词，提高词语解析效率与准确性。

图表33：国内分析师研报主要矛盾时期划分示例

使用研报生成的主要矛盾对A股择时效果有较明显提升。我们继续测试从研报角度得到的主要矛盾，对A股的择时效果。下图展示了A股历史回测的净值曲线。2010年至今，纳入主要矛盾的择时策略可以取得11.96的累计净值，优于通胀维度择时7.37的累计净值，显著强于经济增长、流动性维度的择时净值以及沪深300的同期表现。从结果看，纳入研报角度的主要矛盾后，模型对未来A股走势的判断效果有较为显著的提升。

图表34：研报角度的主要矛盾对A股择时效果有较明显提升

3、基金定期报告用于大势研判和行业配置

基金报告X情感判断X大势判断

具体而言，我们的情感分析框架基于如下原则搭建:

情感分析:对展望文本进行分词后，我们借助cnsenti库中的sentiment_count接口，并添加中文金融情感词典(共9228个词语，其中消极词语共5890词，积极词语共3338词)作为用户情感词典，丰富库中的积极情感与消极情感词汇语料。

词频统计:统计基金年报、中报、季报展望文本中的积极情感词汇，记作Epositive。

指数构建:随后，我们依据下式构建积极情绪指数:

图表35：中文金融情感信息

按照上述步骤，我们得到了4Q11至1Q23期间，基于基金经理展望文本的乐观与悲观区间划分结果，并与沪深300指数走势进行比对。我们认为，若乐观与悲观区间能够与宽基指数的涨与跌形成较好的对应关系，即可以认为，基于基金经理展望文本得到的市场观点可以预测下一季度权益市场走势。

图表36：2012年以来股票市场乐观悲观区间划分

基金报告X情感判断X行业配置

承接上文的乐观与悲观区间划分结果，我们还可以进一步挖掘基金经理展望文本中的行业配置观点。同时我们认为，若将基金经理的择时观点与行业观点相结合，展望文本信息的有效性或能够进一步提升，具体而言，在基金经理预期乐观区间，我们从文本中提取出行业观点可能更倾向于帮助我们找到未来收益弹性较高的行业;而在基金经理预期悲观区间，我们从展望文本中得到的行业则不一定具备非常好的上涨弹性，可能观点偏向于防御与保守。基于上述思想，我们按照如下步骤，检验基金经理展望文本中的行业配置观点是否具有投资指导意义:

首先，依据上文的情感分析框架，得到基金经理预期乐观与悲观区间;

随后，以年报和中报的行业词频为样本(其中，我们剔除了每期词频小于50的行业以提高数据的稳定性)，计算当期行业词频相对上期的变化率(具体计算原则见第一节的词频变化比例指标h);

最后，按照行业词频变化比例从高到低对行业进行排名，分别得到各期词频变化Top3行业组合与Top5行业组合，计算报告发布后(3月末、8月末)起20、40、60交易日内的行业收益率，并与Wind全A指数的同期涨跌幅进行对比。其中，对乐观与悲观区间的行业组合分别统计。

统计结果表明，在乐观区间，展望文本词频变化率Top5行业在未来20日平均收益率、Top3行业在未来40日平均收益率表现较好，相对Wind全A指数，前者胜率89%，后者胜率78%。即使在2022年极端行情下，例如2022年3月31日之后，Top5行业平均20日收益率为-5.34%，Wind全A指数收益率为-8.91%;Top3行业平均40日收益率为-0.82%，Wind全A指数40日收益率为-3.44%。

图表37：乐观区间前五行业与前三行业20个交易日平均收益率

图表38：乐观区间前五行业与前三行业40个交易日平均收益率

THE END

中金另类数据策略（1）：文本数据的可能性好投汇

实现数据价值的三部曲：数据清洗数据处理和数据集成

AI驱动的数据清洗：提升数据质量的高效策略

什么是数据清洗？主要应用在哪些领域？

数字政府和智慧城市的数字孪生流域体系建设，数据融合感知系统仿真工具是关键，促进流域管理体系的融合创新是一个长期而复杂的过程！行业资讯

中国移动5G+探索大数据和人工智能答案

人工智能行业专题报告：从RNN到ChatGPT，大模型的发展与应用新浪财经

机器学习经典的机器学习200道面试题（附参考答案）

大数据在审计中的应用通用12篇

谷禾健康–第23页–谷禾健康

从ODS到ADS，万字详解数仓分层！

月嫂培训总结范文

数据分析师具体工作内容数据分析师主要工作内容模板(19篇)

中金另类数据策略（1）：文本数据的可能性好投汇

环境保护论文15篇

社会实践社会调查报告范文（30篇）

数据清洗的主要类型及步骤有哪些？数据表

数据模式识别

数据处理方法有哪些？数据处理的三种方法

第五要素｜大模型时代，数据治理与AI相互依存形成闭环未来2%澎湃新闻