中国量化科技白皮书2023.连载（二）|数据清洗的策略_家电

量化交易利用数学、统计学和计算机技术，通过对金融市场的历史数据和市场现状等进行分析和计算，确定交易规则和交易控制，从而实现自动化的交易过程。本章从数据获取、数据加工、数据存储、策略研究、策略构建、策略执行和投后分析七个阶段讨论科技在量化交易中的应用，详细说明了量化交易过程中用到的各种数据源信息、软件技术、硬件资源、网络技术和模型算法，涵盖了量化交易的投前、投中和投后全过程。

量化交易用到的数据涉及面广、种类丰富、规模庞大。用户可根据量化交易的实际需要，确定具体的数据类型和数据供应商，采取合适的方法获取目标数据。表2.1列出了量化交易中常用的数据类型和数据供应商。

表2.1：量化交易中常用的数据类型和数据供应商

1、API

应用程序接口（ApplicationProgramInterface，简称API），定义了多个软件系统之间的交互规范，包括可调用或请求的种类、调用或发出请求应使用的数据格式和应遵循的惯例等信息。它还可以提供扩展机制，便于用户通过各种方式对现有功能进行不同程度的扩展。一个API可以是完全定制针对某个组件的，也可以是基于行业标准设计的以确保互操作性。通过信息封装，API实现了模块化编程，从而允许用户独立地使用接口3。在量化交易领域，用户可以使用API接口从数据供应商处下载需要的数据。Tushare等开源的Python数据接口，提供了丰富的API接口，可以获取历史行情、实时行情、财务数据、基本面数据、宏观经济数据等多种数据类型，可以方便地进行量化分析和研究。每日的数据更新较快，一般可以在交易日结束后1-2小时内更新，保证了数据的实时性和准确性。类似的数据供应商还有万得、东方财富Choice、通联数据、聚宽、掘金量化等。但这些平台在数据管理和收费模式上存在一些差异，用户可根据自己的需求选用合适的数据源。

2、网络爬虫

1、多模态数据处理

多模态（Multimodal）是具有不同的数据结构特点，来自不同的采样数据，描述同一对象的多媒体数据，包括文本、图像、视频、音频等。多模态数据处理技术指的是将多种类型的数据进行结合处理，以获得更多的信息和洞察力的技术。常见的多模态数据处理技术支持多种不同的数据模型，包括结构化的数据和非结构化数据，覆盖普通文本、KeyValue介质存储、全行搜索、排索引、图存储、图数据库、存储文档，以及时空数据等。其中，自然语言处理技术是量化交易中应用最广泛和最频繁的数据处理技术。

2、自然语言处理技术

自然语言处理（NaturalLanguageProcessing，简称NLP），是多模态数据处理的重要组成部分，主要研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理可以从语义资料中提取行为金融学和市场情绪信息，主要用于文本分类、情感分析和关系抽取。

A、文本分类

B、情感分析

情感分析一般使用有监督的机器学习或者深度学习算法实现，如朴素贝叶斯、长短期记忆（LongShort-TermMemory，简称LSTM）神经网络和预训练的基于词表/规则的情感分析工具（ValenceAwareDictionaryandsEntimentReasoner，简称VADER）等。使用情感分析可以实现的应用包括资讯文本情感分析、公司信息分析、特定事件分析和情感指数构建等。通过对目标公司的新闻、社交媒体等文本进行情感分析，可了解市场情绪和投资者情绪，分析其股票和期货价格等的潜在走势；同时，也可以对公司公告、财务报表、行业研究报告等进行处理，提取出关键信息，为交易策略提供数据支持。

C、关系抽取

2、数据清洗

数据清洗是数据加工阶段的重要步骤，目的是提高数据的质量，从而提高分析和建模的准确性和效率。由于采集到的各类数据通常不完整，包含噪声、前后矛盾、冗余、有缺失值等，无法直接用于量化交易中，使用之前需要进行处理。常用的数据清洗算法包括：

缺失值填充算法：用统计方法或插值法填充缺失值。

异常值处理算法：识别和处理异常值。

重复值处理算法：识别和删除重复值。

数据转换算法：将数据转换为适合分析的格式，如对数变换、归一化等。

数据合并算法：将多个数据集合并为一个数据集。

3、因子计算

量化交易因子一般分成三类。

第三类是另类因子，包括社交舆情、电商数据、门店数据等因子，往往需要在有较强的金融逻辑支持时使用，但数据获取成本较高。

获取数据之后，需要把数据整合并储存起来，方便后续分析和处理，主流的数据存储方式包括数据库、文件和数据仓库。

1、数据库存储

（1）关系型数据库技术

关系数据库管理系统（RelationalDatabaseManagementSystem，简称RDBMS）利用了关系模型来存储数据。这些数据库特别适合于财务数据，因为可以将不同的“对象”（例如交易所、数据源和价格等）设计为单独的表，并在不同的表之间定义关系。RDBMS利用结构化查询语言（StructuredQueryLanguage，简称SQL）对财务数据执行复杂的数据查询操作。常用的RDBMS包括Oracle、MySQL、SQLServer和PostgreSQL等。

RDBMS的主要优点是安装简单，独立于平台，易于查询，方便与主要的回测软件集成，在大规模数据存储的情况下仍能保持高性能。其缺点是定制化设计比较复杂，在缺乏有关RDBMS数据存储方式的基础知识的情况下，实现上述性能存在困难。图2.1列出了当前业界最受欢迎的前10种关系型数据库。

（2）时序数据库技术

（c）实时采集和处理数据：时序数据库可以实时地采集和处理流式数据，包括数据解析、清洗、过滤、聚合等操作，还可以进行数据分发和复制等。图2.2列出了目前业界最受欢迎的前10种时序数据库。

2、文件存储

3、数据仓库整合

本阶段利用机器学习等人工智能算法，对各种数据进行分析处理，研究和提取有用的交易规律。

1、机器学习算法

根据学习方式的不同，机器学习可以分为监督学习、无监督学习和强化学习三大类5。监督学习是对有标签（已知类别）数据进行学习，常用的模型有支持向量机、随机森林、深度神经网络等，在量化策略研究阶段，可用于开发预测模型；无监督学习所给的学习数据不带标签（未知类别），常用的模型有主成分分析、聚类等，适用于分析金融市场结构；强化学习以环境反馈（奖/惩信号）作为输入，致力于实现奖励最大化，可用于优化交易策略。

（1）监督学习

监督学习的基本思想是利用有标签数据来构建模型，以便预测新数据的标签，特别适合解决分类和回归问题，可用于开发预测模型，具体流程如图2.3所示。

监督学习模型的训练由两个主要步骤组成：特征工程和模型训练。特征工程涉及选择和提取能够代表数据的特征，而模型训练则是使用有标签数据训练机器学习模型，以便可以对新数据进行预测。在训练阶段中，监督学习需要从训练数据中提取有用的特征，并建立一个能够将输入映射到输出的函数（即模型）。在测试阶段中，监督学习模型会将新数据输入模型中进行预测，然后将预测标签与实际标签进行比较，以评估模型的性能。监督学习的最终目标是在测试数据上获得较高的准确率和泛化能力。金融市场预测模型是监督学习在金融市场的具体应用，旨在预测未来金融市场产品（如股票、外汇、债券等）的价格或市场趋势。这些模型基于不同的数学原理和假设，主要根据历史数据和多种市场指标进行训练和预测，具有不同的优点和缺点。以下是一些常见的预测模型。

A、股票价格预测：监督学习可以用于分析历史股票价格和市场数据，以学习股价变动的模式。常见的算法有支持向量机（SupportVectorMachine，简称SVM）、随机森林和神经网络等。

B、信用评分：通过对客户的历史信用数据进行分析，监督学习可以预测客户未来的信用表现，从而帮助银行和金融机构降低信用风险。常用的算法有逻辑回归、决策树和梯度提升机等。

C、风险管理：监督学习可以用于预测企业或个人的违约概率，从而为风险管理提供数据支持。此类模型通常使用逻辑回归、随机森林等算法。

（2）无监督学习

无监督学习可以在没有标注数据的情况下，探索数据的内在结构和规律，其基本流程如图2.4所示。

（3）强化学习

强化学习通过建立一个能够学习、适应市场环境变化的智能代理来决定交易策略。该智能代理通过与市场交互，不断学习和优化决策，提高交易策略的有效性和稳定性近年来，强化学习算法已被证明在决策问题中有效，在解决动态的、不确定的金融领域问题上具有突出的优势，其基本思想是通过试错学习来优化决策策略。在交易中，强化学习可以通过学习历史数据来发现交易规律，并根据这些规律来制定交易策略。

强化学习目前已经应用在股票、期货、数字货币、黄金、外汇等市场，在不同的交易策略上取得了较好的效果，如资产组合优化、交易执行策略、高频交易策略和跨资产交易策略等。目前应用在交易策略优化中的强化学习算法主要包括：深度Q网络（DeepQNetwork,简称DQN）、异步优势动作评价算法（AsynchronousAdvantageActor-Citic，简称A3C）、近端策略优化算法（ProximalPolicyOptimization，简称PPO）。现在金融机构已经开始将强化学习用于优化交易执行策略。比如一些投资银行和交易公司通过构建强化学习模型，自动决定下单量和时机，以降低交易成本。其他银行和基金公司也使用了强化学习算法来预测市场变化并为其客户提供更好的投资建议。

（4）大模型

大模型，例如GPT（GenerativePre-trainedTransformer）系列和BERT（BidirectionalEncoderRepresentationsfromTransformers）等，是基于自注意力（Self-Attention）和Transformer架构的预训练语言模型。大规模预训练语言模型采用“预训练-微调”两步走的训练流程，第一步在大规模无标注数据（如互联网文本）上进行模型预训练，学习通用的语言模式；第二步在给定自然语言处理任务的小规模有标注数据上进行模型微调，快速提升模型完成这些任务的能力，最终形成可部署应用的模型，

与经典机器学习流程的对比如图2.5所示。

值得一提的是，ChatGPT（ChatGenerativePre-trainedTransformer，简称“ChatGPT”），是美国OpenAI研发的聊天机器人程序，于2022年11月30日发布。ChatGPT是人工智能技术驱动的自然语言处理工具，它能够通过理解和学习人类的语言来进行对话，还能根据聊天的上下文进行互动，真正像人类一样来聊天交流，甚至能完成撰写邮件、视频脚本、文案、翻译、代码、论文等任务。公开资料显示，ChatGPT已经可以完成一些简单的量化策略，例如构建平均回归模型，输出均线策略。理论上甚至可以利用Scikit-learn数据库（针对Python编程语言的免费机器学习库）建立制作未来利率的预测模型，并使用均方误差（Mean-SquareError，简称MSE）对其进行评价。

2、策略回测技术

策略回测是利用测试集数据的模型预测结果编写策略，并用测试集的历史数据对策略进行校验的过程。策略回测技术通常指那些通过历史数据，对交易策略进行模拟测试的软件。它可以帮助我们检验交易策略的盈利能力，评估风险收益比，优化交易参数等。目前市面上有很多种策略回测工具，比如Python编程语言中的Backtrader和Zipline库、R编程语言中的quantmod和blotter包、还有著名的TickDataSuite等。

3、量化投研云服务

量化投研是近年来在国内量化交易领域中广泛应用的一种服务。量化投研云服务是量化投研和云服务的结合。随着量化策略的研究发展，纯量价因子也需用到海量的逐笔成交和逐笔委托数据、图谱数据、舆情数据、多模态数据，也需要更多的TB级别的存储空间。随着上万的因子数据计算和深度学习大模型训练的需求出现，单独一个容器或虚拟机已无法（及时）完成计算或训练，需要调用云服务快速分配大量的计算资源来进行分布式计算或训练。

1、策略编程逻辑

2、策略编程语言

经过多年的发展，不少编程语言已经形成了强大的开发框架、丰富的函数库和第三方库，用户可根据实际需要选用。常见的策略编程语言包括Python、C、C++、Java和FPGA编程。Python是目前最流行的量化策略编写工具，pandas、scipy、numpy、zipline等开源框架相当受开发者欢迎。C、C++和Java有一定的学习门槛，而且程序量往往比较大，编写比较费时。FPGA编程技术与传统软件系统相比，能实现可预知的超低时延，该技术已在模型计算、高频交易等领域大放异彩。目前很多线上平台提供了量化策略编写功能，集成了很多方便的工具（优矿、米筐等），使开发者可专注于策略，也有很多开源的量化交易框架（vnpy、easyquant等），用户可以根据自己的需求进行二次开发。

策略执行阶段把自动化交易程序接入交易系统完成交易。本阶段涉及的科技主要包括低延迟技术、算法交易和风控技术。

1、低延迟技术

（1）低延迟软件技术

A、软件加速库

软件加速库（MathKernelLibrary，简称MKL）是英特尔公司提供的一套经过高度优化和广泛线程化的数学库，专为需要极致性能的科学、工程及金融等领域的应用而设计。核心数学函数包括基础线性代数子程序库（BasicLinearAlgebraSubprograms，简称BLAS）、线性代数程序包（LinearAlgebraPACKage，简称LAPACK）、可扩展线性代数库（ScalableLinearAlgebraPACKage，简称ScaLAPACK）、稀疏矩阵解算器、快速傅立叶转换、矢量数学及其它函数。在量化交易中，MKL库的应用主要体现在优化算法和高性能计算方面，广泛应用于量化风险模型、量化数据分析、量化交易计算等领域。

B、增强矢量扩展指令集

增强矢量扩展指令集（AdvancedVectorExtensions，简称AVX），是英特尔公司推出的一种单指令多数据（SingleInstructionMultipleData，简称SIMD）的指令集架构，用于加速向量计算。AVX指令集可以同时处理多个相同数据类型的元素，提高计算效率，特别适用于需要进行大量向量计算的应用程序。在量化交易中，AVX指令集的应用主要体现在矩阵计算和向量化计算上。

C、数据平面开发套件

数据平面开发套件（DataPlaneDevelopmentKit，简称DPDK）是一个开源的数据平面开发工具集，旨在提供高性能、低延迟的数据包处理能力，适用于网络、存储和云计算等场景。在量化交易领域，DPDK可以应用于高频交易、网络传输和数据处理等场景。在高频交易中，DPDK可以实现快速收发交易数据和实时监控市场行情；在网络传输中，DPDK可以实现高速数据包的转发和过滤；在数据处理中，DPDK可以实现高效的数据压缩和加速计算等。

D、操作系统内核优化

操作系统内核是计算机系统的核心组成部分，负责管理计算机硬件资源和协调应用程序之间的交互。优化操作系统内核可以显著提高计算机系统的性能和稳定性。在量化交易领域中，操作系统内核优化可以帮助提高交易系统的响应速度和稳定性，从而实现更高效的交易操作。

E、内存加速

内存加速优化是一种提高计算机系统性能的技术手段，其基本思想是尽可能地减少内存访问延迟，提高内存访问速度，从而加快系统运行速度。在量化交易领域，内存加速优化可以帮助降低交易系统的延迟，提高交易速度和执行效率，从而提高交易策略的成功率和盈利能力。

（2）硬件加速技术

量化领域硬件加速技术的应用，主要体现在智能芯片、低延迟网卡和专用交换机等方面。

A、智能芯片加速

CPU

随着计算机硬件技术的发展，普通CPU无论是在计算能力，还是资源成本上相对于一些专用硬件已经没有绝对优势。为了更充分地应用CPU性能，业界发展出了一些CPU加速技术。

超频技术：通过超频技术，提高CPU、内存等硬件设备的工作时钟频率，从而达到改善服务器性能的目的。搭载了超频技术CPU的服务器，在量化交易中可以提高交易策略的执行速度，从而更快地完成交易，减少因为市场变化而导致的交易失败或成本上涨风险。

多核并行处理：现代计算机系统的核心处理器CPU有几十个处理核心，每个处理器核心可以独立地执行任务。充分利用每个CPU的核心，可以大幅提高程序的处理性能，使其能够处理更复杂的计算任务和更大规模的数据集。多核并行处理则可以提高计算效率和处理速度，从而提高交易的执行速度和准确性。在量化交易中，多核并行处理主要用于数据处理、策略计算、交易执行、高频交易。

GPU

图形处理器（GraphicsProcessingUnit，简称GPU），是一种专门用于图形处理的微处理器。GPU最初被用于电脑游戏等图形处理密集型任务，但随着GPU架构的不断升级和发展，其在其他领域也有了广泛的应用，特别是在科学计算、深度学习和加密货币挖掘等方面。在量化领域，GPU被广泛应用于加速复杂计算，如高频交易中的量化分析和算法交易、风险管理、投资组合优化等。目前，GPU服务器市场上的主要厂家包括英伟达、AMD和英特尔等。其中，英伟达是GPU服务器市场的领导者，其GPU服务器市场份额占据了70%以上，而AMD则在市场份额方面表现出了快速增长的趋势。根据VerifiedMarketResearch数据，2021年全球GPU市场规模为334.7亿美元，预计到2030年将达到4473.7亿美元，期间年均复合增长率达33.3%。根据JonPeddieResearch数据，2022Q4独立GPU市场中，英伟达、AMD和英特尔三家的份额分别为85%、9%和6%。

FPGA

现场可编程门阵列（FieldProgrammableGateArray，简称FPGA），是一种可编程逻辑器件，可以通过编程实现特定的电路功能。与CPU和GPU等通用处理器相比，FPGA是专用硬件，可以提供极高的性能和灵活性，同时具有很低的功耗和延迟。FPGA硬件加速技术在量化交易中得到了广泛应用，主要分为两个方面：低延时处理和科学计算加速。低延时处理，最常见的场景是高频交易和市场行情数据处理。科学计算方面，主要用于加速金融算法中的计算密集型任务，例如期权计算、金融衍生品定价和人工智能等。

在高频交易中，FPGA可以用于实现低延迟的算法交易策略，例如订单簿处理、行情数据处理等。由于FPGA直接在硬件层面实现策略逻辑，因此具有极低的延迟和高度并行性能。

ASIC

专用集成电路（ApplicationSpecificIntegratedCircuit，简称ASIC），是一种专门用于实现特定功能的集成电路。在人工智能领域，ASIC的作用是加速神经网络的训练和推理。谷歌公司专为深度学习框架TensorFlow设计的张量处理器（TensorProcessingUnit，简称TPU），即是一款ASIC。TPU采用低精度（8位）计算，以大幅降低功耗，采用脉动阵列设计以优化矩阵乘法与卷积运算，以减少I/O操作，采用更大的片上内存，以减少对动态随机存取内存的访问。与FPGA相比，ASIC根据特定使用者的要求和特定电子系统的需要而设计和制造，具有更高的性能和更低的功耗，但缺点是成本高昂，难以进行修改和升级。

B、低延迟网卡

低延迟网卡是指在数据中心和高性能计算领域中广泛应用的一种高性能网卡，其主要特点是具有极低的网络延迟和高带宽。在量化交易中，低延迟网卡可用于优化交易系统的网络通信，减少交易指令和市场行情数据的传输延迟，从而提高交易的执行效率和准确性。低延迟网卡普遍具备内核旁路模式及用户空间协议栈，避免了内核带来的处理延迟，可以大幅降低系统延迟。图2.6给出了低延迟网卡示意图。

C、专用交换机

可编程交换机

可编程交换机（ProgrammableSwitch）是一种具有可编程能力的网络交换机。它与传统交换机不同，传统交换机的功能是固定的，提供基本的层二、层三网络通信功能，而可编程交换机可以根据需要进行编程，实现各种不同的网络功能。在量化交易中，可编程交换机可以提供更快的数据包处理速度和更低的延迟，从而为交易算法提供更加实时的数据支持。

低延迟交换机

一层交换机

一层交换机使用开关矩阵进行转发，转发延迟可以降低至5纳秒以内。在行情分发场景中，可以最大程度地降低延迟。

（3）低延迟网络技术

低延迟网络技术是指通过优化网络传输、协议和硬件设备，降低数据传输延迟，提高数据传输速度的一系列技术。在金融领域尤其是高频交易中低延迟网络技术具有重要意义。

A、高频交易中的网络优化

在高频交易中，网络优化主要包括以下几个方面：

服务器位置选择

交易公司将服务器放置在离交易所尽量近的地方，甚至是交易所的机房内，以降低数据传输距离，从而减少延迟。国内证券交易所和期货交易所都提供了托管机房，方便会员托管机器，如表2.2所示：

专线连接

为了降低网络传输延迟，交易公司通常会采用专线连接到交易所，以确保数据传输的稳定性和可靠性，并显著降低因中间环节而产生的延迟。以上海、深圳两地连接为例，普通互联网回路延迟约为40毫秒，低延迟专线可以降低至19毫秒。在国内市场，通过与中国电信、中国移动等主要运营商合作，交易公司可以获得高质量的线路资源。

此外，交易公司可能会选择多条线路并行传输，以确保某一线路出现问题时交易不间断。网络拓扑优化优化网络结构是降低数据传输延迟的有效方法，通过减少数据在传输过程中经过的中继节点，可以进一步提高传输效率。网络拓扑优化主要包括直线传输和最短路径传输两种方式。

直线传输技术是一种沿着地理直线路径传输数据，而非经过多个节点的方法，以达到降低延迟的目的。这种技术通常通过光纤传输线、无线电波等方式实现。最短路径传输技术旨在寻找数据传输过程中的最短路径，以最小化经过的节点数量，从而降低延迟。在实际应用中，交易公司可以通过软件算法来计算和选择最佳路径，以提高传输效率。

提高网络带宽

网络延迟测量设备

B、网络传输协议与加速技术

网络传输协议和加速技术在低延迟网络技术中扮演重要角色。以下是一些常用的协议和技术。

UDP协议

相较于TCP协议，用户数据报协议（UserDatagramProtocol，简称UDP）协议具有更低的传输延迟。UDP不需要建立连接、确认数据包的到达以及重新发送丢失的数据包，因此具有更高的传输速度和更低的传输延迟。在行情分发中，交易所和证券公司大量使用了UDP组播协议，避免了重复发送相同数据的开销。

对于高频交易者来说，基于UDP组播的协议还有一个关键优势即公平性——它可在路由器层面保证同时对所有市场参与者发送消息，而不像TCP协议那样会受软件影响从而导致某些用户比另一些用户先收到消息。

应用层协议优化

针对金融领域的特点，可以采用专门设计的应用层协议，如FIX11/FAST12协议、STEP13协议和Binary14协议。FIX/FAST协议在金融领域广泛应用，其简洁的格式和灵活性使得数据传输更加高效。

FIX协议是由国际FIX协会组织提供的一个开放式协议，目的是推动国际贸易电子化进程，在各类参与者之间，包括投资经理、经纪人、买方、卖方，建立起实时的电子化通讯协议。STEP是基于FIX4.4版本制定出来的中国本地化FIX协议版本，是中国国家金融行业标准，已成为事实上的证券数据标准，其语法简单，定义灵活，易扩展，数据相对冗余。

FAST协议的核心是一个压缩算法，将按照FIX规范定义的数据经过压缩以后，给出一个一个Key15的模板文件，然后在传输过程中只传输Value16，很大程度上降低了行情传输的带宽，减少了行情延迟。

Binary协议即二进制协议，目前被用在深交所和上交所的行情中。在10Gbps及以上局域网内，网络传输延迟大大降低，协议处理延迟变得更为重要，采用Binary协议可以获得整体的低延迟。

数据压缩技术

FIX协议全称FinancialInformationeXchangeProtocol，意为金融信息交换协议。

FAST全称FIXAdaptedforStreaming，意为FIX适配流。

STEP全称SecuritiesTradingExchangeProtocol，意为证券交易数据交换协议。

2、极速柜台

3、极速行情

极速行情的核心是快，更快的行情信息能有效提升策略的收益，更好地为高频量化交易客户服务。极速行情主要分为解码和分发。解码将STEP或Binary编码解出，分为FPGA硬件方案和软件方案。分发则是将解出的行情数据按照定义格式发送给客户，主要有UDP组播和TCP。为了降低传输延时，还可以进行多路合并和行情分隔传输，多路合并可以在不同的阶段接收多路不同的行情数据，根据规则选取最快的行情。行情分隔传输是将不同类的数据通过不同的组播地址或TCP连接传输，达到传输加速的目的。

4、算法交易

算法交易，在国内的定义较多，在此特指交易员在二级市场进行交易时所使用的一种程序化交易方式。起初是交易员根据具体的交易场景选择对应的算法，按照既定规则被动执行交易。后来随着统计分析和人工智能的加入，算法交易变得更加智能，交易逻辑也变得更加黑盒化。

算法交易通过对市场数据的高效分析和预测，对市场做出快速有效的反应，在提升交易绩效的同时，也容易在市场突发事件或程序故障导致交易异常时产生严重的不良影响。算法交易主要有以下几个特点：

（1）全自动执行交易：决策全部由计算机程序完成的，消除人为因素的干扰，快速响应市场的变化。

（2）具有预判功能：绝大多数算法已经不是完全被动执行，都带有一定的预判，以提高执行绩效。

（3）自带风险控制：由于完全自动化执行，为了避免异常情况，独立的风控系统是算法交易必不可少的配置。

5、联合风控

联合风控系统一般采用内存流式计算的方法，并发计算规则，在千万级计算路径下仍可实现微秒级时延水平，对交易时延基本无干扰，真正做到实时的事前风险控制，并满足交易的极速需求。可支持百万级日交易笔数、上千产品量和数千账户数，以及支持包括跨市场跨资产风控，包括但不限于股票、期权、债券、期货等。以证券公司为例，相对于单独的风控系统，联合风控具备控跨市场、跨节点、跨系统等特点，将证券公司的业务全部划入一个风控的联合管理下，可以满足收益互换、做市商等创新业务的公司级联合风控要求，有效地规避了众多的外规及内规风险。

1、净值分析

通过多个风险收益指标，对策略整体的风险、收益表现进行刻画。由于净值数据相对于持仓等其他数据更容易获取，净值分析的方法有很多种。最简单的净值分析是观察净值走势与某些宽基指数的走势，如果走势一致，说明两者的风格非常相似。

2、持仓分析

持仓分析需要获得投资组合以及基准指数中各资产的权重、回报率等信息，在此基础上对组合和基准进一步分层，将组合的回报逐级拆分为配置因素、资产内选择因素等以确定底层资产属性，再细分成风格因素、行业因素等。例如，对前几大持仓股的市值权重变化、日交易量、日换手率的数据进行可视化展示和分析。

3、收益分析

相对基准收益进行收益分解，将组合的收益分解到配置（自上而下）和选股（自下ers上）的维度，需要组合与基准的收益及权重数据。例如，基于策略的收益情况，通过对可视化的累积收益，包括普通和对数轴两种模式下的年化收益统计、月度收益、以及月度收益分布的展示加以具体分析。

4、风险指标分析

根据评估期内策略的滚动beta、sharpe等指标以及几处最大回撤区间，进行风险分析。例如，展示策略组合的历史beta表现，sharpe表现，定位前5大回撤区间。

5、Brinson分析

使用Brinson的模型分解超额收益，可将其量化为主动配置、标的选择和交互效应三部分，从而评估策略相对基准在主动配置和个股选择方面的优劣。

6、多因子分析

通过多因子模型，将组合业绩归因到因子上，例如估值因子、成长因子等。这种模型需要具体的组合权重，个股因子暴露等数据，从而确定组合的因子暴露。例如，使用类似fama-french的模型以及因子构建手段，分析策略收益对策略各个因子的beta。

THE END

中国量化科技白皮书2023.连载（二）

原创解析：大数据分析中的数据清洗与特征工程实践精髓开发网

大数据培训：数据清洗的策略是什么?

数据清洗：大规模数据集清洗策略20240714094501.pdf

数据清洗的深刻意义及流程策略分析

谈谈主数据建设过程中历史数据清理策略和方法

量化策略优化方法.docx

医药企业数据治理的现状痛点与方向新浪财经

数据清洗的关键指标分析方法袋鼠社区

中国量化科技白皮书2023.连载（二）

金工专题基于网格交易法改进的商品套利策略

一招教你看懂纯债债基的真实投资策略来源：宏观交易笔记作者：前海木兰又到一年一度的年终总结之时，各只基金的最终业绩榜单已经出炉，大家朋友圈开始纷纷被基金...

论文目录与摘要

Python量化交易实战：获取股票数据并做分析处理Python教程

快手数据如何分析？数据分析利器FineBI大揭秘！

企业数据采集的关键步骤和技巧方法