新收费模式下的数据稽核分析系统|数据清洗的意义_家电

作者：李超（四川智能交通系统管理有限责任公司）

摘要：全国高速公路取消省界收费站后，收费模式发生了巨大变化，收费稽核也面临全新挑战。新增的收费数据源和激增的数据交易量既给收费稽核工作带来了新的挑战，也提供了新的可能。在此背景下，本文提出了利用现有入出口收费数据、门架数据、牌识数据、ETC发行数据等建立数据稽核分析系统的思路，实现对逃费车辆的精准快速筛选。

全国取消高速公路省界收费站后，进入高速公路“一张网”运行模式，大大提高了高速公路的通行效率，但快捷的出行方式也给收费稽核带来巨大的挑战：一是撤站后，单趟次收费金额激增，偷逃通行费所带来的高额利润驱使逃费手段层出不穷[1]；二是新收费模式下采用分段计费方式，在一次通行中除了出入口交易流水外，还会产生门架交易流水、牌识流水等数据，数据类型更为多元化，数据量呈现倍数增长[2]。面对海量且零散的数据，以人工稽核为主、手段单一的传统稽核方式明显支撑力不足、难以应付新的稽核技术要求[3]。如何利用好这些海量的收费数据，建立数据稽核分析系统，准确筛选出逃费车辆，成为收费稽核工作中的重点与难点[4]。一套完整的数据稽核分析系统应该具备数据采集、基础支撑、模型分析及业务对接处理的基本功能模块。

一

数据采集子系统

系统大数据平台对采集的数据进行数据标准化处理清洗，并按照标准化格式进行存储，为后续数据处理与应用提供数据服务。根据业务需要，对采集数据按一定的统计规则和模型进行组装、汇聚，根据不同维度汇总数据，支撑业务系统的数据需求。

（一）数据采集

系统主要的数据采集方式如表所示。

数据稽核分析系统数据采集方式一览表

（二）数据清洗服务

系统对采集后的数据进行标准化处理。按不同的业务域汇总存储，按中心业务系统要求提供定制格式的聚合数据、汇总数据、明细数据，满足省中心业务系统的建设数据要求。

1、数据标准化

对系统接收数据进行清洗，仅保留稽核分析系统所需内容，存储到数据服务平台的标准表结构中。标准化后的数据是大数据平台标准格式的基础数据，为后续数据处理与应用提供数据服务。同时可根据硬件设备存储情况长期保留，体现历史数据价值。

2、数据实时处理

对于需要实时应用的数据，采用实时大数据处理技术对标准化后的数据加工处理后，提供给业务系统使用，体现数据时效性。

3、数据汇总处理

数据汇总处理是数据服务平台的核心任务。需按不同业务域对采集数据进行组装、汇聚，根据不同维度汇总数据，支撑基于此平台业务系统的数据需求，同时保障数据传输的完整性校验。

二

基础支撑子系统

（一）基于路网模型的路径还原

基于图论原理，将高速公路路网门架点、互通和收费站解析为“点”，两个有序点间形成“边”。在实际处理过程中，根据车辆路径信息匹配通过的“点”并推导出车辆遍历的“边”，最终在“图”中还原车辆路径，形成后续路径还原的关键基础。

如图1所示，图中为路网区域，图中定义：Li为路段编号，Ni为路由连接点编号，fi为路径标识编号，Si为收费站编码。

图1假设路网的各元素分布示意图

1、路网中有6条路段，分别是L1、L2、L3、L4、L5、L6。

2、路网中有9个路由节点，分别是：L1与L4相交于路由连结点N1；……；L3与L6相交于路由节点N9。以及路段的起始点N10，……，N20。

3、路由连接点以虚拟连通站表示N1（VSn11,VSn12)、N1（VSn21,VSn22)……

4、路网中环路上的每边设置标识站，图中用f1、f2、……、f11表示。

5、路网中的实际收费站，用S1、S2、……、Sn表示。

基于上述的路网各自元素的定义，结合图论对整个路网简化成有向图：以收费站S、虚拟连通站VS为顶点，以之间的路径为边。

图1中边的权值可定义为站点间的里程，结合如图2所示的路网抽象图可进一步转换为以收费站、虚拟连通站为顶点，以相互之间里程为边的邻接矩阵G。其描述如下：

Wij若顶点Vi，Vj相邻接

G[i.j]={∞若顶点Vi，Vj不邻接、不互通

0若顶点Vi，Vj属于统一路由节点，且互通

其中，Wij表示边上的权值。

通过路网解析和元素定义，结合统一的单源最短路径寻优规则（即按最短路径寻优），则可构建出路径还原模型中的关键参数组成：路网节点编码表、路段内站点信息表和路由节点表。

图2基于假设路网简化而成的模型抽象图

（二）智能型车型信息库

基于车辆历史出口流水、入口治超流水、省界门架车型识别流水、门架计费扣费流水和稽核确认流水建立基础车型信息库。通过持续收集稽查确认逃费数据、车型识别数据、治超数据，结合车辆信息库自学习能力，逐步提升信息库的准确性和完整性。

三

逃费分析子系统

对于逃费嫌疑数据的分析，从逃费场景出发，对大车小标（货车客标）、车型不符、移动标签、超时行驶、短途重载、屏蔽通行介质、同车牌倒卡、有入无出、同向换卡、对向换卡、非法掉头、甩挂换挂、假冒节假日免费车辆、假冒绿通优惠车辆等逃费行为进行数据分析。围绕入出口交易流水、车型识别流水、车牌识别流水、入口治超、绿通查验、门架计费扣费流水、门架车牌识别流水记录、交易拆分等数据，根据不同逃费行为形成逃费特征分析库，结合各省实际的数据特征构建逃费分析模型。同时结合大数据技术，最终筛选出不同类型的嫌疑逃费流水。

（一）改变车型逃费

改变车型逃费主要指车辆当次通行的实际车型与计费使用的车型不一致，出口计费使用车型偏小，导致少收通行费的情况。通行本省的车辆包括两种情况：本省入口的车辆，以及外省入口、通过本省省界入口门架的车辆。本省入口的车辆有入口流水，货车有入口治超流水和图像，可进行数据分析和取证；外省入口车辆，仅有省界门架流水，没有入口流水和入口治超数据，存在车型异常时本省没有相应数据支撑。针对外省入口车辆，可通过入口省界门架增加车型识别设备，采集通过车辆的车型和图像，完善车辆车型信息库和提供逃费取证图像。

1、入口省界车型分析

稽核分析系统将入口省界门架车型识别流水与门架计费扣费流水对比，筛选出设备识别车型与门架计费车型不一致的流水，进行稽核确认。

2、大车小标分析

大车小标主要指ETC车主通过办理比实际车型更小的ETC标签，从而达到少缴通行费的目的。稽核分析系统可通过收集车辆的历史CPC过车车型，并取通行次数最多的车型作为标准，比较每次ETC的过车车型。

3、货车客标分析

货车客标主要指货车车主办理使用客车标签，从而达到少缴通行费的目的。可通过收集车辆的历史CPC过车车型，并取通行次数最多的车型作为标准，比较每次ETC的过车车型。

4、车型不符

根据采集的出口流水、入口治超流水、车型识别流水和稽核确认流水，通过大数据和算法构建车辆信息库，并以出口流水中的车型与车辆信息库进行对比，筛选同一车牌不同通行记录存在不同车型的情况，筛选同一车牌的出口流水中车型与车辆信息库的车型不一致的流水。针对货车，结合当次入口轴数和历史通行记录的车型进行分析，筛选入口丟轴、出口错判等少收漏收情况，其中牵引车（J1/J2型车）等的ETC车辆按车型不符特殊处理。

5、甩挂换挂分析

针对车辆的入口车型与出口车型不一致，或者省界入口门架的识别车型与出口车型不一致的问题，系统对比同一次行程本省的入出口车道或者门架的车型不一致的情况。

（二）改变路径逃费

改变路径的逃费行为包括闯关车、跟车冲卡车、移动标签、超时行驶、有入无出、短途重载、屏蔽通行介质、同车牌倒卡、同向换卡、对向换卡、非法掉头、甩挂换挂等一种或者多种逃费行为结合、一辆或多辆逃费车辆同时作案结合。系统总的分析思路为：根据其他非5.8G的数据（包括两客一危、北斗数据、牌识数据、车辆二次识别数据）进行真实行驶路径还原，与通行介质收费路径进行匹对。

1、同车牌倒卡分析

2、有入无出分析

当车辆通过闯关、跟车、插队、私挖便道、旁道干扰、收费员私放、误放、车道交易失败等情况出高速时，当次通行未进行正常收费且未产生出口流水。系统分析车牌、CPC卡号和标签号，通过入口站流水和省界门架入口流水，筛选出没有出口站流水或者省界出口流水的情况，定位到当次通行的入口流水。

3、屏蔽介质分析

车辆通行过程中，通过屏蔽通行介质的方式导致门架漏计费，达到出口少缴费的目的。屏蔽介质主要与倒卡、换卡、循环行驶等逃费行为关联。系统通过对车辆通行的门架计费扣费流水和门架牌识流水进行对比，筛选出经常出现存在门架牌识、但没有门架交易的车辆，再根据拆分结果的实际收费路径与实际通行路径对比，筛选出现多个漏收门架的车辆流水。

4、非法掉头分析（U/J型车辆）

车辆通过服务区便道或施工道口时非法掉头，因路径不完整，出口使用最小费额计费，达到少缴通行费目的。系统通过对车辆过车记录进行整理，筛选出一次通行过程中存在同一门架不同方向的记录，或者通过路网模型进行路径还原，筛选出存在路径不可达的异常记录。

5、网内循环行驶分析

车辆通过服务区便道、施工道口、互通立交等时非法掉头，网内循环行驶以便倒换货物，从而少缴通行费。系统通过整理车辆过车记录，筛选一次通行过程中存在同一门架、不同方向的记录或多次经过同一门架的记录，结合超时在途特征等进行分析。

（三）改变车种逃费

改变车种主要指普通收费车通过假冒免费车等方式达到不缴费目的，通常包括假冒节假日优惠车、绿通车或其他免费车辆。

1、假冒节假日优惠车

非一型车在节假日通过节假日专用车道进行逃费。系统通过门架交易和牌识记录筛选节假日通行但未收费的非一型免费车。

2、假冒绿通车

（四）其他逃费分析

车辆通行过程中，采用多种逃费方式进行逃费时，逃费数据特征不明显，此时可重点依靠牌识流水进行分析。主要包括无入无出分析、入出口重量不一致分析、移动标签分析等。

1、无入无出分析

车辆通行时产生门架牌识流水，但没有出口牌识流水和出口交易流水产生，系统则判定为车辆可能存在循环行驶、倒挂、换挂、换货的逃费嫌疑。

2、入出口重量不一致分析

车辆换挂、倒货，采用相同的挂车进行换挂逃费，两车的货物并装在一辆车进行长距离运输。系统可通过分析车辆入出口的重量筛选嫌疑流水。

3、移动标签分析

ETC车辆使用的标签中的车牌与实际车牌不一致，包括货车使用客车标签、大车使用小车标签、收费车使用免费车标签，系统可进行嫌疑车辆筛选。

四

分析结果对接子系统

1、分析结果对接

将稽核分析系统分析产生的逃费嫌疑流水与稽核业务系统对接，通过推/拉的方式将数据同步至稽核业务系统。业务系统针对不同逃费行为的分析结果进行数据展示，供稽查人员确认。

2、稽核结果同步

嫌疑逃费流水确认后（逃费/未逃费），将结果反馈给至数据分析子系统，用于提升稽查分析子系统的准确度和记录结果。

3、追逃结果对接

逃费名单追缴后，将追缴结果同步到分析子系统，统计最终追逃率和提升稽查分析子系统的稽查数据分析准确度。

4、追缴名单获取

同步当下省内名单和全国追缴名单，以便系统在分析数据过程中，增加名单中车辆的因子权重，同时也避免重复数据分析。

五

结束语

稽核分析系统是辅助高速公路经营管理单位打击偷逃通行费行为、维护收费秩序、保障高速公路正常运营的重要工具。通过建立高性能的数据稽核分析系统，可增强数据挖掘分析能力，实现对稽核追缴业务强有力的支撑，对维护全网高速公路收费营运秩序具有十分重要的意义。

网址：www.sxjlrj.com

地址：山西省综改示范区瑞杰科技中心A座301-302、315-316室

THE END

新收费模式下的数据稽核分析系统

实现数据价值的三部曲：数据清洗数据处理和数据集成

数据清洗的深刻意义及流程策略分析

飞渡科技为客户提供数字孪生园区城市解决方案

数据清洗研究综述20231108.docx

数据清洗与数据集成egospace

使用Python对零售商品进行数据分析python

数据清洗范文

吴湘华：推进年鉴融合出版，会聚权威数据支撑产业互联网发展

erp对接是什么意思erp对账是什么

数据质量和数据清洗研究综述20240502094258.docx

如何做数据分析？重要性及其作用

机器学习实战机器学习特征工程最全解读

如何利用大模型分析用户数据，提升数字化营销的效果

新收费模式下的数据稽核分析系统

CDALEVELⅡ?数据分析师考试?纲

ETL的三大功能详解

一招教你看懂纯债债基的真实投资策略来源：宏观交易笔记作者：前海木兰又到一年一度的年终总结之时，各只基金的最终业绩榜单已经出炉，大家朋友圈开始纷纷被基金...

数据清洗是什么，有哪些处理方法