针对公安民警开展数据建模方法的研究和实践

2018年3月,公安部科技信息化局以公安基层技术革新奖推荐评选为载体,以公安大数据建设应用为主线,组织开展了“智慧公安我先行”全国公安基层技术革新专项活动。新智认知自主研发的产品“自主数据建模的可视化工具——数模空间”,助力江苏省淮安市公安局一线民警黄河清成功在此次技术革新专项中获奖。其创新成果《针对公安民警开展数据建模方法的研究和实践》,亦被刊载于由公安部第一研究所主办的专业杂志《警察技术》中,现将原文转载如下。

针对公安民警开展数据建模方法的研究和实践

黄河清江苏省淮安市公安局

摘要:近年来,随着物联网、大数据等技术的飞速发展,公安机关掌握的数据资源越来越丰富,对于利用数据支撑业务工作的需求也日趋旺盛。通过搭建可视化建模工具,探索公安民警借助工具理解和操作数据,对数据开展基于业务逻辑的自定义建模方法,解决业务专家无法直接开展数据建模的难题。

关键词:数据模型可视化建模科技创新

引言

在公安业务场景中,民警会从多个信息系统中查询数据,并依据查询结果进行综合分析,做出判断。传统的解决方法是建设一个通用的全文检索系统,对整合后的数据进行综合展现,或是建设定制化的业务信息系统,将业务逻辑封装成为应用模块。这两种方法虽然大大提高了数据对公安工作的支撑作用,但是因为传统信息化开发周期长、架构封闭等问题,导致其难以跟上公安工作随社会发展的演进速度;同时因为在大部分开发过程中,公安机关仅作为需求提供者,导致很多业务模型随系统生命周期结束,无法得到有效的沉淀和积累。

本文旨在探索一种面向广大民警的可视化建模方法,通过放开数据操作权限、赋予可视化建模能力,催生更多警务应用模型。

公安数据模型

从海量数据中发现案件线索的蛛丝马迹,从茫茫人海中找出侦查对象的关联关系,在感知网络中预测未来的社会治安态势,数据对于公安机关来说远不只是存储在物理介质之上的二进制代码。随着警务云基础设施环境逐步成熟,业务信息壁垒逐渐打破,数据标准化程度越来越高,警务数据模型也经历着从传统应用中剥离解耦,从面向应用到面向业务的转变。

业务模型

除法律有明确规定的以外,在人口管理、案件侦破、巡逻防范等许多业务工作中,公安机关通过多年的经验积累、凝练和总结,形成了大量的实用技战法。这些技战法无一不包含着深刻的业务智慧,而业务模型正是这种智慧的有效载体,通过程式化的业务流程对多样化的输入数据进行计算,将业务智慧转化为指导性结果,便于迅捷、精准开展工作。在笔者的实践过程当中,即使是面对同一个场景,不同的业务民警也有可能提出不同的业务模型,且难以区分优劣,传统的应用开发方式需要明确的需求,最后势必只选其一,且可编辑性较差;但面向业务的数据建模方法为模型的原创民警提供了更加开放的平台,组合自由,随想而就,思想间的碰撞也让模型得以更加完善。

数据治理模型

图2案件信息数据治理

各类多源异构数据经过治理融合,再根据业务场景需要分级分类进行存储,为业务工作提供可用性强、关联度高、易于理解的数据基础。

AI算法模型

目前,AI算法模型在公安行业的成功案例主要还是在人像识别、车牌识别等领域,在其他业务场景中AI模型应用较少。事实上,使用机器学习算法对传统模型进行优化,都会促使业务模型趋向精准,算法选型和使用关键还是对机器学习算法本质的认识,通过数学方法寻找梯度提升的方向,找出符合客观实际的最优解。例如情报的积分模型,通过事件触发积分的加减,可以表达为

其中共有N类事件,每类事件产生的积分为wi,事件频次为xi,传统方法是以经验设定各事件产生的积分wi,而如果以经验值作为初始值,设定一定量样本的标签值,用线性回归求解或是通过梯度提升方法,都可以让模型的效率得到提升。

整体架构

图3描述了大数据建模的整体架构。数据运维管理人员通过建立数据汇聚机制,将生产数据向数据中心仓库汇聚,清洗标准化后形成数据资源目录,通过面向广大民警提供高自由度、可视化地数据建模工具,将民警创作的数据模型进行统一管理,并最终以数据服务、定向推送、大屏展示等形式进行结果的展现和应用。

图3大数据建模整体架构

资源适配层

依托淮安市局已有的公安网和警务云计算平台,大数据可视化分析挖掘平台不再建设独立的数据中心,而是通过适配器与市局已建的警务云计算平台进行无缝对接,完成数据的读写,充分利用警务云资源,避免出现数据中心重复性建设的问题。适配器包含中间件服务、环境调试、HDFS接口开发、SPARKsql接口开发、Kerberos接口开发、元数据接口开发等组件。

图4与警务云平台适配架构图

数据流图

大数据可视化分析挖掘平台以sparksql形式使用警务云数据,将分析完的结果数据存储在警务云大数据平台中。

图5数据流向图

可视化建模分析组件

可视化建模分析组件能实现对海量数据的建模分析与数据间的深度挖掘。使用者可以根据自己的业务需要结合大数据综合分析研判工具中提供的强大功能,灵活配置分析模型。支持一键运行分析模型生成比对任务,最终结果通过可视化的逻辑结构展示出来。

采用互联网思维大数据技术,通过可操作的可视化、流程化、组合方式建立比对模型,可以实现数据资源的过滤查询、条件碰撞、交集比对、频次分析、数据合并、分类统计、条件过滤等操作。

可视化模型开发引擎具有以下特点:

(1)模型设计多样化。支持通过基础计算组件的自由组合,按照各类统计分析和技战法等实际需求,搭建关联模型、分类模型、聚类模型、预测模型。

(2)建模应用流程化。实现了从模型设计、任务定制,到应用发布、共享评价的完整的建模应用流程。

(3)建模过程可视化。以非技术专业民警可以理解的业务语言对所有基础算法进行封装,通过结果集可视化展示、模型可视化布局、算法可视化调用,实现建模过程零代码,降低民警建模学习成本。

1.自定义建模工具

自定义建模工具的核心功能由结果集操作组件、自定义条件过滤组件、关联碰撞分析组件、分组统计分析组件、高级分组统计分析组件、偏差分析等组件构成。其中关联碰撞分析中包括对数据集的交集分析、合并结果集分析、差集分析、自连接分析;自定义条件过滤中包括对结果集的二次过滤,函数有等于、小于、大于、区间、模糊查询、精确包含、精确不包含、模糊包含、模糊不包含、自定义正则表达式、字符串截取等函数库。丰富并可扩展的使用手段让分析数据变得简单易操作。

2.结果集操作组件

添加分析结果集支持各类业务数据,包括excel、csv、oracle、mysql等格式的数据衔接。

3.比对过滤分析组件

比对过滤分析主要的使用场景在于数据集的二次查询过滤,里面涵盖强大的函数库操作,使用者可按照条件规则使用平台预设函数完成复杂的查询过滤操作,无论易用性还是实用性都很直观。

4.关联碰撞分析组件

关联碰撞分析支持两个结果集的交集、并集、差集、自连接等操作算法,可自定义比对条件列、自定义结果集的显示列信息。通过灵活的配置达到使用者的要求。

5.高级分组统计组件

对结果集进行分组统计,并且可在此使用比对过滤中的函数库,自定义分组字段、排序字段、分组聚合字段,自定义列与列的计算算法及每组显示前N条数据。高级分组和普通分组的区别在于,高级分组会把符合分组字段的结果依次展示出来,选择分组字段进行分组。

6.偏差分析组件

7.数据清洗组件

可对当前模板表/结果集的数据进行自定义清洗,清洗逻辑以流程化图形展现,清洗结果作为新列合并到模板表/结果集中。

8.自定义建模流程

自定义模型开发引擎具有整套的流程化程序,具有从构建模型、搭建模型任务、模型发布到模型评价的一套完整流程。功能包括模型创建管理和任务的维护管理。定义完的模型,可以一键发布到模型库管理中。在模型库管理中支持对模型评分评价。

9.可视化模型创建

10.模型资源目录

11.模型调度监控

自主建模案例

为深入开展五项基础管控攻坚工作,及时发现排除风险隐患,淮安市局大数据管理支队借助智慧城市建设有利契机,深入开展社会面信息整合挖掘,以大数据为支撑,通过数据建模主动发现外地流入人员,有力提升了我市出租房屋和流动人口管理工作。

1.实有人口数据归集

图6实有人口数据归集

2.失控流动人口挖掘

通过与常住人口、居住证信息比对,发现近期仍有活动记录但没有被公安机关掌握的外地人,经比对共发现约100万条流动人口线索,指向12万名外地人口。

图7失控流动人口挖掘

3.生活信息关联修正

通过随机抽选2014名流动人口线索,在清江浦区开展实地查证,共核查其中1870人,及时发现排除风险隐患12个,数据准确率达到92.850%。

图8生活信息关联修正

应用成效

2016年,淮安市局建设了面向广大民警开展自主数据建模的可视化建模工具——数模空间,共汇聚整合公安内外数据资源500余类。淮安市局通过系统培训、选拔考试,从情报、治安、刑侦等业务条线和基层单位民警中遴选了50名情报分析师,专门开展数据建模工作。在执法办案、人员管控、巡逻防范、交通管理、指挥调度、社区警务、服务民生等方面,搭建了流动人口挖掘分析、人员身份背景核查、嫌疑人员关系挖掘等123个数据模型。

在精确打击方面,通过模型自动将在逃人员与感知网络数据进行计算,并根据民警管辖权限和实时位置将结果直接推送到一线民警手机终端,抓获多名在逃人员和犯罪嫌疑人,改变了传统的民警要在多个平台进行预警布控和值守平台再发布预警指令的方式,大大提高了处置的效率。

在服务民生方面,采取政府数据集中向公安网汇聚,在公安网内进行模型计算再输出结果的方式,为阳光扶贫、社保卡更换、政府一张网工程等多项重点工作提供数据服务,免去了群众办事需要来回开证明的尴尬。

淮安市局不断探索公安民警自主建模之路,让广大民警从数据模型的应用者变成了数据模型的创作者,在实战工作中取得了良好的成效。

参考文献:

[1]李真子,袁安心.基于可视化的建模技术研究[J].计算机工程,2001(01):180-181+190.

[2]卢怀农.嫌疑人物品信息智能采集方法研究[J].警察技术,2016(4):83-86.

THE END
1.数据清洗流程包括哪些步骤?数据清洗是指对采集的数据进行初步处理,使其符合分析要求和标准,从而提高数据质量和可信度的过程。数据清洗流程包括以下六个步骤: 数据收集 数据收集是数据清洗的第一步,这个步骤是获取数据的初始状态,可以是从数据库、API、爬虫等多种途径获得数据。在这一步骤中需要注意的是,要根据需求选择适当的数据源,并确保数据https://www.cda.cn/bigdata/202779.html
2.数据清洗流程方法与流程未命名1.本发明涉及数据清洗流程方法的技术领域,特别是数据清洗流程方法的技术领域。 背景技术: 2.在厨具制造工业数据集成过程中,面临工业数据复杂多样,数据集成过程中的数据质量难以保障;现有的etl(提取-转换-加载)任务脚本调度方案效率低、核心业务数据更新慢,难以适应厨具制造工业大数据环境下的数据集成需求等问题。 https://www.aerohome.com.cn/hangjiahao/136412.html
3.hadoop清洗数据流程mob649e815bbe69的技术博客在大数据处理中,数据清洗是一个重要的步骤。Hadoop作为一个分布式计算框架,可以帮助我们进行高效的数据清洗。本文将介绍使用Hadoop进行数据清洗的步骤和所需的代码。 流程图 开始文本文件导入HDFSMap阶段Reduce阶段结果输出结束 步骤说明 下面将分步骤介绍如何使用Hadoop清洗数据。 https://blog.51cto.com/u_16175464/7074610
4.数据处理全流程解析(如何进行数据处理)当完成这几步操作后,此时数据就已经脱离APP了,开始往数仓的方向流动,数仓承担着接收数据并最终将数据落地到应用的职责。 02 数据是如何被接收的 数据在到达接入层后会经历解包、解析转换、数据清洗、数据存储四个技术流程。只有经过了这一系列的步骤,数据才能够以规整的形式呈现出来,以供下一个环节的消费。 https://www.niaogebiji.com/article-114218-1.html
5.大数据处理流程中数据清洗工作是在()阶段完成。大数据处理流程中数据清洗工作是在()阶段完成。 "大数据处理流程中数据清洗工作是在()阶段完成。"这道题的答案是什么呢,答案在下文中哦。 大数据处理流程中数据清洗工作是在()阶段完成。 A.数据采集 B.数据预处理和导入 C.数据存储和管理 D.数据分析和挖掘https://www.duote.com/tech/tiku/279635.html
6.视频图像数据治理方法流程是什么?视频数据治理的方法流程: 视频数据治理方法主要分为三种类型,分别是: 通过视频监测数据进行实时监控:可将存储的录像中任意时间点的图像信息提取出来,再结合录像内容及历史信息进行分析、比对,可以对海量视频监控数据进行清洗,获取有效的有用信息,为实现智能分析与预警提供重要支持。 通过视频大数据分析平台实现对海量视频图https://www.goodidea168.com/gddt/37971
7.数据标注实战指南:从入门到精通2. 数据清洗 数据清洗是确保数据质量的关键步骤。包括去除重复数据、处理缺失值、消除噪声等,以提高数据的准确性和一致性。 3. 数据预处理 预处理是将数据转换成适合机器学习算法使用的格式。例如,将文本数据转换成数值数据,将图像数据转换成向量数据等。 4. 数据标注 这是数据标注流程的核心阶段。标注者需根据任务https://developer.baidu.com/article/details/3331095
8.大数据分析的流程有哪些帆软数字化转型知识库大数据分析的流程包括数据收集、数据清洗、数据存储、数据处理、数据分析、数据可视化、结果应用。其中数据清洗是确保分析准确性和可靠性的重要步骤。数据清洗涉及去除数据中的噪声、填补缺失值、处理异常值等操作。这个步骤至关重要,因为脏数据会导致分析结果失真,影响决策的准确性。通过数据清洗,可以提高数据质量,为后续的https://www.fanruan.com/blog/article/77573/
9.数据分析的八个流程8、报告撰写。 1、目标的确定 这一步在工作中通常是由你的客户/上级/其他部门同事/合作方提出来的,但第一次的数据报告中,需要你自己来提出并确定目标。 数据分析的八个流程 企服解答 数据分析的八个流程包括:1、目标的确定;2、数据获取;3、数据清洗;4、数据整理;5、描述分析;6、展现和输出;7、洞察结论;8https://36kr.com/p/1491281074089859
10.大数据应用的开发流程大数据常见处理流程包括:原始数据采集、数据清洗、数据存储、统计分析、存储至数据仓库、数据导出、导入数据库、数据可视化。 图片来源:学堂在线《大数据导论》 一、原始数据采集 原始数据采集的方式包括:爬虫程序采集、应用数据采集。 爬虫程序采集可在互联网中爬取需要的数据。 https://www.elecfans.com/d/2015923.html
11.面向公众版“天地图”的地名地址数据库动态更新方法*收集民政局的门牌及地名数据、工商局的企事业单位登记信息、公安局的地址信息以及其他来源的地名地址信息。以上一期“天地图”地名地址数据库为本底数据并继承其数据结构、要素分类与编码。提取基础地理信息数据库的注记、居民地、道路等图层。按照一定的清洗规则和相关流程把相似重复、不一致、属性缺失的信息进行数据清洗,https://www.fx361.com/page/2022/0424/15802407.shtml
12.RNAseq的分析流程和原理虽然转录组比对相关软件和流程同样层出不穷,但对于基因组信息较为完善的模式物种,推荐使用基因组比对的方式进行分析,具体原因下文的“比对”部分会有说明。我们下面也主要对基因组比对的方法进行介绍。 1. 数据清洗(Data cleaning) Illumina测序仪下机的数据通常为Bcl格式,是将同一个测序通道(Lane)所有样品的数据混杂http://m.yunbios.net/cn/h-nd-1079.html
13.hadoop处理数据的流程是什么问答Hadoop处理数据的流程可以分为以下几个步骤:1. 数据准备:将原始数据加载到Hadoop分布式文件系统(HDFS)中,并根据需要进行数据清洗、转换和预处理。2. 数据切分:将数据切分为适当https://www.yisu.com/ask/81214178.html