针对公安民警开展数据建模方法的研究和实践

2018年3月,公安部科技信息化局以公安基层技术革新奖推荐评选为载体,以公安大数据建设应用为主线,组织开展了“智慧公安我先行”全国公安基层技术革新专项活动。新智认知自主研发的产品“自主数据建模的可视化工具——数模空间”,助力江苏省淮安市公安局一线民警黄河清成功在此次技术革新专项中获奖。其创新成果《针对公安民警开展数据建模方法的研究和实践》,亦被刊载于由公安部第一研究所主办的专业杂志《警察技术》中,现将原文转载如下。

针对公安民警开展数据建模方法的研究和实践

黄河清江苏省淮安市公安局

摘要:近年来,随着物联网、大数据等技术的飞速发展,公安机关掌握的数据资源越来越丰富,对于利用数据支撑业务工作的需求也日趋旺盛。通过搭建可视化建模工具,探索公安民警借助工具理解和操作数据,对数据开展基于业务逻辑的自定义建模方法,解决业务专家无法直接开展数据建模的难题。

关键词:数据模型可视化建模科技创新

引言

在公安业务场景中,民警会从多个信息系统中查询数据,并依据查询结果进行综合分析,做出判断。传统的解决方法是建设一个通用的全文检索系统,对整合后的数据进行综合展现,或是建设定制化的业务信息系统,将业务逻辑封装成为应用模块。这两种方法虽然大大提高了数据对公安工作的支撑作用,但是因为传统信息化开发周期长、架构封闭等问题,导致其难以跟上公安工作随社会发展的演进速度;同时因为在大部分开发过程中,公安机关仅作为需求提供者,导致很多业务模型随系统生命周期结束,无法得到有效的沉淀和积累。

本文旨在探索一种面向广大民警的可视化建模方法,通过放开数据操作权限、赋予可视化建模能力,催生更多警务应用模型。

公安数据模型

从海量数据中发现案件线索的蛛丝马迹,从茫茫人海中找出侦查对象的关联关系,在感知网络中预测未来的社会治安态势,数据对于公安机关来说远不只是存储在物理介质之上的二进制代码。随着警务云基础设施环境逐步成熟,业务信息壁垒逐渐打破,数据标准化程度越来越高,警务数据模型也经历着从传统应用中剥离解耦,从面向应用到面向业务的转变。

业务模型

除法律有明确规定的以外,在人口管理、案件侦破、巡逻防范等许多业务工作中,公安机关通过多年的经验积累、凝练和总结,形成了大量的实用技战法。这些技战法无一不包含着深刻的业务智慧,而业务模型正是这种智慧的有效载体,通过程式化的业务流程对多样化的输入数据进行计算,将业务智慧转化为指导性结果,便于迅捷、精准开展工作。在笔者的实践过程当中,即使是面对同一个场景,不同的业务民警也有可能提出不同的业务模型,且难以区分优劣,传统的应用开发方式需要明确的需求,最后势必只选其一,且可编辑性较差;但面向业务的数据建模方法为模型的原创民警提供了更加开放的平台,组合自由,随想而就,思想间的碰撞也让模型得以更加完善。

数据治理模型

图2案件信息数据治理

各类多源异构数据经过治理融合,再根据业务场景需要分级分类进行存储,为业务工作提供可用性强、关联度高、易于理解的数据基础。

AI算法模型

目前,AI算法模型在公安行业的成功案例主要还是在人像识别、车牌识别等领域,在其他业务场景中AI模型应用较少。事实上,使用机器学习算法对传统模型进行优化,都会促使业务模型趋向精准,算法选型和使用关键还是对机器学习算法本质的认识,通过数学方法寻找梯度提升的方向,找出符合客观实际的最优解。例如情报的积分模型,通过事件触发积分的加减,可以表达为

其中共有N类事件,每类事件产生的积分为wi,事件频次为xi,传统方法是以经验设定各事件产生的积分wi,而如果以经验值作为初始值,设定一定量样本的标签值,用线性回归求解或是通过梯度提升方法,都可以让模型的效率得到提升。

整体架构

图3描述了大数据建模的整体架构。数据运维管理人员通过建立数据汇聚机制,将生产数据向数据中心仓库汇聚,清洗标准化后形成数据资源目录,通过面向广大民警提供高自由度、可视化地数据建模工具,将民警创作的数据模型进行统一管理,并最终以数据服务、定向推送、大屏展示等形式进行结果的展现和应用。

图3大数据建模整体架构

资源适配层

依托淮安市局已有的公安网和警务云计算平台,大数据可视化分析挖掘平台不再建设独立的数据中心,而是通过适配器与市局已建的警务云计算平台进行无缝对接,完成数据的读写,充分利用警务云资源,避免出现数据中心重复性建设的问题。适配器包含中间件服务、环境调试、HDFS接口开发、SPARKsql接口开发、Kerberos接口开发、元数据接口开发等组件。

图4与警务云平台适配架构图

数据流图

大数据可视化分析挖掘平台以sparksql形式使用警务云数据,将分析完的结果数据存储在警务云大数据平台中。

图5数据流向图

可视化建模分析组件

可视化建模分析组件能实现对海量数据的建模分析与数据间的深度挖掘。使用者可以根据自己的业务需要结合大数据综合分析研判工具中提供的强大功能,灵活配置分析模型。支持一键运行分析模型生成比对任务,最终结果通过可视化的逻辑结构展示出来。

采用互联网思维大数据技术,通过可操作的可视化、流程化、组合方式建立比对模型,可以实现数据资源的过滤查询、条件碰撞、交集比对、频次分析、数据合并、分类统计、条件过滤等操作。

可视化模型开发引擎具有以下特点:

(1)模型设计多样化。支持通过基础计算组件的自由组合,按照各类统计分析和技战法等实际需求,搭建关联模型、分类模型、聚类模型、预测模型。

(2)建模应用流程化。实现了从模型设计、任务定制,到应用发布、共享评价的完整的建模应用流程。

(3)建模过程可视化。以非技术专业民警可以理解的业务语言对所有基础算法进行封装,通过结果集可视化展示、模型可视化布局、算法可视化调用,实现建模过程零代码,降低民警建模学习成本。

1.自定义建模工具

自定义建模工具的核心功能由结果集操作组件、自定义条件过滤组件、关联碰撞分析组件、分组统计分析组件、高级分组统计分析组件、偏差分析等组件构成。其中关联碰撞分析中包括对数据集的交集分析、合并结果集分析、差集分析、自连接分析;自定义条件过滤中包括对结果集的二次过滤,函数有等于、小于、大于、区间、模糊查询、精确包含、精确不包含、模糊包含、模糊不包含、自定义正则表达式、字符串截取等函数库。丰富并可扩展的使用手段让分析数据变得简单易操作。

2.结果集操作组件

添加分析结果集支持各类业务数据,包括excel、csv、oracle、mysql等格式的数据衔接。

3.比对过滤分析组件

比对过滤分析主要的使用场景在于数据集的二次查询过滤,里面涵盖强大的函数库操作,使用者可按照条件规则使用平台预设函数完成复杂的查询过滤操作,无论易用性还是实用性都很直观。

4.关联碰撞分析组件

关联碰撞分析支持两个结果集的交集、并集、差集、自连接等操作算法,可自定义比对条件列、自定义结果集的显示列信息。通过灵活的配置达到使用者的要求。

5.高级分组统计组件

对结果集进行分组统计,并且可在此使用比对过滤中的函数库,自定义分组字段、排序字段、分组聚合字段,自定义列与列的计算算法及每组显示前N条数据。高级分组和普通分组的区别在于,高级分组会把符合分组字段的结果依次展示出来,选择分组字段进行分组。

6.偏差分析组件

7.数据清洗组件

可对当前模板表/结果集的数据进行自定义清洗,清洗逻辑以流程化图形展现,清洗结果作为新列合并到模板表/结果集中。

8.自定义建模流程

自定义模型开发引擎具有整套的流程化程序,具有从构建模型、搭建模型任务、模型发布到模型评价的一套完整流程。功能包括模型创建管理和任务的维护管理。定义完的模型,可以一键发布到模型库管理中。在模型库管理中支持对模型评分评价。

9.可视化模型创建

10.模型资源目录

11.模型调度监控

自主建模案例

为深入开展五项基础管控攻坚工作,及时发现排除风险隐患,淮安市局大数据管理支队借助智慧城市建设有利契机,深入开展社会面信息整合挖掘,以大数据为支撑,通过数据建模主动发现外地流入人员,有力提升了我市出租房屋和流动人口管理工作。

1.实有人口数据归集

图6实有人口数据归集

2.失控流动人口挖掘

通过与常住人口、居住证信息比对,发现近期仍有活动记录但没有被公安机关掌握的外地人,经比对共发现约100万条流动人口线索,指向12万名外地人口。

图7失控流动人口挖掘

3.生活信息关联修正

通过随机抽选2014名流动人口线索,在清江浦区开展实地查证,共核查其中1870人,及时发现排除风险隐患12个,数据准确率达到92.850%。

图8生活信息关联修正

应用成效

2016年,淮安市局建设了面向广大民警开展自主数据建模的可视化建模工具——数模空间,共汇聚整合公安内外数据资源500余类。淮安市局通过系统培训、选拔考试,从情报、治安、刑侦等业务条线和基层单位民警中遴选了50名情报分析师,专门开展数据建模工作。在执法办案、人员管控、巡逻防范、交通管理、指挥调度、社区警务、服务民生等方面,搭建了流动人口挖掘分析、人员身份背景核查、嫌疑人员关系挖掘等123个数据模型。

在精确打击方面,通过模型自动将在逃人员与感知网络数据进行计算,并根据民警管辖权限和实时位置将结果直接推送到一线民警手机终端,抓获多名在逃人员和犯罪嫌疑人,改变了传统的民警要在多个平台进行预警布控和值守平台再发布预警指令的方式,大大提高了处置的效率。

在服务民生方面,采取政府数据集中向公安网汇聚,在公安网内进行模型计算再输出结果的方式,为阳光扶贫、社保卡更换、政府一张网工程等多项重点工作提供数据服务,免去了群众办事需要来回开证明的尴尬。

淮安市局不断探索公安民警自主建模之路,让广大民警从数据模型的应用者变成了数据模型的创作者,在实战工作中取得了良好的成效。

参考文献:

[1]李真子,袁安心.基于可视化的建模技术研究[J].计算机工程,2001(01):180-181+190.

[2]卢怀农.嫌疑人物品信息智能采集方法研究[J].警察技术,2016(4):83-86.

THE END
1.数据清洗的重要性与技巧:提升大数据分析的准确性和效率提升模型性能:在机器学习和数据分析领域,模型的性能在很大程度上依赖于输入数据的质量。数据清洗包括特征选择和特征工程,这些步骤可以帮助模型更好地识别数据中的模式,从而提高模型的预测能力。 节省时间和资源:在数据分析的早期阶段进行数据清洗可以避免在后续阶段进行昂贵的修正。自动化数据清洗流程可以进一步节省时间和资https://blog.csdn.net/Shaidou_Data/article/details/144110971
2.国外客商数据清洗示例不完整的数据会污染数据库,降低其业务质量。 数据清洗,通常也称为数据清理,实际上不是对数据库的单个活动,而是涉及多种技术使用的整个过程。他们的目标是:拥有一个干净、可靠、一致和完整的数据库。干净的数据无非就是高质量的数据,我们可以信任的数据,并可以根据这些数据做出正确的决策。在商业领域,据估计每年有25https://36kr.com/p/2707385155614849
3.数据清洗的概念及实战案例(配图)!!!51CTO博客# 数据分析的过程和别的过程没什么区别 只要明确思路 其他都不难 拿做菜举例 # 类比定义 数据分析过程 做菜过程 明确需求 明确做什么菜品 收集采集 去菜市场买菜 数据清洗 洗菜切菜配菜 数据分析 炒菜 数据报告 + 数据可视化 拍照发朋友圈吃 # 专业定义 https://blog.51cto.com/u_15127637/4278148
4.数据清洗HRTechChina.com如何清洗人力资源分析数据?给你6个详细的步骤指南!数据清理是人力资源分析中的关键因素。在你分析数据之前,你需要对数据进行 "清洁"。在这篇数据清理指南中,我们将解释为什么数据清理很重要,以及你如何进行数据清理。在文章的底部,我们附上了一个有用的数据清洗信息图。 在数据分析中常说的一句话是。"垃圾进,垃圾https://www.hrtechchina.com/tag/%E6%95%B0%E6%8D%AE%E6%B8%85%E6%B4%97/
5.如何进行数据清洗和预处理?如何进行数据清洗和预处理? 收藏 在数据分析和机器学习任务中,数据清洗和预处理是非常重要的步骤。这些过程可以帮助我们从原始数据中提取有价值的信息,并减少由于数据质量问题导致的误差和偏差。 本文将介绍数据清洗和预处理的基本步骤和技术,并提供一些实践建议和例子。https://www.cda.cn/bigdata/202679.html
6.“是什么让我们‘一见钟情’?”——基于“快速约会”数据的分析及我们常说“一见钟情”,但又是什么因素导致了一见钟情呢?哥伦比亚大学的一项基于一次“快速约会”结果的实验数据给我们提供了丰富的研究背景。利用一些数据科学中基本的数据处理手段以及R中的可视化工具,我们获得了许多有趣的结论。 二、数据清洗 此数据集原本有195列数据。但是考虑到我们的目标是预测两人配对http://www.stat.tsinghua.edu.cn/student-achievement-display/%E6%98%AF%E4%BB%80%E4%B9%88%E8%AE%A9%E6%88%91%E4%BB%AC%E4%B8%80%E8%A7%81%E9%92%9F%E6%83%85%EF%BC%9F-%E5%9F%BA%E4%BA%8E%E5%BF%AB%E9%80%9F/
7.Prompt用得好,增长工作下班早1.数据清洗 你是一位资深数据分析师,具备深厚的数据分析技能与行业经验。你擅长应用各种数据分析工具和技术,对数据进行挖掘、整合、分析,现在我有一份销售数据,是jason格式的,帮我把数据处理一下,直接输出表格。 2.找数据分析思路 你是一位XX行业的市场营销分析专家,请根据这份数据集合,给出4个不同方向的分析主题https://www.niaogebiji.com/article-645093-1.html
8.玩转逻辑回归之金融评分卡模型消费金融风控联盟数据预处理主要包括数据清洗,变量分箱和 WOE 编码三个步骤。 2.3.1 数据清洗 数据清洗主要是对原始数据中脏数据,缺失值,异常值进行处理。关于对缺失值和异常值的处理,我们采用的方法非常简单粗暴,即删除缺失率超过某一阈值(阈值自行设定,可以为30%,50%,90%等)的变量,将剩余变量中的缺失值和异常值作为一种状态https://www.shangyexinzhi.com/article/5177142.html
9.如何用Excel实现多重条件匹配与分段计价日记2、生成的Excel不能直接使用,需要数据清洗。大概就是: a、去掉样式,去掉空白行列。 b、替换无法识别的字符,数据转为纯数字。 c、从文本中识别数据,比如要将9行和11行的包裹类型、长、宽、高提取出来,转化为我们需要的标准化数据表格式,这种格式能够被函数识别并匹配包裹类型和报价。 https://m.douban.com/note/815266757
10.机器学习数据清洗之识别异常点数据是现代社会中的一种宝贵资源,但在利用数据之前,我们需要进行数据清洗以确保数据的质量和准确性。 异常值是数据中常见的问题之一,它们可能会对分析和建模产生负面影响,因此识别和处理异常值是数据清洗过程中的重要步骤之一。 本文将介绍异常值的概念、危害以及与缺失值的比较,并探讨了多种识别异常值的方法,包括基于https://www.jianshu.com/p/6676be6cdae4