导出多年微信聊天记录，我用可视化分析了出自己的口头禅|数据清洗的例子_家电

为了能让读者对本文实现的效果有最直观的感受，本文中有四个实践案例，最后生成的图片如下：

准备工作：为了全面分析聊天记录，我们先要进行数据同步。将移动设备上的聊天记录都同步到MacBook上。在移动设备上点击「设置>通用>聊天记录迁移与备份>迁移」并根据实际情况选择「迁移全部聊天记录」或者「迁移指定聊天记录」。以笔者的52GB聊天记录为例，花了50分钟左右。

目前macOS平台有Intel和arm两种架构，两个构架使用的获取密钥的方法不同，请根据自己的MacBookCPU构架，选择对应的解密方式操作。

加密密钥在第二行，也就是353e开头的那行，但是这个十六进制的密钥，所以在实际使用的时候，需要在前面加上0x这两个字符，下一步使用这个密钥的时候会再具体说明。

安装lldb：lldb是Xcode内置的开发者工具，可以用来调试C/OC/C++/Swift程序的调试器。为了能够使用lldb，需要先安装一下开发者工具。在终端中执行lldb命令，弹出如下所示的提示框，那就是说明没有安装过lldb，根据指示进行安装即可。如果以前执行过xcode-select--install或者已经安装过Homebrew的话，电脑上应该已经有了这个工具。

正确安装lldb之后可以尝试输出版本号，如果能够正确输出版本号，就代表着安装成功了。如下图所示作者使用的lldb版本是：lldb-1403.0.17.67

输入命令brset-nsqlite3_key即可，lldb回显：Breakpoint1:2locations.，说明lldb已经成功在这两个地方打上了断点。

然后继续输入命令c回车即可，lldb回显：Process59241resuming，此处的c即为continue，执行完这条命令之后，程序就能正常继续向下执行，直到触发断点。

最后一步，输出内存里的密钥值。在日常生活中，大家可能听说过：「电脑上临时存储数据，经常会说把数据存在内存里，因为这样比较快等类似的话」。但是很少有人会直接跟内存去打交道。但是现在在lldb的帮助下，就可以直接读取到内存的值，此处要读取的就是数据库的密钥。

IntelCPU构架命令memoryread--size1--formatx--count32$rsi

armCPU架构命令memoryread--size1--formatx--count32$x1

对比上一个小节，使用ptrsx-dumper获取的密钥：353e9afab4b6422981d110d65e6d555557f1aca0afaa4431a5dab66fef384596，除了开头需要手动补全的0x之外完全一致。

在打开的Finder中，向外回退两层目录，所有的msg_数字.db里面存储的都是聊天记录。

#在桌面上创建WeChatDB目录mkdir~/Desktop/WeChatDB#切换到数据库文件所在的目录，不要直接复制此处的路径，直接从Finder拉到终端里cd/Users/james/Library/Containers/com.tencent.xinWeChat/Data/Library/Application\Support/com.tencent.xinWeChat/2.0b4.0.9/5a22781f14219edfffa333cb38aa92cf/Message#把所有的msg数据库文件拷贝到WeChatDB目录cpmsg*.db~/Desktop/WeChatDB#在WeChatDB目录里创建空文件夹，从db0到db9mkdir~/Desktop/WeChatDB/db{0..9}最终效果如下图所示，把所有的db数据库文件都拷贝到新建的WeChatDB目录下，并创建了从db0到db9十个空文件夹。

使用DBBrowserforSQLite任意打开一个数据库文件，此处有三个注意点：

密码类型：选择「原始密钥」

密码，第一种使用ptrsx-dumper获取到的密码前面没有0x字符，需要自己手动加上，第二种Python解析出来的密码可以直接使用，例如此处作者填写的密码就是：0x353e9afab4b6422981d110d65e6d555557f1aca0afaa4431a5dab66fef384596

加密设置：选择「SQLCipher3默认」

切换到「浏览数据」选项，通过选择不同表就可以查看和不同好友之间的聊天记录，如下所示就是一份聊天记录。其中模糊部分就是聊天信息的具体内容。

但是这样的浏览意义有限，可以将所有的聊天记录都导出JSON，以便接下来使用Python进行数据分析。前往「文件>导出」，点击「表到JSON…」

在弹出的表选择框中，按下command+A选择全部的数据表，也就是全部的聊天记录，继续点击「保存」。

如下图所示，就是全部数据库都导出之后的效果

接下来将会大量使用Python来实现绘制词云，绘制表格，生成Excel等功能，所以为了避免缺少各种库而导致报错，可以提前将环境都准备，使用如下命令安装所有依赖库：

pip3installwordcloudmatplotlibpandasjiebamplfontsimageioopenpyxlnumpy如果读者是使用conda来配置虚拟环境，也可以通过conda来创建虚拟环境来运行脚本：

使用完成之后如果退出删除环境，使用以下两条命令：

前置知识有了，就可以开始动手写代码了。制作词云图片，只需要提取出所有messageType等于1的记录，并把这些聊天记录进行分词之后，就可以制作词云了。

那么新的问题来了，如何快速找到那个好友/群聊对应的JSON文件？使用grep命令即可。找到想要生成词云的群聊，任意选择一句聊天记录，只要和别的群有一定区分度即可。例如图中的「每次放烟雾弹都有你」就是一句比较有区分度的话，其他群里不太可能有人发过类似的话。

打开终端，使用grep命令指定在WeChatDB目录下搜索这句话出现在哪个文件里即可，命令如下：

快速写一个Python脚本验证一下想法，但是可以看到，msgContent除了记录消息信息之外，还在第一行标记了是谁发的这条消息，这并不是期望的结果，所以需要对程序进行调整。

上图中，捂脸、偷笑、破涕为笑这几个都是表情，由于大家经常发这几个表情，所以占了比较大的面积。但是这样的词不具有生成词云的意义。所以可以引入wordcloud的stopwords停止词功能，将这些不太重要的词排除掉。

不少人会使用词云来生成和爱人的聊天记录图片，在这种场景下，可以在词云参数里配置一张爱心图片的遮罩，会更加符合使用场景需求。接下来就要开始设置爱心遮罩了。首先需要一个爱心的图片，网上的图片由于清晰度不够，生成的效果欠佳，所以可以自己绘制一个。将两个圆的半圆部分和正方形混合，再设置一下颜色，旋转315度即可得到一个高清自制的爱心图片。步骤截图如下：

更新后的代码如下所示：

自定义完了形状，为了让这张图片更加贴合主题，还可以再给它换一个背景颜色。单独摘出词云背景颜色的定义参数来看，只需要传入对应颜色名字即可修改背景颜色。除此之外还可以传入六位十六进制的RGB值，通过hexcode直接定义颜色，用这种方法可以定义任意一种颜色。

用#f0c9cf替换原来代码中的skyblue，就可以替换背景颜色了，效果图如下。

关键词出现频率分析完了，再对刚才忽略掉的表情进行专门统计。在上一小节的操作中，已经获取到了所有的表情定义，但是还不能直接拿来使用。重新放一下刚才上面这张配图，注意看它的表情是放在方括号里的。所以为了准确统计到每个表情数量，需要对原始表情文本重新加工一下。

此处依旧使用sed来处理一下表情数据，把它们变成带方括号的元素形式，方便接下来在Python中统计。

但是同时也发现了一些不足之处，有一部分表情从来都没发过，它们的计数是0，没有统计意义需要直接剔除掉。只需要一行代码即可实现：

接下来这部分pandas的代码都是ChatGPT实现的，如果读者有自己的个性化筛选或者排序需求，也可以试试让ChatGPT实现。对于pandas这种有固定语法且资料丰富的开源库来说，使用ChatGPT来生成对应代码的效率和准确性还是比较高的。

将数据复制到Numbers里，生成二维条形图，根据自己的喜欢修改一下颜色，添加必要的文字说明。此处为了做出的图表便于展示，只选择了前30条数据制作图表。

刚在上面的步骤中，为了演示添加指定单词统计的功能，将「哈哈」这个单词添加到了统计数据里。如下图所示，「哈哈」这个单词加起来的数量，已经比前三个表情的总和还多了，说明这个群聊气氛还是比较欢乐的。

再看到旺柴表情包，在表情的统计数量里也是一骑绝尘，断崖式地领先于其他各个表情包。特地算了一下，旺柴表情包在所有表情包里发送占比33%

如果想要更直观地体会一下如何从UnixTime转换到方便阅读的日期文本，可用使用命令brewinstallcoreutils安装GNU核心工具包，然后就可以使用gdate命令来转换UnixTime了。

经过上面的数据清洗、时刻分区和时刻排序之后，现在已经得到了「时刻-消息数量」关系字典，对于这样的x-y数据，使用matplotlib来生成二维柱状图是不错的选择。但是在此之前，还是和wordcloud一样的操作，需要配置一下中文字体，使得图片上能够正常显示中文。

此处配置中文字体的方式与wordcloud有所不同，matplotlib有专门用于管理字体的程序。在「环境配置」小节中已经安装过了，只要初始化一下就可以使用，命令如下：

#初始化mplfontsmplfontsinit如果稍后发现依旧无法正常显示中文，还有另一种解决方式，通过mplfonts导入本地的其他中文字体。例如在项目目录下有一个SIMSUN.ttf字体文件，使用如下命令也可以添加这个字体。

#导入本地字体mplfontsinstall--updateSIMSUN.ttf只需要以上简单的一条命令，即可完成中文字体的配置。maplotlib这一部分的代码比较简单，直接上代码来看：

直接上代码，读取文件，读取msgCreateTime的值，使用datetime库去解析UnixTime，这是上一个小节的内容，此处不再赘述。但是值得注意的是，此处作者将UnixTime解析成了%Y%W的格式。%Y是用四位数字表示的年份，%W是用两位数字表示的周数，例如当前的写稿日期2023年8月23日，是今年的第35周，那就标记为202335。

在week变量的后面加上了一个数字1，这是因为datetime库里第一周是用00表示，此处加一让它变为01更加符合大众的计数习惯。

下面就是一个数据结果的例子。拿202328这条数据来看，后面跟着[0,0,0,0,0,38,0]这样一个数组，代表周一发了7条消息，周二3条，周三周四0条，周五28条，周六0条，周末31条。

{202328:[7,3,0,0,28,0,31],202329:[20,0,0,16,0,0,0],202330:[0,0,78,10,7,0,0]}接下来就是代码实现，因为上面定义的statistics_dict里没有任何key，如何直接去set这个value会报错找不到这个key。所以要先判断一下当前循环的「年份周数」key是否存在，如何不存在就先进行初始化，然后再赋值。下面这段代码中从6到9行就是「年份周数」key的初始化。初始化完成之后，将对应天数的索引位置数值+1。在datetime库中使用%w来表示解析的日期是星期几，从0–6分别代表从周一到周末。

最后打印一下statistics_dict字典，可以看到已经正确收集到了所有的统计数据。

直接上代码，将元组里第0个元素追加到y_labels，第1个元素追加到values，可以看到最终的结果符合预期。

THE END

导出多年微信聊天记录，我用可视化分析了出自己的口头禅

原创解析：大数据分析中的数据清洗与特征工程实践精髓开发网

通透！详解主数据历史数据的清洗方法和工具算法数据源

数据分析师数据分析师基础数据清洗数据清洗实战案例分析.docx

几种常见的数据清洗工具使用教程与示例

Pandas数据清洗菜鸟教程

十个例子，教你用统计学方法高效完成机器学习项目雷峰网

工具｜Orange3：机器学习入门神器澎湃号·湃客澎湃新闻

韭菜学Python(10):数据清洗之基础工作数据清洗听起来不明觉厉，实际上就是对我们要分析的数据进行合理化处理，让它达到我们想要的状态，来方便我们的进一步挖掘。下面...

手把手教你搞定4类数据清洗操作腾讯云开发者社区

关于数据清洗的步骤及方法的理解袋鼠社区

机器学习中的数据清洗与特征处理综述

一文读懂特征工程特征工程（featureengineering）：利用领域知识和现有数据，创造出新的特征，用于机器学习

用快捷指令批量导入健康数据｜少数派会员π+Prime

针对公安民警开展数据建模方法的研究和实践

机器学习实战机器学习特征工程最全解读

cast是什么意思数据库?Worktile社区

导出多年微信聊天记录，我用可视化分析了出自己的口头禅