用10万条微信聊天记录和280篇博客文章,我克隆了一个数字版自己

除了开飞机,做出完美的烤肋排,获得6块腹肌以及让公司赚大钱之外,我一直以来也想做成的一件事,是实现一个聊天机器人。

和多年前简单通过关键词匹配来回复的小黄鸡,到现在已经堪比人类智慧的ChatGPT,聊天AI一直在进步,但他们和我想的都有一些区别。

从原理上,这和对ChatGPT说「请扮演一个叫小王的人,他的经历是XXX」不同,虽然以ChatGPT的智慧,这样的扮演毫不费力且可能以假乱真,但其实ChatGPT的参数并没有改变,这更像是「扮演」而非「重塑」,ChatGPT的上千亿个参数并没有改变一个,它从你之前的文本中获取一些信息,然后用它的智慧来应对你。

在ChatGPT发布之后基于兴趣去学习文本大模型的技术原理,有一种49年入国军的感觉,因为对个人爱好者来说,做出在任何方面或再细小的垂直领域超越ChatGPT的可能性已经不存在了,同时它又不开源,除了使用,没有别的可打的主意。

但最近2个月出现的一些开源文本预训练模型,例如大名鼎鼎的llama和chatglm6b,让我那个克隆自己的想法又开始蠢蠢欲动起来,上周,我准备试试看。

然后我开始做数据清洗,大多数群我都是潜水比较多,我筛选出一些我比较活跃的群,此外还筛出了一些和个人的聊天记录,我和他们聊天很多,同时他们也愿意我把聊天记录拿来这么做,最后大概50个聊天的文本文件够我使用。

我选择了chatglm-6b作为预训练模型,一方面它的中文效果已经被训练的足够好了,另一方面它的参数是60亿,我的机器能不太费力的跑起来,还有个原因是,在github已经有好几个对其进行微调训练的方案了(我会一起列在文末)。

早上起来之后,模型训练完了,遗憾的是loss下降的并不好,也就意味着12个小时训练出来的模型,并不算好,但我是个深度学习的菜鸡,能跑完不报错我已经谢天谢地了,所以我并没有感到失望,而是开始用这个模型来跑对话。

为了增加一点仪式感,我不想用jupyter笔记,或在黑黢黢的终端里去聊天,我找了个开源的前端聊天页面,略做修改,然后把模型部署起来,封装了API,然后用前端页面去调用这个API,于是就可以实现比较像那么回事的聊天了。

我又试了下,结果依然不是很好,我不是那种不优化到极致就不好意思拿出手的人,因此我毫不害羞的直接发给了几个朋友,他们给我的反馈是,有点像你,同时他们给我返了对话截图。

第一个版本,这个模型确实具备某些跟我比较类似的点,我说不好,但有一点这种感觉。

如果你问它,你哪里读的大学,或者你老家是哪里,它并不会回答出准确的信息,并且肯定说的是错的,因为我的聊天记录中并不会有很多人这么问我,从某种角度上,这个模型并不了解我,它像是一个克隆。

某些时候ChatGPT会返回一些不符合格式的内容,所以我写了一个校对脚本,来将各种不符合规则的返回,统统修改为标准的json,且字段名不变。

我向6pen的算法老哥寻求帮助,在确定模型权重可以融合并想办法从他那顺到融合脚本后,采用了后一种方式。

两个模型的权重可以自由配置,我尝试了多种不同的比例,考虑到模型收敛过程中loss还有一些反弹,我还尝试了不同步数的模型版本

我整晚整晚和这些模型对话,找到效果最好的,但我发现,我似乎很难找出来,这些模型,有一些不同的表现,有的会比较暴躁,有的像舔狗一样,有些特别高冷,有些则很热情,然后我意识到,某种程度上,这或许是我的不同面,这么理解虽然肯定会让搞深度学习,并对其中原理烂熟于胸的人嗤之以鼻,但不失一些浪漫。

我和他聊了很多。

很明显,他和ChatGPT差的极远,没办法帮我写代码,或者写文案,也不够聪明,因为训练用的数据不包含多轮对话,所以多轮对话的理解力更差,与此同时,他对我也不算特别了解,除了知道自己的名字(也就是我的名字),我的其他很多信息,他其实并不能准确回答,但是,他经常会说一些简单的几个字,让我有一种熟悉的感觉,也可能是错觉,谁知道呢。

总的来说,现在存在的所有广为人知的文本大模型,都是用海量的数据训练的,训练过程会尽可能包含全人类所产生的所有信息,这些信息让模型的亿万参数得以不断优化,例如第2043475个参数增加4,第9047113456个参数减少17,然后得到更聪明的神经网络模型。

这些模型变得越来越聪明,但它们更像是人类的,而非个体的,当我用我自己的这些数据去重新训练模型时,我能得到完全不一样的东西,一个更靠近个体的模型,虽然无论是我产生的数据量,还是我采用的预训练模型的参数量和结构,可能都无法支撑起一个能够和我的脑子差不多的模型,但对此进行的尝试,依然非常有意思。

我将这个网页重新部署了一下,并在中间加了一层serverless做保护,因此,现在所有人都可以去试试和这个我的数字版聊天,服务由我的祖传V100服务器提供,并且只有一台,所以如果人多的话,可能会有各种问题,链接我会放在最下面。

积极的,发自内心的产出更多的数据,就越有可能在未来获得更接近你的数字拷贝,这或许会有一些道德,甚至伦理问题,但这是大概率会发生的事情,之后我的数据积累的更多,或有更好的预训练模型,训练方式,我可能随时都会重新再次尝试训练,这不会是一个盈利,或任何跟商业沾边的项目,这某种程度上算是我自己追寻自己的一种方式。

THE END
1.微信又上新功能!私聊pc端命令提示符直接在双人私聊语音通话界面中,点击 “+” 拉更多朋友加入。现在,这个功能已经上线全 iOS 端微信,安卓端微信正在灰度测试中。 左右滑动查看 03 微信PC端内测更新 此前,微信Windows PC版4.0.1内测更新,除了支持发布朋友圈,还可查看好友的朋友圈相册,可在“聊天文件”中,管理所有聊天中的文件,增加通讯录管理、增加https://www.163.com/dy/article/JJ5EL5S80550FEZU.html
2.微信forwindows没法备份微信聊天记录,点电脑端的“连接手机开始微信for windows没法备份微信聊天记录,点电脑端的“连接手机开始备份”就显示断开连接笔记本电脑 For 查看全部5条评论回答 写回答 cuckio 可恢复 有用(0) 回复 举报 相关问题 分享大发怎么玩才能稳赢不亏aad 2万 浏览 5 回答 大发玩追长龙输了可以追回来么aaj 1.5万 浏览 5 回答 AA电池是什么 1484 https://wap.zol.com.cn/ask/details_23483665_2365822_3.html
3.Windows微信2.4.5版下载备份恢复聊天记录支持时间段选择堕落手机上什么应用必不可少,当然是微信了,微信已成为人们日常生活必不可少的APP。不但手机上必装,很多人的电脑上也得来一个,办公啥的会方便很多。今天,微信团队放出了最新的微信2.4.5 for Windows,增加了三项新功能,都特别实用,尤其是在备份、恢复聊天记录的时候,可以自己选择时间段了。文章源自堕落的鱼-https://https://www.duoluodeyu.com/2435.html
4.[Windows]WeChatMsg留痕–支持微信聊天记录导出的免费工具如DB Browser for SQLite建议不懂SQL的就不要看了,应该是看不懂的,重启该软件可直接查看聊天记录 https://www.mydigit.cn/forum.php?mod=viewthread&tid=434171&page=1
5.微信ForMac下载最新pc版Folx Pro 5 for mac Alien Skin Exposure X4 胶片滤镜模拟软件 下载服务协议见页面底部 基本简介 微信是一款支持多个平台的即时通讯软件,简单说就是一款聊天软件可用于多个系统平台。如:Windows、macOS、Android、iOS。相比较其他版本支持的多个功能而言,微信mac功能更为简洁轻便。如果你是macOS系统的小伙伴想跟好友聊天https://mip.onlinedown.net/soft/561383.htm
6.写一个工具来偷走Windows微信的聊天记录51CTO博客写一个工具来偷走Windows微信的聊天记录 背景 前段时间在网上看文章,看到一篇微信解密数据库的文章,然后突然有了想法,如果有一个类似后门的程序,在朋友的电脑上运行后(无中生友)把聊天记录发送过来,岂不是很爽(直接被警察叔叔抓走)。 然后就去搜了文章和视频,主要学了关于微信逆向的各种操作,对微信的各个功能模块https://blog.51cto.com/u_15474183/5103569
7.微信WindowsPC正式版3.7.6发布:支持在电脑与手机之间互相迁移IT之家8 月 26 日消息,微信 Windows PC 正式版 3.7.6 迎来更新,官方显示修复了一些已知问题。更新后,提示新增支持在电脑与手机之间互相迁移聊天记录,迁移后可在手机或电脑上浏览合并后的聊天记录。 Windows 微信 3.7.6 版本新增功能: 可以在电脑与手机之间互相迁移聊天记录,迁移后可在手机或电脑上浏览合并后的聊https://www.ithome.com/0/637/229.htm
8.WeChatMsg留痕–支持语音聊天,微信聊天记录导出工具[Windows]WeChatMsg是一款适合于 Windows 的微信聊天记录导出工具,傻瓜式操作,目前已支持导出文本、图片、视频、表情包、语音聊天,并且可导出为 HTML、Docx、csv、TXT 文件,帮你保留与某人的微信记忆,包括语音。@Appinn 青小蛙折腾这款微信聊天记录导出工具有一段时间了,终于在最近两天成功了。 https://www.appinn.com/wechatmsg/
9.电脑微信聊天记录在哪个文件夹里面?简单几步高效清理电脑微信聊天Windows操作步骤 点击【文件管理】,即可确认微信文件的默认存放位置,点击【打开文件夹】。 在此文件夹中的【File storage】内的文件大多都是微信的缓存文件,点击进入即可进行对应内容的管理。 三、 Cleaner One Pro高效安全清理 如果想要更为安全、高效地清理微信聊天记录,我们还可以借助第三方专业软件来提升操作效率。https://cleaneronecn.trendmicro.com/blog/how-to-delete-all-messages-wechat/
10.python微信PC端自动化获取聊天记录wxauto实时获取微信群聊记录目前已有许多微信客户端的自动化工具,可供我们自动获取聊天记录、发送消息等等。不过微信网页版现在已无法登录,因此一些python库如itchat、wxpy等已经无法使用了(基于网页)。 现在有大佬开发出了一个好玩的微信自动化python库——wxauto。wxauto基于uiautomation、win32gui等自动化工具,利用windows桌面协议模拟用户的鼠标、https://blog.csdn.net/qq_37401585/article/details/132253543
11.[Windows]解密导出微信本地聊天记录WechatBakToolv0.9.1.1基于C#的微信PC版聊天记录备份工具,提供图形界面,解密微信数据库并导出聊天记录。 WechatBakTool 基于C#开发的微信聊天记录备份分析工具,努力做最好用的微信备份工具。 理论支持64位版本所有微信 工作区概念,支持多微信切换操作。 支持导出Html文件 支持聊天频率分析,全消息库内容搜索 https://www.qlgoo.com/3641/
12.电脑版微信聊天记录在哪个文件夹网上介绍手机上的微信聊天记录在哪里的文章较多,却没有文章介绍电脑版的微信聊天记录的保存位置,要找到保存路径其实很简单,并且里面的聊天记录可以通过使用“楼月电脑版微信聊天记录导出软件”来将其批量导出,下面我来详细说明一下。 1. 电脑版微信聊天记录通常保存在“我的文档”下的“WeChat Files"文件夹中,在这个https://www.louyue.com/pcweixin.htm
13.微信聊天记录导出微信里积累了数年的聊天记录,连iPhone都吃不消了,可惜你依旧不能删掉它们。 把重要的聊天记录导出来吧,然后你就可以在电脑上好好收藏和品味了。 Mac版提取码:dkax -- Win版提取码:v5rv 献给所有对微信严重依赖的朋友 iTunes备份 用iTunes连接iPhone,将内容备份到电脑上。请注意,不要选择”给iPhone备份加密“http://wxbackup.imxfd.com/
14.电脑微信聊天记录怎么恢复微信电脑版恢复聊天记录电脑微信聊天记录怎么恢复在Windows 10操作系统中,回收站是一个重要的功能,它允许我们临时存储并恢复误删的文件或文件夹。然而,有时候我们可能会不小心清空了回收站,导致一些重要的文件被永久删除。那么,win10回收站清空相关“电脑微信聊天记录怎么恢复”的资讯18214篇https://www.huifuzhinan.com/xjzphf/so_dnwxltjlzmhf/list_4.html
15.微信PC版3.7.6版发布支持合并电脑和手机聊天记录真的更方便只不过我想要翻某些聊天记录时只能用户手机查找所以非常不方便,微信也不能把手机记录同步到电脑版上。 现在支持手机和电脑聊天记录互相迁移和合并后那可以保持历史记录的完整性,相对来说确实会稍微方便些。 使用方法: 下载升级微信 for Windows/macOS最新版, 手机版微信也要升级到最新版,升级后即可使用聊天记录迁移。 https://www.landian.vip/archives/95256.html