One, you're like a dream come true
Two, just wanna be with you
Three, girl, It's plain to see
That you're the only one for me, and
Four, repeat steps one through three
Five, make you fall in love with me
If ever I believe my work is done
Then I'll start back at one


--From Back At One

Part1 Overview

Introduction

第一部分我们先来关注我们的聊天热力图,数据统计从2021年七月至2023年12月,也就是从我们刚认识开始,颜色越深呢代表聊天的频率越高,从上到下分别是21年、22年、23年的热力图。如果看到那些白白的区域不要惊讶,并不是我们“无话可说”,而是变得“形影不离”。2021年九月底的李公堤,2022年初的大月亮,2022年2月的迪士尼,2022年上半年的镇江宝龙,2022年9月的观前街,2022年底的泉州,2023年3月的苏州陪你拔牙,2023年4月的厦门线下复试,2023年7月的新疆之旅,2023年10月的在家的中秋国庆假期,2024年1月的新疆,这些都是我们一起拥有过无数美好的时刻。热力图上2022年的12月颜色是最深的,考试的压力,疫情的蔓延,第一次来泉州的准备,一系列事情。还熬夜一起看了世界杯决赛,可能是坨宝宝最焦虑的时刻,希望你想起那个月,有轻舟已过万重山的感觉。

各自的消息统计

和热力图相呼应,统计从2021-07至2024-01的数据,折线呈现的规律基本和热力图一致,除了特殊月份,其他时间都很平均,很友爱😇

每周的聊天分布

每周的聊天时间也是同步的,周五是最多的,我猜可能是周末前都比较喜欢聊聊天。然后周末开始两个人明显下降了,当然就是见面啦。总体来说,每天的聊天分布是很平均的,没有哪一天会明显的掉链子,表现不错吧。

每日的聊天时段分布

不出所料,每天聊天的高峰期都是在凌晨过后,不管是在本科还是研究生,只有这段时间是宝贵的。并且我们的聊天频率和数量非常同步哦(右图蓝色是我,橙色是坨宝宝),以至于我本来以为程序出问题了,直到检查了最大值才发现是同步的!

Part2 Word Analyse

词云图

下面的图是我们生成的词云图,蓝色太阳是我,红色爱心是坨宝宝。在词云图中,字体越大的词代表它出现的频率越高,不出所料,“宝宝”和“狗狗”一骑绝尘

TOP50 热词

下图是聊天记录的TOP50热词,基于我们的词频分析结果,和词云生成的结果类似,但是也发现了不少有意思的东西🤭。坨宝很喜欢问“在干嘛”,我竟然很经常说“生气”,不过有可能是“别生气”🙄。“打电话”也荣登TOP10,看来每个月通话话费天天告急是有道理的。

PART3 Some Interesting Data

消息长度分析

下图代表我们发消息的长度,统计数据上看,我们都倾向于发10-20字的短消息,不分高低。当消息长度大于60之后,估计就是吵架时候的battle了,也有可能是我的道歉小作文🫣

消息类型分析

下图是消息类型的分析,我们的文本数量相差不大,甚至我还有点领先(黑子说话👿!),坨宝宝比较喜欢发图片和语音,而我比较喜欢发表情包(估计是奶龙和菜狗)😍

2023每周的热情指数❤️

所谓的热情指数,是用两个人接受和发送的消息量做差然后求比值。为什么会有几个高几个低呢,因为1月份第一周我们在泉州玩,都是在发照片没有聊天。还有3月的第二周也是在发照片,7月也是在发新疆的游玩美照。8月那周我检查了聊天记录,原来是我提前来学校了,只能晚上打电话的时候边打字,所以都是我在发信息😆

2023每周的聊天数量

基本上符合热情指数的分布,除了我们出去玩的日子,其他周都表现得很稳定,特别是8月的第一周,我们一共发了近3000条消息,平均每天400多条😇。

每天的EMO指数
工具包:jieba(中文分词 )paddlenlp(情感分析)

通过调用paddlenlp的预训练模型,实现对聊天记录中消息的情感分析(预训练只图一乐,真实性有待商榷😋)。可以清楚地发现,如果我们大半夜还在聊天,那么一般说的话就很危险,容易冲动说气话,证明了早睡早起的重要性🤭。可以发现我平时说话很positive,应该是我喜欢说一下逗坨宝宝的话,希望以后也继续把我的快乐和童趣分享给你

简易制作教程

1. 利用WechatMsg导出聊天记录
2. 利用pandas读入csv文件,处理一些杂乱数据
3. 处理IsSender, Strcontent, Timestamp等包含关键信息的列即可
4. 利用wordcloud, paddlenlp等package进行自定义的可视化分析
(后续代码会开源,可先参考下列的资料,非常感谢这么多开源的朋友

参考文献

1. https://github.com/LC044/WeChatMsg
2. https://foolishfox.cn/posts/202402-WeChatMsgAnalysis.html
3. https://github.com/joweich/chat-miner
4. https://www.yuque.com/u39624144/terra0/qps38v9zb83tiqxz
%
感谢您的阅读

1000天倒计时~

-
DAYS
-
HOURS
-
MINUTES
-
SECONDS

For小坨(2022.05.30完成)

2022年的生日礼物,也是网站刚起步发布的第一篇文章

TuoTuo的奇妙九月

22年在苏州做的打卡网站

2022 恋爱总结

奶奶

奶奶 在我小的时候,爸妈白天都很忙,在他们公司里上班。照顾我的责任自然落到了爷爷奶奶身上,在我有印象的幼儿园时光里,都是爷爷奶奶每天接送。经常能回想起,傍晚在邻居家的院子玩耍时,奶奶喊我回家吃饭的声音…

Read More

浅谈C++的内存泄露问题

浅谈C++的内存泄露问题 作者[@Cyilin] 2022 年 7 月 28 日 在C++项目中,最让程序员头疼的问题中,内存泄露定是名列前茅,而C++也是在进行着更新换代,利用一些新的机制来解决困扰…

Read More

MIT6.828 Homework Shell

MIT6.828 Homework Shell 1. 下载sh.c文件 2. 实现ls 首先是一些前备知识 access : 检查调用进程是否可以对指定的文件执行某种操作。 // pathname :…

Read More

KMP Algorithm for Pattern Searching

KMP Algorithm for Pattern Searching 作者 [@Cyilin] 2022 年 06月 09日(待更新) 给定一个字符串txt[0..n-1]和一个匹配串 pat[0.…

Read More

MIT6.828 Exercise1.3 实验报告

MIT6.828 Exercise1.3 实验报告 对于PC来说,软盘,硬盘都可以被划分为一个个大小为512字节的区域,叫做扇区。一个扇区是一次磁盘操作的最小粒度。每一次读取或者写入操作都必须是一个或…

Read More

11条评论

  1. 单身狗被狠狠地秀了一把恩爱!呜呜呜~~(>_<)~😭
    还是通过如此有文化有技术含量的方式!哈哈哈哈哈~
    智慧宝儿一定要和她的狗狗快快乐乐999哇!
    新的一年,㊗平安健康!阖家欢乐!万事顺遂!💗

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注