上个月,我写了个小程序,爬取了417位QQ好友的说说,截至8月18日,共抓取294393 条说说,1061299条评论,268695条图片记录。一直想要进行数据分析,但平时工作较忙就耽误了。近期,我对爬取的说说进行了数据分析,得到了以下统计数据,相关数据准确性不是很高,但也能反映现在QQ空间说说的一些现状和改变。

1.每年说说发表数量统计

每年说说发表数量统计

爬取的说说是从2008年开始的,其中2008年至2013年,说说数量呈上升趋势,意味着这期间有很多好友越来越喜欢发说;在2013年更是达到了一个巅峰,那时我还读大一,而我的大部分QQ好友是我同学,大家都还是初入大学的学生,平时就有更多时间放在网络上了,这算是个原因吧。2013年以后,说说发表量就呈下降趋势,虽然2016年有点小涨,主要一个原因是受到微信、微博的冲击,更多的人转向了微信、微博,平时生活的动态基本都发在朋友圈。

2.每月说说发表数量统计

每月说说发表数量统计

从图中可看出,7月的说说记录数是最多的,而每年的7月正是暑假,所以更多的小伙伴就有更多的时间通过说说来分享暑假趣事了。

3.一个月中每日说说发表数量统计

一个月中每日说说发表数量统计

每月的30日或31日是说说量最少的一天,而1日说说量是最多的,是不是有更多的人更愿意在1日发表说说呢?

4.一天中每小时说说发表量统计

一天中每小时说说发表量统计

通过图中柱形图可看出,在晚上22、23点说说量是最多的,意味着在这个时段,有更多的人在浏览和发表说说,而中午12点的发表量也是比较多的,12点也正是很多人休息或即将休息的时间。倘若你想发表说说,又想让更多的好友看到,可以考虑在中午12点、晚上22、23点发表,这也算是一个技巧吧。不过……别忽略了朋友圈~

5.说说来源-手机型号统计(准确性不是非常高)

说说来源-手机型号统计

从图中不难看出,iPhone是所有说说来源中量最多的,这也反应了大部分的好友使用的手机是iPhone。不过这个数据是按所有说说来统计,所以近两年说说发表的手机型号数量可能相比总数量较少,比如近一年来,说说的来源很多来自OPPO和vivo,而图中OPPO和vivo也确实比较靠前。可见如今很多人都投向了OV。

6.说说来源-手机品牌统计

说说来源-手机品牌统计

iPhone、小米、华为、魅族这四个品牌占据了很大比例。没办法,大家都是学生,更倾向于性价比高的手机,不过vivo和OPPO的比例也在增大,现在很多女生更倾向于vivo和OPPO了吧。

7.说说发表位置分布

说说发表位置分布-一

说说发表位置分布-二

这是我根据说说发表的位置经纬度,再结合BDP(数据分析平台)生成的地图,比较密集的地方还是广西境内,南宁最多,其次是广东地区。

8.QQ好友年龄分布

QQ好友年龄分布

从图中可看出,24的数量是最多的,恰巧我也是刚过24岁生日,大部分好友也都是同龄或者差个一两岁,0的那肯定没设置出手日期了。

9.QQ好友性别分布

QQ好友性别分布

男生比例略高于女生。。。反之,我就有点不正常了~

10.QQ好友星座分布

QQ好友星座分布

从图中可看出天秤座最多,射手座最少。。。星座没啥好说的。

11.说说内容词频分析

说说内容词频分析

额。。。还能说什么?QQ空间基本被这些微商或者卖化妆品的占领了!!!

总结

如今,更多的人转向微信和微博,QQ空间的说说内容也逐渐减少,大部分内容充斥了微商广告。越来越多的人弃用QQ空间,原因很多。不管怎样,QQ空间承载着我们这代人太多的回忆,每次翻看以前的说说总能想起以前的趣事或丑闻,又有点尴尬,可能是年少时发表的内容相比于现在有点幼稚可笑吧。

数据通过C#程序抓取,不过Python才擅长爬虫,最近用C#写项目就顺便拿来练练手,
想体验爬虫的同学可学习Python,Python拥有丰富的类库,很多功能都已封装好。

统计图表使用:BDP个人版 生成,BDP是一个专业的数据分析平台,支持多种数据源导入并可多维度分析生成统计图。

词频分析使用jieba进行分词,jieba是一个Python中文分词组件,其Github地址为 https://github.com/fxsjy/jiebajieba拥有多个版本,此爬虫工具虽然使用C#开发,但没有使用jieba .Net版,而直接使用IronPython执行Python脚本。

文章目录