1.EDG夺冠!虎牙虎牙用Python分析22.3万条数据:粉丝都疯了!
EDG夺冠!源码源代用Python分析22.3万条数据:粉丝都疯了!
EDG夺冠信息
在月6日的代码英雄联盟总决赛中,EDG战队以3:2战胜韩国队,直播摘得年英雄联盟全球总决赛的虎牙虎牙冠军,这一盛事在全网各大平台引人瞩目。源码源代源码运维
微博排名榜首,代码截至月日,直播观看量已达到亿级,虎牙虎牙粉丝数增长至.4万。源码源代Bilibili平台上人气几亿,代码总弹幕数为.3万,直播全站排行榜最高第2名,虎牙虎牙cqrs源码分析粉丝数量已有.9万。源码源代腾讯、代码爱奇艺、优酷等视频平台,万人观看了比赛。虎牙等直播平台热度也居高不下。inux内核源码央视新闻也通过微博庆祝EDG夺冠。
既然比赛热度如此之高,我们以Bilibili为基准,通过采集EDG夺冠比赛视频在该平台的.3万条弹幕数据,利用Python进行分析,以感受粉丝的remember指标源码热情。
实战目标
1. 利用爬虫技术抓取B站夺冠比赛视频的.3万条弹幕数据。
2. 利用jieba、numpy等Python库对弹幕数据进行分析,并实现可视化。
bilibili接口分析
进入EDG夺冠比赛视频的URL,B站已整理了7个视频,源码生成页面覆盖从开幕式到夺冠全过程。B站弹幕数据接口为api.bilibili.com/x/v1/d...,通过oid请求相应视频弹幕的API接口,抓取弹幕数据。
获取oid
使用开发者工具的Network选项,找到以pagelist开头的请求接口,打开新窗口直接请求,获取JSON格式数据中的cid作为oid。
编码定义获取cid的方法
通过控制台输出拼接弹幕数据API接口,获取7个比赛视频的弹幕数据。使用正则表达式抓取数据,代码实现弹幕数据的抓取。
避免乱码处理
代码中加入处理乱码的步骤,确保数据正确解析。展示抓取的EDG.txt部分弹幕数据。
词云图制作
利用EDG背景图制作词云图,代码实现词云图的生成。也可以尝试制作迪迦奥特曼主题的词云图,或者使用pyecharts/echarts等库制作。
总结
使用PIL、jieba、numpy、requests、wordcloud、matplotlib等库进行数据分析和可视化,实现弹幕数据的高效处理。
完整项目及源码下载
完整项目和源码的获取方式在文末提供。