【Python】爬取周董新歌弹幕，看看粉丝都说了啥

xadminx

2020 年 07 月 13 日

417 次浏览

暂无评论

3440字数

【编程技术】【Python】

前言

周董新歌已经上线好久了，B站弹幕很多了，羊长肥了，可以薅了，首先我们去找一下接口，把弹幕爬下来

弹幕爬取

首先，B站弹幕的接口，好像抓不到了，但是网上有现成的：

https://api.bilibili.com/x/v1/dm/list.so?oid=XXX

这个里面有一个 oid ，这个我们可以从链接中找到，接下来抓包看一下，用谷歌浏览器的开发者工具就行了

打开最火的那个视频，然后抓包分析一下，找到这个请求:

在返回里可以找到一个cid，也就是我们要找的 oid ，所以我们请求这个接口就可以获取到 oid 了：

然后分析一下这个获取cid的接口：
https://api.bilibili.com/x/player/pagelist?bvid=BV1PK4y1b7dt&jsonp=jsonp

链接里面有一个 bvid ，仔细观察就可以发现这个bvid，在这个视频的链接里面，所以，对于我们来说，这个 bvid 就是固定参数：

然后就可以上代码了：

# -*- coding: utf-8 -*-
__version_ = 'python 3.7'
__author__ = 'Json·G'
__date__ = '2020/7/13 15:02'

import requests
import json
import chardet
import re
# 1.根据bvid请求得到cid
def get_cid():
    url = 'https://api.bilibili.com/x/player/pagelist?bvid=BV1PK4y1b7dt&jsonp=jsonp'
    res = requests.get(url).text
    json_dict = json.loads(res)
    #pprint(json_dict)
    return json_dict["data"][0]["cid"]

# 2.根据cid请求弹幕，解析弹幕得到最终的数据
"""
注意：哔哩哔哩的网页现在已经换了，那个list.so接口已经找不到，但是我们现在记住这个接口就行了。
"""
def get_data(cid):
    final_url = "https://api.bilibili.com/x/v1/dm/list.so?oid=" + str(cid)
    final_res = requests.get(final_url)
    final_res.encoding = chardet.detect(final_res.content)['encoding']
    final_res = final_res.text
    pattern = re.compile('<d.*?>(.*?)</d>')
    data = pattern.findall(final_res)
    #pprint(final_res)
    return data

# 3.保存弹幕列表
def save_to_file(data):
    with open("dan_mu.txt", mode="w", encoding="utf-8") as f:
        for i in data:
            f.write(i)
            f.write("\n")

cid = get_cid()
data = get_data(cid)
save_to_file(data)

爬下来的弹幕就是这些：

制作词云

就然数据都扒下来了，那就顺手做个词云吧，上代码，用到的库都是第三方库，需要自己安装一下：

# -*- coding: utf-8 -*-
__version_ = 'python 3.7'
__author__ = 'Json·G'
__date__ = '2020/7/13 15:03'

import pandas as pd
import jieba
from wordcloud import WordCloud
import matplotlib.pyplot as plt
from imageio import imread

import warnings
warnings.filterwarnings("ignore")

# 2 读取文本文件，并使用lcut()方法进行分词
with open("dan_mu.txt",encoding="utf-8") as f:
    txt = f.read()
txt = txt.split()
data_cut = [jieba.lcut(x) for x in txt]
# 3 读取停用词
stop = [" ","道","说道","说"]
# 4 去掉停用词之后的最终词
s_data_cut = pd.Series(data_cut)
all_words_after = s_data_cut.apply(lambda x:[i for i in x if i not in stop])
# 5 词频统计
all_words = []
for i in all_words_after:
    all_words.extend(i)
word_count = pd.Series(all_words).value_counts()
# 6 词云图的绘制
# 1）读取背景图片
back_picture = imread("E:\\python\\pra\\crawl\\timg.jpg")

# 2）设置词云参数
wc = WordCloud(font_path="E:\\python\\pra\\crawl\\simhei.ttf",
               background_color="white",
               max_words=2000,
               mask=back_picture,
               max_font_size=200,
               random_state=42
              )
wc2 = wc.fit_words(word_count)

# 3）绘制词云图
plt.figure(figsize=(16,8))
plt.imshow(wc2)
plt.axis("off")
plt.show()
wc.to_file("ciyun.png")

效果大概就是这样：