需要准备的环境:
一个B站账号,需要先登录,否则不能查看历史弹幕记录
联网的电脑和顺手的浏览器,我用的Chrome
Python3环境以及request模块,安装使用命令,换源比较快:
pip3 install request -i http://pypi.douban.com/simple
爬取步骤: 登录后打开需要爬取的视频页面,打开开发者工具台,Chrome可以使用F12快捷键,选择network监听请求
点击查看历史弹幕,获取请求
其中rolldate后面的数字表示该视频对应的弹幕号,返回的数据中timestamp表示弹幕日期,new表示数目
在查看历史弹幕中任选一天,查看,会发出新的请求
dmroll ,时间戳,弹幕号,表示获取该日期的弹幕,1507564800 表示2017/10/10 0:0:0
该请求返回xml数据
使用正则表达式获取所有弹幕消息,匹配模式
'<d p=".*">(.*"htmlcode">with open('content.txt', mode='w+', encoding='utf8') as f: f.write(content)参考代码如下,将弹幕按照日期保存为单个文件...因为太多了...
import requests import re import time """ 爬取哔哩哔哩视频弹幕信息 """ # 2043618 是视频的弹幕标号,这个地址会返回时间列表 # https://www.bilibili.com/video/av1349282 url = 'https://comment.bilibili.com/rolldate,2043618' # 获取弹幕的id 2043618 video_id = url.split(',')[-1] print(video_id) # 获取json文件 html = requests.get(url) # print(html.json()) # 生成时间戳列表 time_list = [i['timestamp'] for i in html.json()] # print(time_list) # 获取弹幕网址格式 'https://comment.bilibili.com/dmroll,时间戳,弹幕号' # 弹幕内容,由于总弹幕量太大,将每个弹幕文件分别保存 for i in time_list: content = '' j = 'https://comment.bilibili.com/dmroll,{0},{1}'.format(i, video_id) print(j) text = requests.get(j).text # 匹配弹幕内容 res = re.findall('<d p=".*">(.*"%Y-%m-%d %H:%M:%S", timeArray) print(date_time) content += date_time + '\n' for k in res: content += k + '\n' content += '\n' file_path = 'txt/{}.txt'.format(time.strftime("%Y_%m_%d", timeArray)) print(file_path) with open(file_path, mode='w+', encoding='utf8') as f: f.write(content)最终效果
之后可以 做一些分词生成词云或者进行情感分析,有时间在说吧....
大家可以在下方给小编留言你学习的心得,也感谢你对的支持。
华山资源网 Design By www.eoogi.com
广告合作:本站广告合作请联系QQ:858582 申请时备注:广告合作(否则不回)
免责声明:本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除!
免责声明:本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除!
华山资源网 Design By www.eoogi.com
暂无评论...
更新日志
2024年11月15日
2024年11月15日
- 英雄联盟第二届老头杯什么时候开始 老头杯s2赛程时间队伍名单汇总
- AI赋能卓越显示技术共筑数字未来:三星显示器产品矩阵亮相2024进博会
- 技术剖析:天玑9400如何打造移动最强GPU和游戏体验?
- 顶级装备 实力登顶:三星显示器双十一焕新升级最后冲刺
- 陈影《绝色靓声》WAV+CUE
- 龚玥《禅是一枝花(6N纯银SQCD)》原抓WAV+CUE
- 刘德丽《寂寞在唱歌HQCD+A2HD5》[WAV+CUE]
- 萧亚轩《钻石糖》金牌大风[WAV+CUE][989M]
- 王菲《王菲精选-菲卖品》环球唱片SHM-SACD[ISO][1.9G]
- 孙露《一抹伤HQ》头版限量[WAV+CUE][1G]
- 黄安.1989-一切从头(TP版)【天际唱片】【FLAC分轨】
- 群星.1994-浓情蜜意情歌精丫华纳】【WAV+CUE】
- 邓丽君.1983-淡淡幽情(2022环球MQA-UHQCD限量版)【环球】【WAV+CUE】
- 试音天碟《专业测试第一天碟》经典天碟精选[WAV分轨][1G]
- 试音典范 《情惹发烧情HQCD》人声发烧极品 [WAV+CUE][1G]