如何用爬虫技术分析抖音视频数据?

如何用爬虫技术分析抖音视频数据?,第1张

之前某大神用爬虫把抖音一天所有短视频的数据都扒出来了,总共2万多条的数据,拿到数据之后,用这份数据洗出我们想要的几个关键点。
洗出人群的标签,标签包括爱好,关注点,时间点。
对2万数据经过清洗,经过描述做分词词频统计,排除无效词,统计出高频词“喜欢”“自己”“真的”“可以”“教程”“发型”“思域”“化妆”等,这里我们之后引出可以干嘛。
接着是时间段,这个主要是为了统计用户的习惯,客观是可以看出用户在什么时间段比较活跃。
再根据上面用户发布时间段的时间统计出这个时间段用户的点赞转发量做为参考,最终得到下图。这样可以得到比较准确的时间段。
可以明显在时间段看出效果的差别,下午13:00和晚上18:00是点赞高峰期。
在统计的2万条数据里面再进行一次点赞的分布曲线的清洗,大概的出的数据分布,大部分的短视频点赞在700以下,上万的短视频占比并不大,这个是抖音的数据造成的,按照之前做今日头条的算法都是计算你前面1000个推荐量,你所获得的点赞率与转发量。这个时候你的转发量点赞量(比例)高的话再会推送下一批流量给你。
所以前面1000个点赞量很关键。
上面用工具干完数据清洗最大的一个版块是人肉再清洗,人肉清洗是为了得到热门短视频的标签。参考这部分数据是为了之后做短视频的时候去靠这个方向。大概类型有几大块!
1、舞蹈
2、高效段子
3、才艺
4、模仿
5、励志鸡汤
6、特色景点
7、恶搞
8、撩姐撩小哥哥
9、正能量
10、炫技能
11、挑战
从这些热门内容标签统计出来最终满足热门的背后人性属性,因为属性才可以复用,内容不能模仿。
这里祭出大杀器,满足疯传的触发器。公式:社交货币、诱因、情绪、公共性、实用价值=传播。
在你去看所有这类短视频的时候,你去思考背后哪些关键点触发了你的行动,去点赞转发了。
二次传播的核心点,一种里利益上面的驱动,这个驱动的方式也很多比如在微信里面点赞送礼品,转发送产品,这个抖音里面也有一批这样玩的,尤其年前的时候点赞送手机疯了一段时间。这个就是典型的利益驱动。
除了这个物上面的利益驱动,还可以调动的就是社交货币的价值的六个维度。

做法:传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。

然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常被称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本,已被广泛应用于互联网领域。搜索引擎使用网络爬虫抓取Web网页、文档甚至、音频、视频等资源,通过相应的索引技术组织这些信息,提供给搜索用户进行查询。

神箭手云爬虫开发平台上有写好天猫商品信息及评论采集爬虫
打开神箭手云爬虫开发平台官网,进入神箭手云市场,搜索天猫,获取规则后就能直接使用了。
除了天猫的,淘宝网、京东等多个电商数据的爬虫也有的。


DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
乐在赚 » 如何用爬虫技术分析抖音视频数据?

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情