「穿堂风来信#150」| 我写了个脚本,拆解了 1642 条关于“闪击委内瑞拉”的播客数据
这一周,全世界的播客似乎都只在聊一件事:特朗普对委内瑞拉的“闪击”。与其推荐更多的相关的播客,这期newsletter我抓取了 1642 条中英文播客,想看看:当足以改变地缘政治走向的事件发生时,我们耳机里的世界,是如何被拆解、延展,甚至迅速走神的。在足以震荡全球的大事件中,中英文的播客内容又有什么区别呢?
Fellow Travelers,周末好。
这封newsletter发送自体感温度-9度的阿姆斯特丹,上一次经历这个温度可能已经是10多年前在波士顿读研究生的时候🥶。
最近听播客有趣又无趣。有趣的是,确实因为Trump和委内瑞拉的事件,各种不同的角度和内容层出不穷;无趣的是,几乎所有的播客都在讲Trump和委内瑞拉的事件,虽然听了非常多,但是也不能每天都推荐相关的内容吧。
与其推荐更多相关的播客,这期「穿堂风来信」来做一点点数据分析,看看事件发生的一周内,播客世界里都在聊什么。当这种足以改变地缘政治走向的事件发生时,我们每天听的播客是如何解构它的?中文和英文的播客内容又有什么不同呢?
Part 1. 数据收集
为了观察全球播客界对“特朗普针对委内瑞拉总统马杜罗采取行动”这一突发事件的反应,我写了一个Python script。主要功能包括:
- 多维度搜索:针对英文("Trump Venezuela")和中文("特朗普 委内瑞拉")设置了核心关键词。
- 上下文关联:同时抓取了“格陵兰岛”和“拉丁美洲毒品走私”等背景话题,观察舆论的关联性。
- 自动化处理:脚本通过 GraphQL 接口从 Taddy API (新发现的podcast API。每个月有500次免费的requests,可以继续做一些好玩的东西了🤩)实时拉取数据,并对播客的发布日期、发布者、语言及内容属性(如是否属于新闻类)进行了清洗和去重处理。
在这一步之后,我就获得了一个含有1642条播客数据的csv file,包括1365条英文播客和 277 条中文播客数据*。
*这只是一个周末小项目,没有要写一篇博士论文😬。说明几个数据限制,
- 地理位置误差:API 提供的国家/地区元数据只显示了美国和Unknown,所以无法做国家的分析。美国和欧洲,中国和台湾,都可能有非常不同的角度。
- 语言推断逻辑:目前的语言分类基于字符特征识别,对于中英混合标题的播客可能存在轻微误判。
- 时间窗口:为了简化数据分析,我只抓取了 1 月初的一周数据(1月3日至1月9日)
Part 2: 核心内容讨论和延展
下一步就是做一些简单的数据分析和内容分析。
我自己在过去一周听播客的过程里,发现了主题的变化。例如格陵兰岛相关的内容的出现。大家不仅在关注委内瑞拉本身,特别是欧洲的播客也非常关注美国是否会对格陵兰岛出售,对于欧洲来说意味着什么。
所以在数据分析中,我将内容分成了两类:Core(核心讨论:直接关于委内瑞拉行动) 和 Extended(延展话题:如格陵兰岛、毒品走私、北约关系等背景)。
对比这两类数据的消长,我发现了很有趣的变化: