加入收藏 | 设为首页 | 会员中心 | 我要投稿 PHP编程网 - 黄冈站长网 (http://www.0713zz.com/)- 数据应用、建站、人体识别、智能机器人、语音技术!
当前位置: 首页 > 大数据 > 正文

数盟说 | 用文本挖掘找出50年以来最流行的音乐

发布时间:2021-03-06 00:02:37 所属栏目:大数据 来源:网络整理
导读:副标题#e# 【数盟致力于成为最卓越的数据科学社区,聚焦于大数据、分析挖掘、数据可视化领域,业务范围:线下活动、在线课程、猎头服务、项目对接】 本文为数盟原创译文,转载请注明出处,并务必保留本文底部二维码。 从1958年开始每年十二月Billboard都会
副标题[/!--empirenews.page--]

【数盟致力于成为最卓越的数据科学社区,聚焦于大数据、分析挖掘、数据可视化领域,业务范围:线下活动、在线课程、猎头服务、项目对接】


本文为数盟原创译文,转载请注明出处,并务必保留本文底部二维码。


从1958年开始每年十二月Billboard都会发布一个年度百首流行曲金榜。这个图表涵盖了美国全年的流行单曲表现。

通过R语言,我已经把50年的(1965-2015)?年度流行金榜百首的歌词合并到一个数据集进行分析。你可以在我的Github库中下载该数据集。


获取歌词

用于分析的歌曲是来自于对维基百科中每个Billboard年度流行金榜百首(如2014年)的抓取。这是整个年度的图表,而不是每周的排名。许多艺术家做过周图表,但没有做过年度图表。年度图表是通过周Billboard的逆点系统来进行计算的。

我使用XML和RCurl从每个维基百科词条中抓取歌曲和艺术家的名字。然后我用这个列表从有可预见的URL字符串的网站上抓取歌词(例如,metrolyrics.com就使用metrolyrics.com/SONG-NAME-lyrics-ARTIST-NAME.html)。如果第一个站点抓取失败了,就转向第二个,依此类推。大约78.9%的歌词是从metrolyics.com上抓取的,15.7%是从songlyrics.com上,1.8%是从lyricsmode.com上。另外大约3.6%(187/5100)没有找到。

该数据集对5100个观测对象根据歌曲、艺术家、年份、歌词和来源进行了1-100的特征等级划分。归功于维基百科艺术家特征是相当标准化的,但当涉及到与艺术家的合作时就存在一些问题。如果在抓取的歌词中存在错误,如拼写错误或另外的像把“night”写成了“nite”,这些并没有得到纠正。


管理数据

最常见的歌词

数盟说 | 用文本挖掘找出50年以来最流行的音乐

58%一单首现象

出现在年度图表上的1989名中的1154名艺术家(约占58%)都仅仅只有一首知名曲目。右边的数据是通过把艺术家的歌曲进行汇总而计算出来的;另外把“精选”艺术家都单独列出来。这意味着只有位列第一的艺术家才能得到对其歌曲的完全信任。

数盟说 | 用文本挖掘找出50年以来最流行的音乐

马拉松vs冲刺生涯

我们惊讶地发现一些位居表格顶端的艺术家反而有相对较短的职业生涯(Rihanna在10年时间内有28个入表的歌曲),所以我观察了一下歌手职业生涯的长度和入榜歌曲的平均数量之间的关系,并发现这两者之间是呈负相关的。职业生涯跨度每增加一年,每年歌曲入榜平均数量就会减少94%。

*数据集不包括1964年披头士乐队第一年入选年度榜单,所以实际上他们的职业生涯跨度是12年。

数盟说 | 用文本挖掘找出50年以来最流行的音乐

数盟说 | 用文本挖掘找出50年以来最流行的音乐


随时间增长歌词的变化

词汇和曲长不断增长

数据集中的歌曲平均总长332个单词,114种词汇。平均字数(包括种类和数量)随着时间的推移不断增加。字数的变化量也有所增加,可能是由于随着时间的推移进入榜单排名的歌曲体裁更加多样。可变方差通过字数统计的转换日志进行校正,并和两个线性模型拟合,最后产生总系数0.01873和单词种类系数0.0136。在每年的增加量上,总字数平均每年增加1.87%,字数种类增加1.36%。

数盟说 | 用文本挖掘找出50年以来最流行的音乐

这个增长可能是由于较长的歌曲——自从20世纪60年代以来歌曲逐渐从2.5分钟增长至4分钟,这时期快节奏的音乐风格和歌曲特征盛行,超过了对某个艺术家的关注。

数盟说 | 用文本挖掘找出50年以来最流行的音乐

从Boogie到Bitch:十年间最具特色的歌词

(编辑:PHP编程网 - 黄冈站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读