youtube涨赞网站 --youtube带货
在音频正式成为重要传播方式,vlog、音频写手也正式成为一种业余的当今社会,如何提高自己音频的播映量,是各阶层文本商品和服务最头秃的问题之一。互联网上当然有许多文本制做、领涨板块追踪、剪接基本功的撷取,但你可能不晓得,机器学习也可以在其中充分发挥大作用。
join into data上三位译者 Lianne 和 Justin 做了两个庞克的控制技术预测。他们的预测第一类是 YouTube 两个早先兴起的健身活动写手 Sydney Cummings 。
Sydney 保有美国国家运动儿科学(NASM)的商业机构总教练证,同时也是一位跳远选手。她的帐号注册登记于 2016 年 5 月 17 日,总计播映量 27,031,566,目前保有 21 万影迷,每晚都稳定预览,很有科学研究意义。请注意,以下科学研究都将通过 Python 实现。
Sydney Cummings 的副标题都有一定拳法,比如说最近两个副标题是《30 两分钟肩膀和强健科玄珠锻炼身体!熔化 310 千卡!》,通常囊括时间、身体足部、耗用的千卡以及其他关于锻炼身体的形式化词语。观众们点选这段音频之前,就会晓得几个重要信息:
30 两分钟——我将在 30 两分钟内完成整个体能训练;
锻炼身体肩膀和科玄珠——我将致力肩膀和科玄珠,著眼于力量;
熔化 310 千卡——就要熔化相当多的千卡。
掌控以上关键性重要信息是事先的预备,接下去还有五个关键性步骤:检视统计数据、用语义处理控制技术对音频进行进行分类、优先选择特征、建立目标、构筑计算机程序、写作计算机程序。接下去就和学雷锋网一起看看译者到底是怎么一步棋一步棋进行科学研究的。
事先预备:截取统计数据
其实有很多不同的方式来截取 YouTube 统计数据。由于这只是个纸制项目,所以译者优先选择了两个只需要机械式,不倚赖附加辅助工具的简单方式。
以下是分步关键性步骤:
选中所有音频;
右键单击最新的音频并优先选择Inspect;
将光标悬停在每一行上,找到高亮显示了所有音频的最低级别的 HTML 代码/元素级别;
例如,如果使用 Chrome 浏览器,它看起来就像这样:
右键单击元素并优先选择复制,然后优先选择复制元素;
将复制的元素粘贴到文本文件中并保存,这里使用 JupyterLab 文本文件并将其保存为 sydney.txt;
使用 Python 提取重要信息并清理统计数据。
接下去就是有趣的部分了,他们将从这个统计数据中集中提取特征,并科学研究是哪些因素影响着播映量。
关键性步骤 1:检视统计数据
将统计数据导入到 Python 中是在最后一节中完成的,以下是统计数据集 df_videos,一共有 837 个音频。
此外,他们注意到统计数据有重叠,因为写手曾经多次上传同两个音频,在接下去的预测中将会忽略这部分不大的样本。
关键性步骤 2:用 NLP 对音频进行进行分类
在这一步棋中,他们根据副标题中的关键性词对音频进行进行分类。
分组标准是:
这个音频针对的是身体哪个足部?
这个音频的目的是增肌还是减肥?
或者还有什么其他关键性词?
译者使用了语义辅助工具包(NLTK),Python 中两个常用的开源 NLP 库,来处理副标题。
生成关键性词列表
首先,标记化音频的副标题。此过程使用分隔符(如空格(" ")将副标题文本字符串拆分为不同的标记(单词)。这样,计算机程序就可以更好地理解文本。
这些副标题中有 538 个不同的单词,以下列出了使用频率最高的标记/单词。可以发现,频繁使用的就是那几个词,这也再次证明写手确实喜欢起标准格式的音频副标题。
基于高频词列表,译者建立了 3 个关键性字列表,可用于接下去环节对音频进行进行分类。
body_keywords(正文—关键性词)——这标识了音频针对的身体足部,如完整身体、腹肌、腿。
workout_type_keywords(健身活动—类型关键性字)——区分锻炼身体类型,如有氧、伸展、力量。
其他关键性字——这包括常用但难以归类的关键性词,如体能训练营、精疲力竭、纤体(toning)。
词干关键性词列表
在形成这些关键性字列表后,译者还提取了词干。这是为了确保计算机能够识别近义词。例如,ABS 是 Abdominal Exercise(腹部锻炼身体)的简写,单词abs和ab有相同的词干ab。
YouTube 副标题的标记和词干
除了关键性词,译者还需要标记和提取副标题词干。这些过程可为进一步棋匹配关键性字和副标题列表做预备。
关键性步骤 3:特征工程
经过头脑风暴,他们优先选择了两种特征——基于关键性词和基于时间。
基于关键性词的特征
Indicator Features
由于前一步棋的工作,现在有 3 个关键性词列表和精简的副标题,可以匹配它们来对音频进行进行分类。
按照 body_keywords 和 workout_type_keywords 进行分类,两个音频中有许多关键性词。所以在匹配之前,译者还建立了 2 个特征:area 区域和 workout_type 健身活动类型。这些特征将两个音频的所有身体足部和锻炼身体类型连接成两个字符串。
例如,两个健身活动音频可以同时做腹肌和腿,或者同时做有氧和力量。该音频的特征区域为腹肌+腿,健身活动类型为有氧+力量。
同时,译者也识别出了相似的关键性字,如总共和完全、核心和腹肌,将它们归在一组。
最后,他们建立了三种不同类型的虚拟特征(dummy features):
is _ { } _区域,识别音频是否包含特定身体足部;
is_ { } _健身活动,确定健身活动类型;
title_contains_{},查看副标题是否包含其他关键性词。
为了清楚起见,音频副标题腿部力量耗用体能训练应该是 _leg_area = True, is_strength_workout = True, title_contains_burnout = True,而所有其他都为 False。
Frequency Features
除以上特征外,译者还建立了三个特征:num_body_areas, num_workout_types,和 num_other_keyword,用来计算两个音频副标题中提到的关键性词的数量。
举个例子,两个副标题是腹肌和腿部有氧力量体能训练的 num_body_areas 和 num_workout_types 都是 2。
这些特征有助于确定音频中应包含的身体足部或锻炼身体类型的最佳数量。
Rate Features
最后同样重要的是,译者建立了两个特征:calories_per_min(每两分钟千卡数)看看千卡的熔化速度。毕竟,观众们都想要一些明确的(可量化的)锻炼身体目标。
当然整个过程中也难免存在一些被错误进行分类的音频,译者也在转向时间特征前进行了手动修复,这里不再赘述。
基于时间序列的特征
有了上述基于关键性词的特征,译者已经发现受欢迎音频的类型。但这是否意味着写手应该一直发相同类型的音频?
为了回答这个问题,他们还建立了一些基于时间序列的特征:
num_same_workout ,该特征类似 num_same_area,只是统计的是健身活动类型。例如,特征= 3,说明除了当前音频 HIIT 健身活动,在过去 30 天内还有 2 个 HIIT 健身活动音频。
last_same_workout,同 last_same_area,只是针对健身活动类型。
num_unique_areas,过去 30 天内锻炼身体了几块不同的身体足部。
这些特征将帮助了解观众们是喜欢相同的还是不同类型的音频。
接下去请看下面特征工程的具体过程。
多重共线性检验Test for Multicollinearity
什么是多重共线性检验,维基百科的解释是,多重共线性(也称共线性)是一种现象,其中多元回归模型中的两个预测变量可以以相当高的准确度从其他预测变量中线性预测。多重共线性不会降低模型整体的预测能力或可靠性,至少在样本统计数据集中是如此;它只影响单个预测因子的计算。
为什么这很重要?
成对相关( pairwise correlations)是常用的方式,但当出现多个特征(多于一对)时,可能会同时存在共线性。
因此,译者使用了一种更复杂的方式——k折交叉验证( K-fold cross-validation)来达到目的。
详细过程如下:
根据判断,优先选择一组关键性特征来测试共线性。
译者优先选择了对于YouTube音频播映量至关重要的特征,同时还添加了三个由随机数组成的特征:rand0,rand1, rand2。当比较特征之间的关系时,它们充当anchor。如果两个特征与这些随机特征相比不太重要或不太相似时,那么它就不是目标特征的重要自变量。
为k折交叉验证预备这些特征。
在此过程中,他们转换进行分类特征(categorical features):area和workout_type。这种转换确保每个类别级别至少有K个值。
使用其中两个特征作为目标,其余特征作为自变量,来体能训练预测模型。
接下去,译者遍历每个特征,并使用其他特征拟合两个模型来预测它,他们用了两个简单的梯度提升模型(Gradient Boosting Model ,GBM)和K折验证,并且根据目标特征是数字的还是进行分类的,应用不同的模型和分数(模型预测能力评估指标)。
当目标特征是数字时,译者使用Gradient Boosting Regressor模型和均方根误差(RMSE);当目标特征是进行分类特征时,则使用Gradient Boosting Classifier 模型和Accuracy(精度)。
对于每个目标,他们打印出K折验证分数(平均分)和最重要的5个自变量。
科学研究得分和每个目标特征的重要自变量。
译者试图科学研究每个目标特征及其与自变量的关系。当然本文不会列举整个过程,将举两个例子。
译者发现length(音频长度)和 calories特征是相关的。这个发现很直观,因为健身活动的时间越长,耗用的千卡就越多。
这种关系不难理解。
length和 calories之间存在正相关,但这种强度还不足以将它们直接归到一块。因为40-45两分钟的音频耗用的热量与30-35两分钟、50-55两分钟,甚至与60多两分钟的音频,都有重叠部分。因此,两个特征都保留。
此外,译者发现num_same_area和area_full,两个特征也是相关的,这个发现有点令人惊讶,接下去开始解密。
下图显示了num_same_area和area之间的关系。
假设我们发现更高的 num_same_area(>=10) 确实会导致更高的YouTube浏览量,但我们无法晓得这是因为area_full 还是因为 num_same_area。因此,译者放弃了 num_same_area特征,也因为相同的逻辑放弃相num_same_workouts特征。
关键性步骤 4:建立目标
你可能还记得,这个科学研究的目标是增加YouTube的播映量。是不是说明,我们可以直接拿播映量作为目标呢?
但请注意!播映量呈偏态分布。播映量中值是27,641次,而最高的音频达到130万。这种不平衡会给模型的解释性带来问题。
因此,译者建立了特征views_quartile,以它作为目标。
他们将音频分为两类——高播映音频(high)和低播映音频(low)。high占总播映量的75%,也就是播映数35578及以上的音频,剩下的都归到low。
通过这种方式,译者使用预测模型来找到播映量最高的25%的音频的特征组合。
关键性步骤 5:构筑计算机程序
预备好了一切工作,我们根据目标views_quartile建立两个计算机程序模型啦!
为了避免过度拟合,译者将两个叶子节点的最小样本设置为10。为了让我们更容易理解,译者将树的最大深度设置为8层。
关键性步骤 6:写作计算机程序
在最后一步棋中,译者将科学研究并总结导致高或者低播映量的分支。他们到底发现了什么呢?
发现 1:calories_per_min是最重要的特征
没错,calories_per_min是最重要的特征。人们似乎不太关心健身活动类型或身体足部。
每两分钟耗用的千卡≥ 12.025属于高耗用,60%(51/(34+51) )的音频都有较高的观看率。
每两分钟熔化的千卡少于(≤ 9.846)的音频则远没有受欢迎,只有 7.2%(12/(154+12) =)有较高的播映。
而每两分钟耗用千卡在9.846到12.025之间的音频,其他因素也会产生较大作用。
发现 2:不同足部、多种方式锻炼身体并不能提高播映量
这个发现超乎译者想象,难道不是各种各样的锻炼身体更好吗?
当过去两个月,身体不同足部的锻炼身体数量(num_unique_area)很高,≥ 10时,音频的观看倾向低。即使每两分钟熔化的千卡很高,这种情况依然成立。
结合前两个观点,78%(42/(12+42) )的音频在以下情况下获得了更多的播映:
每两分钟熔化的热量很高(≥ 12.025)
过去两个月中身体不同足部的锻炼身体数量较少 (
发现 3:臀部健身活动很受欢迎
当一段音频耗用的千卡较少(calories_per_min ≤ 9.846)时,但只要是臀部锻炼身体,33%(5/(10+5) )仍能获得高播映;不然,只有4.6%(7/(144+7) )音频保有较高播映。
建议:如何提高播映
综上,译者给Sydney提出了三条建议:
建议 1:熔化千卡
正如我们所见,每两分钟耗用的千卡是最重要的特征,12.025是个魔法数字。
下表是不同时长的音频应该熔化多少千卡的节点:
30两分钟健身活动:361千卡
40两分钟健身活动:481千卡
50两分钟健身活动:601千卡
60两分钟健身活动:722千卡
译者还提出了两个猜想:数字(时长和千卡)对人的刺激只是心理上,大家可能就是喜欢看到千卡的前三位数比时长大得多,这说明可以用更短的时间,耗用更多的千卡。
建议 2:少用不同的身体足部关键性词
Sometimes less is more.
人们不喜欢健身活动副标题中有太多不同的身体足部。根据模型,在两个月内针对少于10个身体足部的组合更好。
译者注意到Sydney在她最近的音频中使用了更少的身体足部关键性词。最明显的一点是,她一直在使用肩膀或上身,而不是像二头肌或背部这样的词。
Sydney的订阅者可能更多是女士,她们倾向于臀部塑性,而不是增加肩膀肌肉。人们愿意牺牲熔化更少的千卡来获得更健美的臀部。也许Sydney应该一直为熔化更少千卡的音频加入一些臀部运动。
建议 4:未经验证的想法
最后译者也表示,这个科学研究也有一些限制:
这些建议是基于过去的表现。而 YouTubers经常会打破过去拳法,尝试新想法。鉴于此,我们可以将机器学习应用到他们的竞争对手身上。
只集中预测了副标题,还有一些其他重要信息,比如说订阅者人数、性别、区域的统计,其中可能蕴藏着更多的特征、更准确的发现和解释。
学雷锋网学雷锋网