YouTube标题首词与播放量到底有什么关系?
正则表达式是定义文本中搜索模式的特殊字符序列。"re.findall()"是Python最基本的正则表达式函数之一,用于提取字符串表达式的开头。本文使用此函数来告诉您YouTube视频标题和播放次数之间的关系。
从下一个开始!
首先获取python正则表达式模块“re”:
Import re
假定存在以下字符串:
test _ string 1='python is amazing!'
如果将表达式R'w'与字符串一起传递为"re.findall",则将返回输入字符串的起始字符:
Regex 1=re.find all(r'w',test string 1)print(regex _ 1)
在表达式r"w"中,字符"{w"对应于字符串的开头,"w"在字符串中匹配字母数字字符。
减去“”得到:
Regex 1=re.find all(r'w',test string 1)print(regex _ 1)
提取另一个字符串示例的开始:
Test_string2='Java is Amazing!'
图:unsplash
现在,应用"re.findall()"查找字符串中的第一个单词:
Regex 2=re.find all(r'w',test string 2)print(regex _ 2)
接下来,考虑更真实的方案。假设您有YouTube影片标题列表和相应的YouTube观看次数。我们可能对分析视频标题第一个单词和相应视频观看次数之间的关系感兴趣。请考虑以下标题/观看次数元组列表:
YouTube _ titles=[('how to tell if we're beating co vid-19',220000),('extreme closed clean out','每个标题的第一个单词:可以通过以下方法找到
for title in YouTube _ titles:print(re.find all(r'w',title[0])[0]
您可以将这些值加入至清单:
first words=[]for title in YouTube titles:first _ words.append(re.find all(r'w,title)
您还可以将查看次数附加到:
first words=[]views=[]for title in YouTube titles:first _ words.append(re.find all(r'')
然后,可以为视频前缀值和视频观看次数创建数据框:
import pandas as pddf=PD.data frame({'first words':first words,'views':views})prr
然后,可以对每个标题前缀进行分组,并计算每个标题的平均查看次数:
Df=df。group by('first _ words')['views']。mean()print(df)
按降序对这些值排序:
Df=df。group by('first words')['views']。mean()。sort values(ascending=false)print(df)
假设这些结果来自数千个标题和观看次数等足够的数据集,则此类型的分析可以帮助您选择最佳YouTube视频标题。
图:unsplash
本文档介绍如何在python正则表达式模块中使用“re.findall()”函数。为了提取每个字符串的第一个单词,作者将此函数应用于两个简单的字符串。然后,考虑实际使用案例,使用此函数提取YouTube视频标题中的第一个单词,并计算与第一个单词相对应的平均观看次数。