Twitter推广 --twitter涨赞
2022年5月13-15日,SparkToro和Followerwonk对往后90天内活耀的44058个公用Twitter帐户展开了严苛的联手预测。那些帐户是透过电脑从1.3亿多个申明的、活耀的facai中乱数优先选择的。该预测辨认出,19.42%合乎不实或流氓应用软件帐户的激进表述。详细情况和方式见上面的调查报告概要。
在往后的五年里,SparkToro始终在营运两个名叫 Fake Followers的Twitterfacai完全免费辅助工具。在往后的两个月里,很多新闻媒体和其它疑惑的多方都采用该辅助工具来预测可能将正式成为Twitter奥韦的sert·特斯拉(Elon Musk)的影迷。上周四,特斯拉罗亚尼明说他对Twitter的全面收购被 一拖再拖了,即使没人批评Twitter的采用者啥是不实或流氓应用软件帐户。
SparkToro是两个多于四个人的小项目组,Fake Followers意在展开非官方的完全免费科学研究(前述销售业务是广告主科学研究应用软件)。不过,有鉴于社会公众的关键性浓厚兴趣,SparkToro与Twitter科学研究辅助工具Followerwonk(其拥有者Marc Mims是两个长年的好友)携手展开了严苛的预测提问。
甚么是流氓应用软件或不实Twitter帐户?
数不清比率的活耀Twitter帐户是流氓应用软件或不实帐户?
特斯拉的影迷中,有百分之十啥是流氓应用软件、不实或不活耀的帐户?
为何SparkToro的方式如果被信赖?
SparkToro下述中逐个探讨那些难题。
甚么是流氓应用软件或不实Twitter帐户?
SparkToro的表述(可能将与Twitter自己的表述不同)可以最好地描述如下。
流氓应用软件或不实Twitter帐户是指那些不经常没人类亲自撰写其推文内容、消费其时间线上的活动或参与Twitter生态系统的帐户。
这个表述下的很多 不实帐户既不邪恶也没有难题。例如,相当多的采用者辨认出关注@newsycombinator(它自动分享黑客新闻网站的头版文章)或@_restaurant_bot(它推送透过Google地图辨认出的乱数餐厅的照片和链接)这样的电脑人有价值。可以说,那些帐户使Twitter正式成为两个更好的地方。他们只是没有两个人在设备后面,亲自参与到Twitter的生态系统中。
相比之下,大多数流氓应用软件帐户是一种不受欢迎的滋扰。他们的活动范围从兜售宣传和不实信息到那些试图销售产品、诱导网站点击、推送网络钓鱼尝试或恶意应用软件、操纵股票或加密货币,以及(也许最糟糕的)骚扰或恐吓平台采用者。
SparkToro的假影迷方式(下文有详细描述)试图识别所有那些类型的不真实的采用者。
不过,SparkToro的系统并不试图识别可能将由人类不定期操作但有一些自动化行为的Twitter帐户(例如,两个有多个采用者的公司帐户,如他们自己的@SparkToro,或两个由两个人操作的社区帐户,如Aleyda Solis的@CrawlingMondays)。他们无法知道Twitter(或特斯拉)可能将会优先选择如何对那些帐户展开分类,但他们偏向于对流氓应用软件/不实的相对激进的解释。
数不清比率的活耀Twitter帐户是流氓应用软件或不实帐户?
为了得到最全面的答案,SparkToro在五个独特的数据集上应用了两个单一的流氓应用软件/不实帐户预测过程(如下所述)。
以上所代表的数据集是:
1.Followerwonk乱数样本(44058个帐户)--Followerwonk目前有10.47亿个Twitter资料索引,以连续的周期更新,需要30天左右。任何被删除的帐户(由采用者或Twitter)都会被删除,不包括在统计中。根据Followerwonk的表述,其中1.3亿是 近期活耀的,即在往后9周内曾推文,并且是申明的,而不是受保护的(Twitter对私人帐户的术语)。
Marc 写了代码,从Followerwonk的活耀数据库中乱数优先选择公用帐户,并将它们传递给SparkToro展开预测。SparkToro项目组的Casey进一步刷新了这个名单,并透过他们的不实影迷流氓应用软件预测程序运行了44058个公用活耀帐户,辨认出8555个帐户的特征与不实/流氓应用软件帐户高度相关。他们相信这个数据集代表了对有啥活耀的Twitter采用者可能将是流氓应用软件或假的难题的最佳、单一答案。
2.不实追随者辅助工具的汇总平均值(约50万个配置文件运行,预测了1亿多个帐户)--在往后3年半的运作中,SparkToro的不实追随者辅助工具已经在501532个独特的帐户上运行,并预测了其中每个帐户的数千个追随者,总计超过10亿个配置文件(尽管那些并不一定独特,而且他们没有跟踪哪些配置文件被预测为该过程的一部分)。
这代表了他们可以获得的最大的帐户集,但它包括对很多老帐户的预测,那些帐户在往后90天内没有发送过推文,因此,很可能将不合乎Twitter对mDAUs(可盈利的日活耀采用者)的表述。他们把它包括在内是为了展开比较,并表明包括简单的乱数Twitter帐户(与那些最近活耀的帐户相比)的预测可能将不那么准确。
3.Twitter上@ElonMusk的所有追随者(9340万个帐户)--有鉴于人们对特斯拉的帐户的独特浓厚兴趣,以及它在触发这份调查报告中所发挥的核心作用,科学研究项目组认为包括对关注@ElonMusk的近亿个帐户的完整预测是明智的。这个数据集包括了在往后90天内没有发过推文的旧资料(不合乎Twitter的mDAUs表述)。
4.Twitter上@ElonMusk的活耀影迷(2680万个帐户)--对特斯拉的Twitter影迷展开更公平的评估,只包括在往后90天内发过推文的帐户。为了与Followerwonk的预测方式相匹配,SparkToro项目组只优先选择了那些合乎这一标准的26,878,729个帐户,并在上图中把它们细分出来。
5.对关注@Twitter帐户的100个采用者展开乱数抽样(100个帐户)--在5月13日周五的推文的后续报道中,特斯拉说,我的项目组将对@twitter的100个关注者展开乱数抽样;我邀请其它人重复同样的过程,看看他们有甚么辨认出。
虽然SparkToro项目组不认为这个过程是两个严苛的、具有统计学意义的样本集,但他们还是把它包括在内,以便展开比较。5月14日,他们从@Twitter的影迷公用页面中手动抽取了两个乱数帐户样本。为了得到偏差最小的样本,他们只包括公用帐户,只包括在往后90天(2022年2月12日之后)发送推文的帐户,只包括2021年5月之前创建的帐户,即他们已经在Twitter上呆了1年以上(很多最近的帐户,特别是考虑到特斯拉的活动,可能将使样本产生偏差)。
6.Twitter最近的收益调查报告估计(帐户数量不明)--特斯拉在最近的推文中引用了Twitter的申明收益调查报告,分享了
毫无疑问,其它科学研究人员将作出其它估计,希望有同样大和严苛的数据集。有鉴于Twitter申明数据的局限性,SparkToro项目组认为最准确的估计是:在往后90天内发送过推文的公用帐户中,有19.42%是不实或流氓应用软件帐户。
特斯拉的Twitter影迷有数不清比率是流氓应用软件、不实或不活耀的?
2018年10月,SparkToro预测了当时的美国总统唐纳德-特朗普在.Twitter上的所有54,788,369名追随者。在这份调查报告中,SparkToro复制了这一过程,预测了特斯拉facai中的所有93,452,093名影迷(截至2022年5月14日)。
当透过SparkToro的公用辅助工具运行不实追随者调查报告时,其项目组预测了两个Twitter采用者的追随者样本(几千个)。当两个帐户有非常多的追随者时,这种方式可能将会偏离对每个追随者的全面预测所显示的情况。在5月14日星期六和5月15日星期日,SparkToro的Casey Henry 对特斯拉的帐户展开了这一全面预测,以提供尽可能将精确的数字。
上面是SparkToro的流氓应用软件预测系统中采用的一些因素的分类,总的来说,70.23%的@ElonMusk的影迷不太可能将是看到他的推文的真实、活耀采用者。这远远高于假影迷的中位数,但并不令人惊讶,原因有几个。
非常大的帐户往往比其它帐户有更多的不实/流氓应用软件影迷
受到大量新闻媒体报道和社会公众关注的帐户(如美国前总统特朗普和特斯拉)往往比其它帐户吸引更多的不实/流氓应用软件追随者
Twitter向新采用者推荐的帐户(通常包括@ElonMusk)往往会获得更多的不实/流氓应用软件关注者。
与其它Twitter帐户的分布情况相比,@ElonMusk的不实/流氓应用软件追随者数量可能将显得不正常,但SparkToro不认为或暗示特斯拉对获得那些可疑的追随者负有直接责任。最有可能将的解释是上述因素的组合,而特斯拉对Twitter的积极采用、新闻媒体对其推文的报道以及Twitter自己的推荐系统更加剧了这种情况。
SparkToro项目组也只对那些在往后90天内发过推文的2680万@ElonMusk的影迷展开了预测。这个过滤器与他们应用于Followerwonk数据集和@Twitter的乱数关注者的过滤器相匹配。
这种更有优先选择性的预测辨认出23.42%的人可能将是不实或流氓应用软件帐户,这个数字与估计的全球平均数相差不远。
为何要相信SparkToro和Followerwonk的方式学?
上述预测的数据集(除了@Twitter的乱数100名影迷,科学研究项目组不赞成这种方式)范围足够大,过程足够严苛,其结果可由任何具有类似公用权限的Twitter科学研究人员复制。科学研究项目组邀请任何有浓厚兴趣的人在他们自己的数据集上复制在这里采用的过程(并在上面详细描述)。Twitter在这里提供了关于他们的API产品的信息。
Followerwonk只从那些在往后90天内有申明推文发表的帐户中乱数抽取样本,这是"活动"的明确标志。此外,Followerwonk定期更新其facai数据库(每30天),以删除任何受保护或删除的帐户。他们相信,这个样本的规模足够大,具有统计学意义,并且经过精心策划,最接近于Twitter可能将认为的可盈利的每日活耀采用者(mDAU)。
SparkToro的不实影迷预测认为,如果两个帐户触发了SparkToro在他们的不实影迷辅助工具中显示的很多信号,那么它就是不实的。
SparkToro识别不实帐户的模型来自于对数万个已知的垃圾(和真实)Twitter帐户展开的电脑学习过程。以下是SparkToro如何建立这个模型的。
2018年7月,SparkToro项目组从3个不同的流氓应用软件和电脑人帐户供应商那里购买了3.5万个不实Twitter影迷帐户。他们的供应商让那些帐户关注两个空的Twitter帐户,该帐户创建于2016年,在2018年7月有0个影迷。花了~3周的时间来交付这35,000名影迷。在接下来的3周里,他们每天都会收集那些不实/垃圾帐户的数据。
除了这35000个已知的流氓应用软件帐户,项目组又从SparkToro的大型档案索引中乱数抽取了50,000个非流氓应用软件帐户。这给了我们总共85,000个帐户,在亚马逊网络服务上透过电脑学习程序运行。
这85,000个帐户被分成两组,其中混合了流氓应用软件和非流氓应用软件帐户。A组作为训练集,B组作为测试集,以预测模型的性能。
以下数据被用于初始模型的生成:
资料图片
简介URL
已验证的帐户状态
语言
Twitter语言
帐户年龄(天数)
个人简介的长度
追随者的数量
他们关注的帐户数量
距离上次罗亚尼的天数
推文的数量
帐户出现在名单上的次数
地点
显示名称
在找到合乎数据的模型后,SparkToro项目组预测了结果,以确定与流氓应用软件密切相关的特征。不出所料,没有两个特征与流氓应用软件有1:1的相关性。但是,很多特征在组合采用时显示出前景。以下是与流氓应用软件帐户相关的特征的例子。
资料图片 - 缺乏那些资料的帐户往往是流氓应用软件。
账号年龄(天数)--某些模式显然与流氓应用软件有关(例如,当一天内创建的大量账号关注特定的账号或发送几乎相同的推文)。
追随者的数量 - 流氓应用软件帐户往往多于很少的追随者
自上一条推文以来的天数--很多流氓应用软件帐户很少罗亚尼文,而且是以协调的方式罗亚尼文
帐户出现在名单上的次数 - 流氓应用软件帐户几乎从不出现在名单上
显示名称 - 某些关键词和模式与流氓应用软件密切相关
不过,那些并不是唯一的,其它与流氓应用软件有适当相关性的信号(特别是当多个信号适用于两个帐户时)也有助于建立两个有效的模型。透过试验和错误(当然还有模式拟合),他们精心设计了两个评分系统,可以正确识别超过65%的流氓应用软件帐户。他们故意偏向于遗漏一些不实/流氓应用软件帐户,而不是意外地将任何真正的帐户标记为错误的。
关键是要记住,没有两个因素能告诉他们两个帐户是流氓应用软件!这一点很关键。触发的流氓应用软件信号越多,两个帐户就越有可能将是流氓应用软件。我们的不实追随者系统要求在将两个帐户评为"低质量"或不实之前,至少要有17个流氓应用软件信号中的一小部分,有时甚至多达10多个(取决于哪些信号,以及它们的预测性)。
这种方式可能将低估了流氓应用软件和不实帐户的数量,但几乎不包括假阳性(即声称两个帐户是假的,但其实不是)。
对Followerwonk提供的约4.4万个乱数的、最近活耀的帐户应用这一模型,可以得出每个帐户的质量分数,如下图所示。
两个帐户触发的流氓应用软件相关标志越多,其在该系统中的质量得分就越低。Sparktoro的激进方式意味着我们只将3、2和1的分数视为不实/流氓应用软件帐户,而这四个的组合产生了他们的最终估计,最好的说明是:19.42%的最近活耀的公用Twitter资料极有可能将是不实或流氓应用软件。