油管买评论 --油管涨赞网站
大数据季刊公司出品
校对:Seiches
Google的智能化申明SmartReply自面世迄今已有4年多了,在此之后,随著此项控制技术在Gmail和Android手机短信应用领域软件上的应用领域,它已保有了大批的采用者,而透过Android Wear智能化互联网平台此项机能将能扩展到了更多电子设备。
该机能将置入YouTube Studio中,也就是写手们用以管理工作他们的YouTube形像,查阅统计数字,推展电视频道并招揽影迷的多方位的掌控面板。
在YouTube Studio的文章部份,写手们能过滤器、查阅和申明源自各电视频道的文章。
对于保有大批影迷的写手来说,申明文章可能十分费时,而这便是SmartReply的弱项。
合作开发者现在能采用SmartReply在Google Play掌控面板上申明文章,因此能用MLKit(机器自学软件包)和TFLite(特别针对终端和PDP电子设备的应用领域软件库)中提供更多的API来合作开发他们的申明辅助工具。每天应用领域SmartReply,需要特别针对具体内容的各项任务明确要求自订实用性,因此在可视化和服务项目方面都遭遇着独有的考验。
在这首诗里,我们很开心撷取特别针对YouTube的SmartReply,这是在YouTube Studio中同时实现的,它能协助泵写手们更随心所欲地与影迷交互。该数学模型透过能高效率排序的收缩型自目光互联网源自学文章和各式各样申明,所以是第二个跨词汇和如前所述字符串二进制的SmartReply数学模型。
目前,英语和西班牙语写手都能采用这款SmartReply for YouTube。采用这种数学模型未来能更加简便地将SmartReply扩展到其他词汇。
YouTube上的自动申明存在一定的考验性。
首先,视频写手收到的文章数量巨大。此外,写手和影迷所形成的内容也各不相同,这体现在文章、讨论和视频的创意上。与通常用词都比较正式的电子邮件相比,泵上的文章具有更复杂的模式,比如词汇混搭、缩略词、俚语、标点符号用法不一致以及高频采用表情符号等。
比如像这样的:
深度检索
SmartReply邮件版最初是采用递归神经互联网,将收到的电子邮件按词编码,然后采用另一种按词编码的递归神经互联网来生成答复。
虽然这种方法具有较好的表达力,但在排序上的开销却很大。而我们发现,设计一种能检索预定义的推荐答复语列表的系统,从而生成最适当的申明,也能达到相同的效果。
这个检索系统对收到的内容及其建议的答复进行独立编码。
首先,对文本进行预处理以提取单词和短语。这种预处理包括但不限于词汇识别、标记化和规范化。然后,用两个神经互联网同时独立地对收到的内容和建议的答复进行编码。这种分解使我们能预先排序建议的答复,然后采用有效的最大内积搜索数据结构来检索建议的答复集。这种深度检索方法使我们能够将SmartReply扩展到Gmail应用领域,因此成为包括当前YouTube智能化申明系统在内的多种SmartReply系统的基础。
不只是词语处理这么简单。
之前的SmartReply系统是按词进行预处理,这种预处理只适用于若干种词汇和写作风格。而在YouTube中,这样的系统将遭遇巨大的考验,例如,典型的文章可能内容驳杂,如采用了表情符号、艺术字、词汇混搭等。有鉴于此,因此我们最近在二进制和字符串级词汇可视化方面的工作中得到了些启发,我们决定不进行任何预处理就对文本进行编码。这种方法的研究基础是,深层Transformer(如前所述目光机制的编解码器数学模型)互联网能够从零开始对单词和短语进行可视化,只需将文本按字符串或二进制序列输入即可,数学模型质量与word-based数学模型相当。
尽管初步结果令人鼓舞,特别是处理带有表情符号或错别字的文章,但由于字符串序列长于对等单词,因此自目光层(self-attention)的排序复杂度是随自负序列长度变化,因此数学模型推理速度很慢。我们发现,透过在互联网的每一层采用临时缩减层来缩小序列长度,类似于WaveNet中应用领域的扩散控制技术,能在排序耗损和数学模型质量之间取得良好的平衡。
下图展示了一个双编码器互联网,该互联网对文章和申明都进行编码,透过对比性互联网训练互联网来使其潜在表征之间的交互信息最大化。一开始将嵌入的二进制序列提供更多给transformer互联网,后续每一层的输入将按照等偏移量按比例删减字符串。这样在若干个transformer层之后,输入序列长度被大大缩短,从而大大降低了排序复杂度。能用其它算法(例如平均池化)代替此序列压缩方案,尽管我们没有发现有任何更复杂的方法能带来更大的好处,为了简化起见,我们还是选择采用它。
一个双编码器互联网,可透过对比性目标使文章及申明之间的交互信息最大化。 每个编码器的输入是一个二进制序列,且为高效率的收缩transformer互联网。
通用数学模型
我们没有为每种词汇训练单独的数学模型,而是选择为所有支持的词汇训练一个跨词汇数学模型。这样做能支持文章中包含混搭词汇的情形,并使数学模型能够利用各词汇中的公共元素源自学和理解新的词汇,例如表情符号和数字。此外,只有一个数学模型还能简化日后的维护和更新工作。尽管该数学模型目前只特别针对英语和西班牙语,但其固有的灵活性使它将来能够扩展到其他词汇。
如果检查该数学模型产生的多词汇建议申明集的编码,能发现该数学模型将各式各样类似的申明进行了聚类(无论申明属于哪种词汇)。
这种跨词汇的能力在数学模型并没有采用任何多语种平行语料库进行训练的情况下就表现出来。下图中展示了数学模型在面对三种词汇输入时如何根据其含义对申明进行聚类。例如,英文文章这是一个很棒的视频周围有适当的申明,例如谢谢!此外,查阅其他词汇中最临近的申明,能看出它们与英文申明中的含义也相似。2D投影还显示了由相似含义的申明组成的其他跨词汇聚类。这种聚类展示了数学模型为采用者提供更多了丰富的跨词汇体验。
在假定的文章和部份潜在申明时数学模型编码的2D投影。围绕英文文章(黑色)的邻域包含适当的英文申明以及对应的西班牙语和阿拉伯语申明。这里,互联网学会了在不采用任何平行语料库的情况下使英文申明与其他语种申明保持一致。
申明的时机
我们的目标是协助泵写手们,因此我们必须确保SmartReply仅在十分必要时才给出建议。理想情况下,仅当写手有很大可能会申明文章因此数学模型很可能提供更多明智而具体内容的申明时才显示建议。为此,我们训练了辅助数学模型以识别哪些文章应触发SmartReply机能。
写手们无需手动输入所有申明,而是能点击系统建议的其中一个申明即可。比如,如果某个影迷说期待接着将发生什么,那么SmartReply可能会建议回答谢谢!或常来看看!
此外,Google表示,它希望建立这样一种SmartReply系统,仅在写手很希望申明文章以及SmartReply能够提出合适的申明时,系统才给出建议。这明确要求对该系统进行训练,以识别哪些文章应触发系统机能。
结论
根据SmartReply现在采用的算法,Google相信未来它将能够支持更多的词汇。
相关报道:
https://ai.googleblog.com/2020/07/smartreply-for-youtube-creators.html
https://techcrunch.com/2020/07/01/google-brings-its-ai-powered-smartreply-feature-to-youtube/