欢迎来到CL境外营销平台,平台经营Instagram、Facebook、YouTube、TIKTOK、Twitter粉丝、点赞、播放量服务、客服微信:coolfensi 24小时在线欢迎咨询购买!
公告:
欢迎来到CL境外营销平台,平台经营Instagram、Facebook、YouTube、TIKTOK、Twitter粉丝、点赞、播放量服务、客服微信:coolfensi 24小时在线欢迎咨询购买!

facebook电商--facebook加播放量网站

首页 Facebook   作者:coolfensi  2023年02月26日  热度:39  评论:0     
时间:2023-2-26 10:35   热度:39° 

作者:Kyle Wiggers – VentureBeat,April 29,2020

编译:Florence Wong – AICUG

Facebook的开源聊天机器人Blender,人们说感觉更人性化

今天,Facebook的AI和机器学习部门Facebook AI Research(FAIR),详细介绍了他们在综合AI聊天机器人(成为Blender)框架中的工作。 FAIR声称Blender已在GitHub开源,且是最大的开放域聊天机器人,其性能优于现有的生成对话的方法,同时可以使人类感到更人性化(根据人类评估者的判断)。

FAIR说Blender是将同情心,知识和个性结合的一个系统,是多年研究的高峰。该基础模型,受益于改进的解码和技能融合技术,且包含多达94亿个参数(定义给定问题的技能的配置变量),比以前的系统多3.6倍。

Blender承诺,在企业,工业或面向消费者的环境中,与对话式AI系统(如Alexa,Siri和Cortana)的交互将比以往更加自然。那是因为,他们能够提出并回答各种各样的问题;显示有关特定主题的知识;并根据情况表达同情,认真或好玩的情绪。

融合技能和生成策略

为了达到Blender的最新性能,FAIR的研究人员专注于两个工程步骤:混合技巧和生成策略。

混合技能是指选择任务,这些任务优于缺少调适功能的那些较大模型。正如FAIR研究人员在论文中指出的那样,可以通过对数据模型进行微调适来增强聊天机器人的功能,这些模型强调所需的会话技巧。事实证明,这些调适,还可以最大程度地减少,从大数据集中所学到的那些不良特征,例如毒性。

关于生成策略,对解码算法的选择(一种用于从语言模型生成文本的算法)会对聊天机器人的反应产生巨大影响。由于机器人的回复时间长短往往与人类对质量的判断相对应,因此希望通过解码器能够取得适当的平衡。回复时间过短通常会被认为是呆板或缺乏兴趣,而回复时间过长则表示感到胡扯或分散注意力。

上图:与Blender聊天机器人的对话。 Blender的回复为蓝色。

在这些工程步骤的过程中,研究人员测试了三种类型的模型体系结构,所有这些模型体系结构均以Transformers为基础。Transformers-Google的一项创新-包含神经元(数学功能),这些神经元以层状排列,可以传输来自输入数据的信号,并调整每个连接的强度(权重),这点和所有深度神经网络如出一辙。这就是Transformers如何提取特征并学会做出预测的,但是Transformers也有注意力。这意味着,每个输出元素都连接到每个输入元素,并且他们之间的权重是动态计算的。

第一个模型是一个检索器模型,该模型以对话历史(或上下文)为输入,然后通过对大量候选回复进行评分,并输出评分最高的一个回复,从而来选择下一个对话回复。 FAIR研究人员采用了一种多编码器体系结构,该体系使用每个候选回复所伴随的表示来对上下文的特征进行编码,他们说,与其他体系结构(如交叉编码器)相比,它在提高性能的同时保持了易处理的计算能力。

第二个模型是生成器,它生成回复而不是从固定集中检索回复。这三个模型可从参数使用量来理解,范围从9000万个参数到27亿个参数到94亿个参数。

第三个模型试图解决生成器的问题,即生成器会有合成重复回复和产生幻觉的倾向。采取了检索和精炼(RetNRef)方法,其中上述的检索模型,在提供对话历史记录时,产生一个回复,然后将回复附加到生成器的输入序列中。通过这种方式,生成器学习了何时从检索器复制回复元素,以及何时不去复制,因此它可以输出更有趣,更引人入胜且充满活力的回复。 (检索器模型会产生由人工编写的回复,与标准的生成模型相比,该回复往往包含更生动的语言。)

FAIR团队将向导生成模型与另一个检索器配对后,共同确定了何时将知识纳入聊天机器人的回复中。这两个模型产生一组初始知识候选者,然后对这些候选者进行排名,然后选择一个句子并将其用于条件回复的生成。分类器根据每个对话,选择是否执行检索,从而避免在不需要的时候去提供知识。

解码

对于生成模型,FAIR研究人员使用波束搜索解码器方法,从而来生成面向给定对话上下文的回复。波束搜索,维护了一组被称为假设的部分解码序列,这些序列被附加以形成序列,然后被进行评分,从而使最佳序列冒泡到顶部。

为了控制聊天机器人的回复时间,FAIR团队考虑了两种方法:对最少回复生成的硬约束,以及一个分类器-可预测回复时间长度并将约束设置为其相应的预测。后者更为复杂,但使对问题的回答长度可变,从而确保聊天机器人在看起来合适时,可以提供较长的回答。

训练模型

接下来,FAIR团队使用另一个Facebook开发的套件ParlAI对模型进行了微调,该套件旨在训练和测试对话模型。ConvAI2是被选择的一个训练语料库,其中包含14万会话,涉及每个对话中成对的志愿者,在对话中,他们通过发问和回答友好的问题而相互认识。另一个是善解人意的对话(Empathetic Dialogues),其中包含50,000种基于情感情况的众包的话语。另一个数据集-维基百科向导-由1,250个主题的194,000个对话组成,其中每个对话都从随机选择的主题开始,目标是展示专业知识。

第四个微调数据集-Blender技能对话-旨在融合前三个集合(ConvAI2,Empathetic Dialogues和维基百科向导),从而在对话期间结合集合各自的技能。在这里,有76,000条对话是由有指导和无指导的人类说话者收集的,在这种情况下,有指导者可以选择经机器人建议的对话,这些机器人根据三个独立的数据集进行训练。

评估

对话的主题从烹饪,音乐,电影和宠物到瑜伽,素食主义者,乐器和购物中心不等-Blender模型在被询问介绍并命名相关的商店,乐队,电影,演员,宠物种类和宠物名称时,经常会给予细节。在一个示例中,Blender提供了一个关于巴赫与贾斯汀·贝伯相比的问题的细微差别的答案,同时Blender被要求写一首歌,Blender确实产生了歌词-尽管没有什么特别诗意。

当演示与Meena的聊天和与Blender的聊天时,67%的评估者说,性能最好的Blender支持的聊天机器人(该生成模型包含在混合技能对话(Blended Skill Talk)语料库中预先训练的94亿个参数)听起来更像人类。大约75%的人表示,他们希望与那个有27亿参数的微调模型的机器人进行长时间的交谈,而不是与Meena进行长时间的交谈。并且,在人与人之间,以及人与Blender对话之间的A / B比较中,志愿者表达了,49%的时间中,他们偏爱在Blended Skill Talk进行过微调的模型,而对于那些仅在公共领域对话中进行过训练的模型,仅仅36%的时间是喜欢的。

问题在于,进一步的实验表明,Blender有时会从训练语料库(主要是Reddit评论)中以冒犯性样本的方式做出回复。 FAIR研究人员表示,微调Blended Skill Talk数据集可以在一定程度上缓解这种情况,但是要全面解决该问题,则需要使用不安全的单词过滤器。和一种安全分类器。

上图:这里,Blender不断重复和自相矛盾,忘记并幻化了知识。

当然,FAIR研究人员并没有声称他们已经解决了开放域对话的问题。实际上,它们概述了Blender的几个主要限制:

  1. 词汇用法:即使是最好的Blender模型,也倾向于过于频繁地生成常用短语,例如您喜欢,很多乐趣和有爱好。
  2. 非平凡的重复:模型经常重复对他们说的话。例如,如果对话伙伴提到爱犬,他们会说他们有一只爱犬,或者说他们喜欢与会话者相同的乐队。
  3. 矛盾和健忘:Blender模型彼此矛盾,尽管在较大模型中程度较小。他们也无法建立逻辑联系,即他们不应该提出之前曾提出的问题(以避免出现忘记的现象)。
  4. 知识和事实正确性:Blender模型相对容易被唆使而造成事实错误,尤其是在深入探讨某个主题时。
  5. 对话的时间和记忆力:FAIR研究人员说,在几天或几周的对话过程中,Blender对话可能会变得乏味而重复,尤其是考虑到Blender记不起以前的对话。
  6. 更深入的理解:Blender模型缺乏通过进一步对话来学习概念的能力,并且它们无法扎根于现实世界中的实体,动作和体验。

要解决所有这些问题,可能需要新的模型架构,FAIR团队表示正在探索中。它还着重于建立更强大的分类器,以过滤掉对话中的有害语言,以及建立减少聊天机器人中性别偏见的技术。

Facebook 在GitHub上提供了经过预先训练和经过微调的Blender模型,分别是包含9000万个参数,27亿个参数和9.4个参数的,以及用于与机器人进行交互的脚本(内置安全过滤功能)。 同时,他们也在ParAI提供了所有用于模型评估和微调的代码,包括数据集本身。

论文:

2004.13637.pdf
3.5M
·
百度网盘

ParAI:

Github: