Alexa:一个语音助手向闲聊机器人的疯狂冲刺 | 爱板网

在被窗帘隔开的单间里,一位评判人按下了他的停止按钮,紧接着,另一个评判人也这么做了。几分钟之后,一个女性走进 George 的房间,在他耳边低声说了些什么。「Alexa,停下来吧,」他有些失望地点头说道,此时时间距离他们开始交谈仅仅过去了 3 分钟。

在那间有长桌子的房间里,Ram 面无表情,就算他有沮丧的情绪,也被他隐藏得很好。在整个比赛过程中,他的口头禅是:「我们要明白,这是一个非常难解的问题,这段旅途才刚刚出发而已。」和计算机进行二十分钟的闲聊不像拨通电话会议那样简单,如果非要比喻的话,它更像是一趟去火星的旅程,万里长征才刚刚迈出第一步。Alexa

(Alexa 奖评选时亚马逊的控制室)

对对话式狂热的探索已经引起了亚马逊、苹果、Facebook、谷歌和微软等巨头对两大重要资源的竞争。

第一个资源是有限的资源:计算机科学领域的顶尖博士。由于人才的稀缺性,他们的薪水已经上涨到 6 位数。

第二个资源虽然无限但是却很难获得:对话样本。只要有对话产生,就可以被收集并数字化,用于的训练。

在此背景下,Alexa 奖是亚马逊的一条妙计。这项比赛既可以寻找世界上顶尖的研究生共同完善系统,也为亚马逊提供了一个其他科技公司所没有的获取会话数据库的机会。

2016 年 9 月 16 日,亚马逊宣布比赛正式开始。来自 22 个国家的 100 多支大学生团队申请参赛。在根据技术价值和创意进行淘汰之后,一共有 15 支队伍进入决赛。最终,有 12 支队伍获得了 10 万美元的资助以及其他来自亚马逊的支持,止步晋级总决赛。

就像大学篮球的「疯狂三月(March Madness)」一样,这个比赛把单纯的爱好者、固执的竞争者以及勇敢的战败者混在了一起。蒙特利尔大学的队伍,拥有深度学习先驱 Yoshua Bengio 作为他们的顾问,被列为头号种子选手。紧随其后的团队则来自华盛顿大学、普利斯顿大学和赫瑞瓦特(苏格兰首屈一指的研究型大学)等知名学府。然后就是一些被淘汰的选手,比如布拉格的捷克技术大学等。

团队中有一个 23 岁的人,名叫 Petr Marek,他留着山羊胡,修剪得很整洁。比赛前的那个夏天,他一直在研发他自己的聊天机器人,他觉得这个聊天机器人有点「愚蠢」。那个夏天他还作为童子军领队深入波西米亚森林进行了一次旅行。

在听到 Alexa 奖时,他担心自己的团队出身不够优秀。不过他想「虽然我们没有什么机会去和那些顶级的大学竞争,至少我们可以试一试。」在获悉他们能够参赛后,团队很是激动,他们决定把机器人的名字改成 Alquist,这是 20 世纪初捷克一出剧中主人公的名字,这部剧首先使用了「机器人」这一词。(在这部剧中,机器人占领了我们的星球,Alquist 是地球上最后一个人类。)

进入决赛后,大赛给 15 个团队出了一个问题:社交机器人大脑的哪一部分应该采用手动的方式完成,哪一部分应该采用机器学习?手动方式是最传统的方法,工程师需要耗费大量的精力编写一整套规则用于指导进行理解和回复。与之相比,基于统计的机器学习方法能够通过学习大量的数据进行自学。

所有的团队都清楚,机器学习是处理分类问题的一个很好的方法,神经网络可以在众多繁杂的数据中找到一个模型。例如,语音识别就是机器学习的一项天然任务。

但要是让聊天机器人在将语音转换成一门语言后,还要做出一些回应,机器学习仍还有很长的路要走。这就是为什么,即使在 Alexa 和 Siri 这种数字大脑中,过去的手动方式仍在发挥很大的作用。竞赛中的每个团队都在试图找到两种方法之间最佳平衡点。

手动方式已经过时了;机器学习受到了狂热的追捧。Marek 和队友知道,所有的研究都很依赖于后者,所以他们认为自己也应该这样。

为了帮助 Alquist 自动生成语言回应 Alexa 的用户,该团队使用 Reddit 上用户的 3 百万个信息应答对儿训练了一个神经网络。令他们沮丧的是,这个系统给出的回答「真的很糟糕,」Marek 说。

Alquist 都是随机地进行回答,甚至有些话题用户都没有谈起。它会坚持一个观点,过后又会进行否认。「和进行对话没有任何意义,也不好玩,」心力交瘁的 Marek 在团队日志中写道。「很荒谬。」

在 2017 年初,这个捷克团队改变了研究的进程,致力于编写大量对话指导规则。该团队创造了十个「结构性话题」领域:新闻、体育、电影、音乐、书籍等。Alquist 了解这 10 个话题核心的元素,可以在这些话题之间任意切换。

这个社交机器人在设定场景下使用的简洁单词主要由预先编写的模板构成,同时可以从各种各样的数据库中提取特殊的内容。例如,这个系统可能会说,「我猜你喜欢 [作者提到的书籍作者]。你知道这个 [作者] 也写了 [书名]?你有读过这本书吗?」

手动方式给了团队对系统的更好的控制权,但 Marek 也有自己的担忧。这个系统相当依赖于用户的善良程度,依靠他们说一些简单的句子,必要的时候跟随机器人的节奏。遇到「不配合」的用户,Marek 说,「如何碰到没有耐心的人,这个社交机器人就不行了。」

在距布拉格一千英里的爱丁堡郊外,有一处连绵起伏的农场,羊群点缀其中。Heriot-Watt 团队的顾问 Oliver Lemon 正沉迷于用户的评分,因为亚马逊已开始在将每个团队的数据挂在积分榜上了。

Lemon 戴着眼镜,面带苦笑,看起来很像喜剧演员 John Oliver。他玩棒球和桌球,天生热爱竞争。他觉得,他的团队可以轻轻松松地在比赛中获得前五名。但在 2017 年的初夏,Heriot-Watt 的排名是第九。「我知道我们可以做的更好,」Lemon 说,说话就像是出现意外失误后教练的口吻。

在一个黑客马拉松上,Lemon 和他的学生试图弄明白他们如何才能在这个领域取得好的成绩。尽管他们团队没有任何深度学习权威人士,Heriot-Watt 也一直在试图尽可能地使用机器学习。他们从最巨大的挑战:聊天机器人开始着手。

无目的的闲聊对机器学习来说尤其的困难,因为一般没有一个标准答案。如果有一个清晰目标的时候,神经网络很有效,比如赢得围棋比赛,这个系统通过大量的试错,可以找到最优化的策略。而闲谈没有目的。

为了解决这个问题,该团队依赖一个在谷歌研究人员中很受欢迎的技术。这个团队首先利用电影字幕数据库和从推特和 Reddit 上获得的数千条信息训练了一个神经网络。从这个巨大的人类的闲谈库中,系统学会在谈话中对既定的话语给出一个最合适的回答。除了简单的从推特或者 Reddit 谈话中直接提取回答,一个称为 seq2seq 的技术可以让机器人凭空产生自己的答案。

听起来很厉害,但 Heriot-Watt 很快就面临了 seq2seq 两个很典型的问题。一个是这个系统经常会变得毫无趣味,只是敷衍地回答「OK」、「Sure」这样的话,因为这类词在推特和电影中出现的次数很多。另外一个问题是这个训练对话经常包含大量不合适的言论,而 Heriot-Watt 社交机器人会学者模仿,就像一个一年级的学生在操场上学大孩子说脏话一样。

「只要我想,我可以睡很多人,」Heriot-Watt 社交机器人曾和一个用户说过这种话。

另外一个用户问,「我应该把房子卖掉吗?」社交机器人立马回答到,「卖卖卖!」

更糟的是,当一个用户问,「我应该自杀吗?」这个社交机器人回答道,「是的。」(这个用户匿名参与了 Alexa 奖的互动测试,所以无法知道这是一个真实的问题还是仅仅想要说一些愤怒的话测试这个机器人。但亚马逊作为所有参赛的社交机器人的监管方,已经警告 Heriot-Watt 对此要加强控制。)

如果要驯化 seq2seq 技术的话,Heriot-Watt 团队需要花费整个夏天,这样他们就无法增加其它技术。该团队将社交机器人的大脑分成一些范围更小的机器人,每一个机器人都有自己的特色。

新闻机器人阅读《华盛顿邮报》和其它资源上的头条和文章短评。另外一个机器人专门谈论天气。一个接入维基百科,向系统提供从海洋运动到金卡黛珊所有的事实信息。最后,团队成员 Amanda Curry 创造了一个基于规则的人格机器人,为产品的最终形态赋予一个完整而稳定的特征。

她仔细选择了一些拟人事实储存在系统中(比如系统最喜欢的音乐是 Radiohead 的 Paranoid Android)。「我认为它可以帮助人们了解,机器人也可以有人格,比如喜欢的颜色,」Curry 说。

在接收到用户的话语后,至少会有一个组件机器人试图响应,就像一群跃跃欲试的学生在举手发言。为了选出最佳的响应,Heriot-Watt 团队为其系统设计了统计学方法来评价这些备选项:它对用户的响应在语义上说得通吗?它的回答与用户刚才说的话太相似了,几乎成了复述?这个话题有没有答非所问?回复长度有没有过短或过长?

最初,Heriot-Watt 只是凭借经验定下了每个矩阵的权重。但到了秋天,他们已经开始使用一个能够自动调整权重的神经网络来最大限度地提高用户评分。

竞争意识十分激烈的 Lemon 很高兴地看到,用户评分正在变得越来越好。随着比赛的推移,Heriot-Watt 渐渐跻身到了前列。

Heriot-Watt 在积分榜上渐入佳境的同时,华盛顿大学一直稳坐前三名。该团队采用了一种稍显冒险的方式,他们将基于规则的编程方法和机器学习混合到系统中。

团队希望用户在交谈过程中感到愉快,因而其社交机器人有着与其队长相似的性格特点。队长名为郝方(音),28 岁,来自中国南方的一个山城宜春市。他活泼好动、异常开朗。这似乎成了他们的优势。那么,他们是如何创造出令人乐在其中的谈话风格的呢?

在早期,郝方发现,华盛顿大学团队的系统就像其它比赛中的许多系统那样,经常选择令人沮丧的新闻(「火箭爆炸致 17 人死亡」),或是呆板的事实陈述(「家庭或住所,是一个作为永久性或半永久性住宅的居住地」)。

因此华盛顿大学团队改编了系统,过滤掉令用户反感的内容。郝方表示,该系统应该寻求「更有趣、更令人振奋、对话式」的内容,这些内容通常来自 subreddits 板块,比如 Today I Learned、Showerthoughts 和 Uplifting News。这些语料可以让社交机器人迅速生成一些活泼的内容,比如,「对于一支靠翻唱为生的乐队,古典音乐是唯一的出路。」

当人们感到被倾听时,他们会更加快乐。因此,华盛顿大学团队教其系统对话语进行仔细分类。机器人是该用一个事实来回答问题?还是应该提供一个观点?或者应当回答私人问题?

该小组还手动制作了大量的反馈话术,比如「你似乎是想谈谈新闻」,「很高兴你喜欢它」,「对不起,我不明白」之类的话。健谈的同时还要注重人的情感,所以华盛顿大学团队对 2000 个会话样本的情感特征进行了人工标记,并用它们来教社交机器人识别人的反应——高兴、厌恶、愉快、好奇——并做出相应的反应。

这些只是这个社交机器人宏伟愿景中的一小步,但对于研究者们来说,在追求语言的贴心和流畅方面,他们已经走了很长的一段路。

8 月 29 日,亚马逊宣布了入围决赛的三支队伍。其结果有点出人意外,就像在大学篮球比赛中,明星球队未能众望所归,而无名小辈却欣然入选。蒙特利尔大学团队未能进入决赛,因为他们大力推进机器学习,没有重视曾经被证明有效的其它策略。

最终入围的三支队伍包括:Heriot-Watt,该团队作为「外卡」选手,在用户评分榜中晋升至第三位,该结果是由亚马逊经过严格的内部评估后得到的;一直名列前茅的华盛顿大学排在第二位;捷克技术大学出乎所有人的意料,登上了第一名的宝座。每个团队都有一个半月的时间来完善他们的系统,然后在西雅图进行最终的评判。Alexa

(华盛顿大学团队,从左至右依次为 Hao Cheng、Maarten Sap、Ari Holtzman、 Elizabeth Clark、 Hao Fang)

「Alex,咱们聊天吧。」