路漫漫其修远兮,微软和友商的“全双工”之路

  • 时间:
  • 浏览:0

在5月初举办的Google I/O大会上,Google展示了令人瞠目结舌的Google Duplex人机对话功能;而在本周召开的伦敦AI大会上,微软CEO萨提亚·纳德拉展示了“小冰”具有全双工打电话的能力。小冰是由微软研发的对话式人工智能,现在她将会拥有了5亿用户,都时要在微信等16个IM平台上和用户对话。将会国内许多一帮人对小冰无须陌生,她是人工智能界的95后,只是发布了另一方作词演唱的新单曲,又摇身一变成了诗人,帮人类创作诗歌,不久还将发布与人类联合创作的定制化儿童故事。

早在谷歌只是,小冰已具备全双工语音交互技术(Full-Duplex Voice Sense),实现“打电话”的能力,不同于谷歌,小冰的全双工技术已完成产品化落地。据了解,自2016年8月起,在明确告知用户的前提下,小冰将会和人类用户累计完成了超过1000万通全双工电话。微软还与小米生态链合作者者推出Yeelight语音助手,据微软称,这也是市面上首个使用了全双工语音技术的IoT产品。微软此前还宣布,用户与Yeelight语音助肩上的小冰最长的一次对话进行了6个小时之久,这场对话共涉及8个领域,55个话题,小冰还帮助用户完成了16个任务。在本次大会上的一段小冰与用户交谈的视频中,小冰才能用全双工语音和用户电话交流,主动关心对方,还顺便帮用户完成了设定闹钟、提醒天气等任务。

演示视频观看:点此链接。

但都时要发现与谷歌Duplex相比,小冰的语音自然度落了下风。在Google I/O大会现场,新一代谷歌语音助手不仅顺利完成了电话预约理发店的全过程,或者在交谈中还冒出了“嗯哼”另有另另一一5个的语气词,引起了全场的尖叫。据了解,谷歌将在今年夏季与合作者者厂商发行这些 搭载了“谷歌语音助手”带显示屏的音箱。

微软和谷歌,不约而同地相继选用了全双工的对话模式,让你工智能和人类如通电话一般地进行双向交流。相对地,以亚马逊Alexa、苹果4 6Siri为代表的智能语音助手所使用的技术则是“半双工”,这就像往有另另一一5个面对面交流的人手里塞了两只对讲机,让亲们通过对讲机一问一答,或者,亲们之间的对话都上能才能 围绕有另另一一5个选用的任务或问答进行。半双工模式下人工智能也都时要对答如流,但这无须代表半双工是并不是自然的人机交流最好的法子。人永远是提问者,而智能语音助手负责寻找答案,这也是许多一帮人认为使用智能音箱很费劲的原应着。

不过,同样选用了全双工语音的微软和谷歌,技术上的实现最好的法子无须相同。

谷歌Duplex的核心是循环神经网络,值得注意的,Duplex的训练数据来自许多具体的场景,同类预定餐厅,让AI才能充分地学习什么封闭场景音频中的结构、对话历史、对话参数(比如要预定的服务,当前时间)等等。在系统运行中,输入语音先经过自动语音识别系统(ASR)处置,生成的文本会与上下文数据以及其它输入同时输入RNN网络,生成的应答文本再通过文本转语音(TTS)系统读出来。谷歌还花费了数月时间分发真人声音,训练出声音和语调与真人几乎一致的TTS语音系统。在语言理解、交互、时间控制、语音生成上的技术突破帮助谷歌Duplex获得了相当真实自然的语音,也才能出色地帮用户完成某项具体的任务。

微软小冰的学习电话交流的过程更为漫长。最初小冰的设定是以EQ为发展方向的对话式人工智能,过去几年中,小冰在5个国家的IM平台上和人类进行了几瓶的对话交流,积累了超过1000亿轮的超大规模对话数据,这让生成模型得以应用。微软此前表示,小冰不是也才能做到区别于许多产品的长程语音,其中的关键之一便是小冰应用了生成模型,都时要根据用户的问题图片图片自创宣布,区别于以往通过理解用户的问题图片图片,寻找最大慨一段话作为回答的最好的法子。此外,微软还应用声音场景识别、节奏控制器等技术增加小冰对话的真实感。什么技术让小冰都时要针对开放领域的任意话题展开对话,还才能主动控制对话节奏,甚至引导对话方向。

谷歌在Google AI博客中表示,在研究中,把Duplex的功能限制在封闭的场景中是非常重要的,什么场景暗含的内容非常少,都时要让AI充分地学习什么场景中的对话。也许多许多说,谷歌Duplex良好的对话表现都上能才能 限定在许多特定的场景和具体的任务中,一旦对话每种了场景和任务,Duplex就无法施展拳脚。

与谷歌不同的是,小冰的对话不局限于某个场景或任务,这或许在并不是程度上限制了她的语音自然度,但也让她都时要和人类谈论任何有另另一一5个话题,而其中什么看似无用的闲聊,将会经过几轮对话只是引发出有另另一一5个关键的任务需求。从技术实现来看,显然开放领域的聊天似乎更困难许多,AI并这麼像人类那样举一反三的能力,若要让AI学好聊有另另一一5个话题,就时要对它进行这些 话题的训练。

微软和谷歌相继推出全双工语音技术,似乎预示着人工智能业界的顶级公司正在朝同有另另一一5个方向前行,要让你机交互真正转变为人机交流。或者,全双工技术谁先谁后发布,技术上谁长谁短,当下或许还这麼必要争夺。不管是谁家的AI,距离产品真正的广泛应用,还任重而道远。