微软小冰全双工技术：让对话像河流一样进行

2018-03-29 21:18新浪科技 - 辛苓

一周前，微软正式宣布“全双工语音交互感官”已完成产品化落地。与既有的单轮或多轮连续语音识别不同，这项新技术可实时预测人类即将说出的内容，实时生成回应并控制对话节奏，从而使长程语音交互成为可能。

昨天，微软（亚洲）互联网工程院副院长、微软小冰全球负责人李笛和微软小冰全球研发负责人、首席架构师周力，与媒体分享了微软对这项新技术底层框架设计的探索。

李笛介绍，目前全球范围内，对基础框架的基本理念可以分为两种：Turn-oriented和Session-oriented，对应的产品分别是小娜和小冰。

Turn-oriented框架支持下，每一次对话进入后都会面对一个十字路口，路口中心有指挥交通的民警，当一个命令输入，民警负责根据指令进行引导。

比如询问小娜天气，她会迅速把你引导至“天气”方向，提炼相关内容，然后输送出来。当天气的任务完成以后，“民警”重新回到十字路口中心，一切归零，下一个问题会是个新的开始。

当遇到解决不了的问题时，小娜会通过control引导到搜索引擎来完成。这种方式可以更便捷地解决问题，却不是很好的对话。Turn-oriented的上限决定了她未来的发展空间有限。

所以有了小冰，她的技术底层框架是Session-oriented，使得“完成任务”与“无用聊天”混合在一起，让对话像河流一样不间断进行，从一个turn往下一个turn走。整个Session的质量要优于单一任务完成的质量。

▲小冰的设计，是把EQ作为基础来展现IQ

这样的小冰，在夫妻争论谁应该做家务时，甚至可以参与讨论。

李笛认为，AI本身应该先于硬件成为让人们依赖的最重要的因素。当小冰这样的人工智能系统出现，无论是IOT、车载、家庭等环境，都是人工智能的一个载体，而非人工智能成IOT、音箱等硬件产品的一个功能。

“一旦你使用过微软小冰，就很难退回到过去的Turn-based的体验。”李笛说到。

对于Session-oriented，周力在会上进行了四点技术方面披露。

1、边听边想

全双工语音具有流式思路，又叫预测模型，具有这项技术的小冰对语音的识别不再是一条消息、一条消息的识别，而是一个字、一个字的识别，同时识别出目前可能的话，预测对方整句话是什么。这就让操作与对话都更流畅。

2、节奏控制器

这点的作用，是小冰会根据人话量大小与内容，调整自己的话量。

3、对声音场景的理解

这点包括对对话对象性别、情绪的识别，对背景声音、歌声与任务下达的差别、与第三方对话等等的识别与理解，等等。

4、自然语言理解与生成模型

深度学习中，有一种循环的神经网络，叫RNN，衍生出的技术如GLU、LSTM等等。它会把输入话的每一字或单词转化成向量，在这个向量中，人每多说一个字就进行一次迭代计算。

这就让输入、输出以流的形式进行，生成模型更适于引流性交互。

在这种生成模型下，对话可以实现更好的浓缩性，当人说出第一个词，小冰已经开始生成对应的语音音频的文件，她的上下文在整个session完成之前就已经被计算过了。

该生成模型也可以帮助理解场景，更好的判断何时结束对话。

李笛最后表示，自己最近听到一个说法，现在的硬件要成功，30%靠内容，30%靠价格和销售渠道，30%靠工业设计和语音质量等等，剩下的，并没有给人工智能留下很大空间。而这次微软小冰全双工技术的分享会，正是这些多年沉迷人工智能技术的研究者们在向外界传递一个信息：当我们聊人工智能的时候，技术或许才是真正的核心。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。