不出声也能命令 Siri！康奈尔大学华人团队开发无声语言识别项链，中文英文都行

2022-02-16 15:33 量子位 - 金磊

这，或许是现在跟 Siri 交流最潮的方式了 —— 只需要动动嘴皮子，就能让它 under 你的 control。

没错，就是不需要出任何声音的那种。这就是来自康奈尔华人团队的最新研究成果 SpeeChin，无声语音识别。

像这样：

在没有声音的情况下，你能猜出来他在说什么吗（文末揭晓答案）？

但在 SpeeChin 的加持下，现在的 Siri、Alexa 等就已经可以识别，而且还支持普通话和英文！是有种“此时无声胜似有声”的感觉了。

不说话，怎么控制语音助手？

康奈尔团队研发的 SpeeChin，其实是一条神奇的项链。

戴上这条项链，就能开启无声语音控制的大门了。

例如对着电脑默念一句“Next”，音乐就会自动切换成下一首歌：

或许你会说一个单词过于简单了，别急，现在就来加大难度：“Switch to Taylor Swift.”

可见，SpeeChin 即便是面对一句完整的话术，也可以做到精准识别。而这条“无声识别”项链的关键，就在于安装在项链下方的红外摄像机。它可以捕捉到人物颈部和面部皮肤的变形图像，从而进行分析识别工作，确定从“嘴皮子”传达的是什么命令。而且这条项链不仅能无声识别英文，连中文（普通话）也能够 hold 住。

在最初的实验中，有 20 人参与到了测试中，其中 10 人讲英文，另外 10 人说普通话。研究人员让测试者分别用英文和中文发出数十条指令，包括数字、互动指令、语音辅助指令、标点指令和导航指令。最后的实验结果，“无声识别”的准确率分别达到了 90.5% 和 91.6%。

来自康奈尔大学的华人团队

这项研究来自康奈尔大学，一作是 Ruidong Zhang。

其中，Cheng Zhang 是这项研究的通讯作者。

他是康奈尔大学信息科学系的助理教授，他的研究聚焦在如何获取人体及其周围的信息，以应对各种应用领域中的现实世界挑战，如交互、健康感知和活动识别。

研究的一作 Ruidong Zhang，他是 Cheng Zhang 教授的一名博士生，本科毕业于清华大学。

他的研究兴趣在于人机交互和普适计算（ubiquitous computing），特别是建立新型的可穿戴设备，用来促进互动体验并加深我们对人类行为的理解。

至于为什么他们要做 SpeeChin 这项工作，据 Ruidong Zhang 解释：主要是考虑到在某些特定场合中，人们可能不适合发出声音；还考虑到一些不能说话的人群。

最后，来揭晓一下开头 GIF 的答案：

你猜对了吗？

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。