清华可穿戴智能喉登 Nature 子刊,实测准确率 90%+
- 量子位
2023-03-14 12:33
原文标题:《清华可穿戴智能喉登 Nature 子刊,实测准确率 90%+,网友:@李雪健老师》
将一块仅硬币大小的圆片,贴在喉咙处,嗓子有问题的人就可以重获新“声”了。
这是清华大学发表在 Nature 子刊上的最新研究成果,一个用石墨烯材料做成的可穿戴喉咙。
它可以准确识别到佩戴者喉咙处的细微振动以及模糊的话语,然后将之合成为正常的语音,平均识别准确率高达 99.05%。
据称,这款设备在噪音非常大的地方也好使。
如此一来,那些不能正常发声的人,包括喉切除患者、临时嗓子发炎者、长时间讲课的老师、在嘈杂环境工作但需要交流的人等,都有救了。
当然,还有不少人直接 cue 起了李雪健老师。
清华可穿戴智能喉,患者实测准确率 91%
要说帮喉咙有问题的人解决交流问题,科学家早就在研究了。
不过此前的一些方案由于带有一系列外设或者多通道电极,通常具有侵入性且不够便携。
要解决这俩问题,需要感应器足够灵敏且小巧,在外部就能使用。
还需要足够贴合皮肤。
因为理论上,喉部的振动反映的是声带以及相关肌肉群的运动。
一些声带发声有障碍的人,可能会训练食管发声,因此,需要柔性传感器来保持对皮肤的贴合从而照顾到这一部位。
好在,有这么一种东西可以满足这些需要。
它就是用柔性激光直写(laser-scribed)石墨烯(LSG)制成的机械传感器,专门用于身体表面。
不过,由于不确定这种设备对低频肌肉运动和传递到皮肤表面的声音振动是否敏感,作者团队对它的蜂窝状微观结构进行了优化。
最终,它可以做到在 > 1000 次的弯曲测试后仍表现出均匀稳定的灵敏度,准确识别出频率范围在 100–20kHz 之间的振动信息。
由于 LSG 薄膜具有导电性和导热性,这种设备也可以通过热声效应产生声音。在声音发射稳定性的实验中,作者证明它可以做到连续三小时都保持稳定。
下面是这款可穿戴智能喉的工作流程:
首先,设备将收集到的振动信息编码为标准脉冲编码调制(PCM)信号。
然后通过快速傅里叶变换(FFT)生成相应的频谱图。
接着通过模型进行外部处理和识别,将检测到的多模态信号转换为相应的语音。
最后通过热声效应驱动设备发声,帮助佩戴者完成交流。
实验表明,这款设备对音素、音调以及单词的识别准确率平均达到了 99.05%。
下图则显示了设备在不同强度(dB)噪音下的识别精度。
可以看到,它在环境噪声超过 60dB 的情况下,也能保持识别能力,抗噪能力远远优于麦克风。
“Talk is cheap”,作者也进行了实战测试。
他们找来一位完成了喉切除(非全切)手术的志愿者,检测六个日常短句的识别情况。
从频谱图可以看出,可穿戴智能喉可以感知患者喉咙的发声振动。
不过由于发声器官不完整,患者有时会在说话时吞咽声音。不过微调模型仍然能够从信号中提取足够的信息,将识别准确率做到 81.25%。
接着,他们又对用到的单个 AlexNet 模型进行了优化(Alex Net+ReliefF+SVM),最终实现了 91% 的识别精度。
总的来说,由于制造工艺可行、灵敏度高、性能稳定、抗噪能力强以及集成了发声能力,作者认为,这款可穿戴喉咙可以成为下一代语音识别和交互系统的理想工具。
而网友们也脑洞大开:
有让加个音色调节的过滤器,变成可穿戴变声器的;
也有说来个实时翻译,就让人直接拥有说多种语言的能力的。
你觉得还有哪些妙用?
论文地址:
https://www.nature.com/articles/s42256-023-00616-6
参考链接:
https://weibo.com/1231317854/MwsEvkugi?refer_flag=1001030103_
本文来自微信公众号:量子位 (ID:QbitAI),作者:丰色
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。