AR 眼镜语音转文字实测,效果像开了弹幕,对话记录可保存回溯

AR 眼镜字幕功能效果到底咋样?

实测来了!

不光语音能实时转成文字,还能分辨说话人主体,甚至还能把文字记录都保存好,方便以后回溯。

今年,一家来自英国的一家 AR 初创公司,大开了个脑洞。

他们把语音转文字的功能,搬到了 AR 眼镜上,让转好的文字能快速直接呈现在人们眼前。

主要目的就是为了服务听障人群

毕竟在很多情况下,即便有助听器的帮助,听障人群还是需要有文字作为参考信息。

而通过 AR 眼镜的方式,生成字幕能直接呈现在人们眼前,接收信息能更加方便和迅速。

具体效果如何?往下看~

有种开弹幕的感觉

体验的效果大概如下左图所示,会有一个对话框,里面将标注说话者及对应语音内容。

体验者西蒙・希利(Simon・Hill)说,在刚戴上 AR 眼镜听对方说话时,它的文字转录准确率非常不错。

效果有点像平常用语音实时转文字的功能,在语音结束前,文本内容会一直有调整,最后等一段话说完,才会有个最终版本。

不过在对话情景下,两个人多聊一会,语音转写的速度会变慢一些。

XRAI 内部人士表示,这是因为语音转文字的计算在云端上进行,有延迟很正常。

而且不止是实时转录,这个功能还支持搜索历史记录,在 AR 眼镜端和手机端都能搜,有点聊天软件那感觉了。

录下的语音在转写完成文字后,就会被立即删除,XRAI 还强调这些文本也是只有用户自己可见

如果没有 AR 眼镜,也能在手机上体验 XRAI 的功能。

有网友也戴着眼镜体验了一下,表示这个功能在转语音的速度上还是很快的,而且在 AR 界面里的呈现也不错。

缺点是需要选一下要识别的语言种类,在这里她测试的是法语。

除此以外,西蒙大哥在体验中,也发现了一些小问题。

比如按照 XRAI 的设想,听障人士使用这一功能,需要一副 AR 眼镜 + 一款安卓手机。

是的,该应用暂时还不支持 iOS 系统。

而两台设备加起来,拿着比较麻烦,尤其是在 AR 眼镜重量还没有降下来的情况下,听障人士要戴人工耳蜗、还要戴一副 AR 眼镜,舒适度肯定不高。

西蒙表示:

我无法想象如何整天带着他们。

以及语音转文字的效果,西蒙也提出了一点质疑。他表示,对于听障人士来说,需要文字作为参考信息的情景,很可能是比较嘈杂的场所,这对于语音识别的算法提出一定要求。

而他在体验 XRAI 这项功能时,公司 CMO 特意把他领到了比较安静的环境演示,并坦言在嘈杂环境中的效果还不是很好。

以及在价格上,XRAI 上线的 AR 眼镜是 Nreal,国内售价 2299 元起,海外售价为 379 美元。

XRAI 的服务也并不完全免费,基础免费版只能保存 1 天的对话记录,另外还有 20 美元 / 月、50 美元 / 月两种套餐可以选择。

如果选择 50 美元 / 月的套餐,在基础功能上还将加一个人工智能助手。

但西蒙表示,作为一个还在起步阶段的产品,有缺点可以理解。

更关键的是,他们从无障碍的角度出发想要帮助听障人群,这一想法还是令人感到欣慰。

背后公司 XRAI Glass

提供这项服务的公司来自英国,名叫 XRAI Glass。

公司 CEO 为丹・斯卡夫(Dan Scarfe),他曾在高知特微软业务组(Cognizant Microsoft Business Group)担任首席问题官。

CTO 蒂姆・斯卡夫(Tim Scarfe),获得了机器学习专业博士学位,也曾在微软工作。

按照领英显示,该公司在今年 7 月才刚刚成立。

合作的 AR 眼镜厂商 Nreal 于 2017 年成立,创始人徐驰曾在 Magic Leap 工作过。

参考链接:

  • [1]https://www.wired.com/story/xrai-glass-caption-ar-glasses-first-look/

  • [2]https://www.auganix.org/xrai-glass-launches-its-real-time-augmented-reality-closed-captioning-app-to-users-globally/

本文来自微信公众号:量子位 (ID:QbitAI),作者:明敏

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

文章价值:
人打分
有价值还可以无价值
置顶评论
    热门评论
      文章发布时间太久,仅显示热门评论
      全部评论
      请登录后查看评论
        取消发送
        软媒旗下人气应用

        如点击保存海报无效,请长按图片进行保存分享