直接开源，阿里达摩院公布下一代工业级语音识别模型

2022-12-22 14:54IT之家 - 长河

IT之家 12 月 22 日消息，阿里巴巴达摩院今日发布了新一代语音识别模型 Paraformer，适用于语音输入法、智能客服、车载导航、会议纪要等场景。

据介绍，这是业界首个应用落地的非自回归端到端语音识别模型，在推理效率上最高可较传统模型提升 10 倍，且识别准确率在多个权威数据集上名列第一。目前，该模型于魔搭社区面向全社会开源。

数据显示，配合 GPU 推理，不同版本的 Paraformer 可将推理效率提升 5-10 倍。同时，Paraformer 使用了 6 倍下采样的低帧率建模方案，可将计算量大幅降低，支持大模型的高效推理。

IT之家了解到，阿里达摩院方面表示，Paraformer 是阿里巴巴研发的下一代“杀手锏”级别的语音识别基础模型，未来将广泛应用于会议纪要产品“听悟”、钉钉语音转文字、高德导航等场景。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。