微软智能语音多情感技术升级,晓晓中文语音突破 14 种风格
IT之家11月6日消息 近期,微软发布了最新中文晓晓语音升级,中文晓晓新增了 10 种风格。升级后的该语音模型风格多达 14 种,处于行业领先水平。新增风格分别是适用于聊天(Chat)场景的语音,还有平静(Calm)、开心(cheerful)、悲伤(Sad)、愤怒(Angry)、 恐惧(Fearful)、 不满(Disgruntled)、 严厉(Serious)、撒娇(Affectionate)、温柔(Gentle)等。此次,微软升级的多情感技术,极大丰富了听众的收听体验,尤其在长文本收听过程中,可以很大程度缓解听觉疲劳,提升收听舒适度。
风格情感 | 文本 | 链接 |
平静 | 小动物太可爱了,你有养过宠物嘛? | |
开心 | 太好了,恭喜你顺利通过考核。 | |
悲伤 | 没想到,你居然是这么一个无情无义的人。 | |
愤怒 | 你,你太过分了,我们八年的感情真的完了! | |
恐惧 | 先生,你没事吧?要不要我叫医生过来? | |
不满 | 这你都不明白吗?真是个榆木脑袋。 | |
严厉 | 不要恋战,等待时机,随时准备突围。 | |
撒娇 | 老公,把灯打开好吗,好黑呀,我很怕。 | |
温柔 | 我今天运气特别好,如果没有遇到您,还不知道会怎么样呢。 | |
聊天 | 你怎么这么长时间都不说话呀,是有什么重要的事儿在忙吗? |
升级前微软中文晓晓语音拥有 4 种不同风格,分别是新闻(newscast)、客服(customer service)、助理(assistant)、抒情(lyrical),升级后支持多达 14 种不同风格,能在丰富的情绪和场景中自由转换,比如多情感有声读物、新闻、客服、助理、聊天等。可以满足不同领域客户的多样化定制需求。
IT之家了解到,微软发布的智能语音合成技术通过应用语音表现力迁移技术,仅利用少量表现力语料数据,便可以训练出具有高质量、高自然度表现力语音生成能力的源模型。该源模型通过对人类语音表现力特征的深入挖掘,获取了稳定性高,适应性强的语音情感表征,极大地丰富了合成语音的表现力与可控性,赋予了合成语音拟人的喜怒哀乐,弥补了传统人工智能语音合成技术中 “人情味”不足的缺憾。
理想的多情感技术将是每个声音都拥有几十种甚至上百种丰富细腻的情感表达,可以驾驭不同场景,根据内容表达自动适配情感。
微软智能语音多情感技术发布,代表语音合成发展的新趋势,将成为智能语音应用的 “标准配置”,实现用户体验新的突破。
试用微软智能语音多情感技术:https://speech.microsoft.com/audiocontentcreation
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。