最近,科大讯飞举办了 2023 年全球 1024 开发者节,全新讯飞输入法 13.0 版本亮相,这也正临近讯飞输入法诞生 13 周年,本次大版本升级最大的看点就是推出了行业首款生成式 AI 输入法。
如今生成式 AI 的发展方兴未艾,而它与万物智联时代基础入口的输入法结合,也是必然的一步。今年 8 月,讯飞输入法率先发布了基于大模型的 AI 创作助手,覆盖 6 大场景,适配 60 多款应用,按下了大模型应用的“启动键”。而这次讯飞输入法 13.0,则是基于全新的输入法认知大模型,将生成式 AI 能力矩阵融入输入法的主场景,再次按下大模型应用的“快进键”。
它的愿景,是构建人机交互新模式,实现秒懂用户需求,生成精彩表达,连接多元服务。
这样的愿景背后意味着什么?讯飞输入法又是如何去实现的?一切还得从“输入法”本身说起。
输入法,既是人机交互的基础工具,也是互联网以及万物智联时代的入口级产品。多年以来,输入法主要随着人机交互技术的进步以及智能终端产品的丰富而不断发展,但整体来看,可以将它这些年的发展分为两个阶段。
以中文输入为例,第一阶段是五笔 / 拼音 / 手写输入,也就是我们熟悉的键盘打字、手写识别。第二阶段,随着 AI 语音识别技术进步,语音输入逐渐成为越发重要的输入方式。
根据易观分析 2022 年底做的调查报告,语音输入在国内的渗透率已经超过 40%,成为用户最广泛使用的输入方式之一。
值得一提的是,中文语音输入的开创者正是讯飞输入法,十三年前他们通过这一源头创新,为人机交互方式翻开了新篇章。这十三年里,AI 语音输入技术持续进化,在识别准确率、支持的语言类型方面都有了长足的进步。以讯飞输入法来说,目前语音识别率已超 98%,并已支持 26 种方言、5 种民族语言、30 多种外语的语音输入,实现了由工具产品向智能交互产品的转换升级。。
同时,讯飞输入法凭借持续创新的语音输入,为用户提供了独特的输入效率价值。一组最新数据显示,讯飞输入法日语音渗透率提升 18%,日语音调用量提升 35%,日活提升 10%,在背后提供强大支持的讯飞 AI 语音技术功不可没。
技术进步只是推动输入方式发展的因素之一,输入法在深入我们互联生活的同时也在解构我们的使用场景,满足不断发展变化的用户需求。当下随着 5G、AI 等技术的日益成熟,万物智慧互联的时代正在加速到来,新的用户需求涌现,输入法所承载的人机交互的使命也需要随之变革。
那么,语音输入之后的下一代输入法会是什么样?
Mob 研究院最近在 2023 年中国第三方输入法行业洞察报告中指出,“AI + 输入法 + 场景”正成为行业标配,进一步他们认为“输入法 + AI 大模型”将成为未来的重要趋势。
有一点可以肯定的是:“AI”一定会成为输入法下一阶段发展的重点。其实,“语音输入”本身就已经是 AI 赋能输入法发展的体现,因为人工智能本身也就是人机交互最前沿的形态,而作为人机交互基础工具的输入法,自然也深刻受到 AI 技术进化方向的影响。
从 AI 的角度来看,从 ChatGPT 火热出圈开始,生成式 AI 认知大模型已经在全球掀起新一轮技术浪潮。过去人们总说“AI 改变世界”,但到底如何改变,答案一直是模糊的,生成式 AI 的发展和应用,仿佛让人们第一次明确感知到“AI 真的可以改变世界”,改变我们生产和生活的方式。
可以预见,人工智能正迎来“智慧涌现”的大模型时代,在这个时代,AI 大模型将赋能千行百业,从底层重构生产力,作为人机交互入口的输入法,与 AI 大模型能力深度融合,自然也是必须要迈出的一步。
在确定了方向和趋势后,接下来的问题就是:生成式 AI 到底应该怎样和输入法进行融合?
这个问题也许不同的产品会给出不同的解法,而讯飞输入法 13.0 版本给出的答案是:在定制的输入法认知大模型加持下,讯飞输入法拥有了智慧表达和智能连接的超能力,并且具有自适应和自进化的特点。
作为全新一代输入法,讯飞为了帮助用户更好的理解数字世界,首先重构了交互界面。
据了解,在 10 多年前,讯飞输入法定义了上方工具栏 + 下方键盘的现代输入法基本形态。
随着社会数字化的深入,用户对输入法的需求超越了单纯的文字输入。因此,讯飞输入法思考着在人机交互方面再向前迈出重要的一步。
“活力视界”的全新设计,就是讯飞输入法努力打造的数字窗口,在屏幕与键盘之间留有更大的空间,赋予推荐区更丰富的属性。IT之家也对讯飞输入法 13.0 做了抢先体验,具体来说,在讯飞输入法 13.0 种,打开 AI 输入模式,即可在键盘上方开启“活力视界”。
讯飞看到,在新一代 AI 浪潮下,用户对输入法的需求全面升维。从原本单纯输入文字,发展到主动生成表达,已是不可逆的趋势。
智慧表达,就是输入法要能够理解用户的意图,替用户说话、替用户更好地完成表达,以及主动帮助用户创作内容。
讯飞输入法 13.0 内置刚发布的输入法认知大模型,赋以精心调教的生成式 AI 能力。接下来,就让我们先看讯飞输入法 13.0 如何帮助我们更好的完成表达。
比如在聊天这一场景中,你想在晚上的聚餐群里告诉大家不能喝酒,思来想去不知该如何表达,这时就可以在活力视窗的高情商沟通里输入“告诉大家我不能喝酒”,讯飞输入法基于你输入的内容,生成一段高情商的得体表达,再也不用冥思苦想或者去网上苦苦搜索了。
再比如你需要在团购网站上给餐厅写评价参与优惠活动,也可以通过讯飞输入法的购物评价 AI 服务,让它根据你的意思创作一段评价文案,避免左思右想写不出来的尴尬。
你还可以让讯飞输入法帮你对文字进行润色,比如你写了一句“今晚月亮很圆”的句子,觉得不够优美,就可以用“润色达人”的 AI 服务帮你润色这句话,还能选择不同的风格,再也不用担心文采不够了。
类似的使用场景还有很多,都是在从具象的需求和具体的场景去解决大家在实际沟通表达中遇到的问题,让你从未觉得“输入法还能这么有用”。
不仅如此,作为新一代生成式 AI 输入法,讯飞输入法正在跳脱工具属性,变身为助手服务,在你需要的正确时机向正确的人提供完整服务。
比如它可以基于用户不同场景输入内容智能匹配输入场景内多元服务,也可以根据用户输入意图,连接输入场景外的内容及服务。
举个例子,当你准备发一条朋友圈时,打开讯飞输入法 13.0,就会发现它已经智能地将 AI 服务匹配到“朋友圈”文案了,同样,当你想发一条小红书种草帖子时,打开讯飞输入法也会发现它已经明白了你的意图,匹配到了“种草文案”,这样你就可以直接使用,整个过程非常自然。
同时讯飞输入法 13.0 还能根据你的输入意图,智能连接场景外的内容和服务。比如小编在聊天的场景里和朋友谈论一家餐厅,打出了“这家店”,输入法就根据小编过去的聊天历史,猜中了我的意图,先后联想到“真心”、“不错”,当打完之句话,输入法的活动视窗就直接连接到了“帮你扩展”这个聊天场景外的服务,小编尝试使用了一下,它果然帮我写了一段详细介绍这家店哪里不错的文字。这种输入服务跨场景随想随到的体验,让整个沟通交流的流程都变得省心高效了。
此外,自适应以及自进化,就是在你长期使用的过程中,讯飞输入法 13.0 会越来越了解你的输入场景和表达习惯,从而无论是辅助表达还是内容创作,都能更准确地贴合你的意图和喜好,也就是越来越懂你,从而让输入法也能千人千面,更好的满足每一位用户的个性化需求。
这就是讯飞对于生成式 AI 输入法如何落地到具体产品中所给出的解答,从IT之家的体验来看,它确实做到了“AI”+“场景”+“输入法”的美妙融合,能够对用户在各种场景下的交流、表达效率和效果有非常明显的提升,假以时日,随着生成式 AI 技术以及产品本身的不断完善,相信它真的能够实现“构建人机交互新模式”的革命性愿景。
从 13.0 版本回过头去看讯飞输入法这十三年的发展,AI 是他们深耕 13 年的杀手锏,同时,跟着用户的需求“与时俱进”不断革新,则是他们能够越来越出色的根本原因。
科大讯飞输入法业务部总经理程坤曾在接受媒体采访时表示,他们做第一版讯飞输入法时,初衷就是提升输入效率,提供极致服务。提高效率的武器是“AI”,无论是独树一帜的中文语音输入还是基本输入体验,都有 AI 作为基础支撑。
而当能解决大众普适化服务的需求被满足后,新的需求又会衍生出来,比如在万物智能时代面对设备多样性会有新的需求,面对输入场景的复杂多样会有新的需求,面对更多元的用户群体,也会有新的需求。而讯飞输入法一直没有停步,在不断地发现新需求、解决新问题,例如在上一个大版本中,讯飞输入法还针对这些新需求实现了噪声、远场复杂环境的语音识别、20 多种方言免切换、AI 智能化表达助手的多场景覆盖等能力。
正因如此,讯飞输入法才能持续受到大众的认可。根据最新的数据,2023 年 10 月,在输入法行业已经成熟的背景下,他们产品 DAU、日语音渗透率、日语音调用量、00 后用户占仍然能获得突破,用户规模增速蝉联行业第一。
这让我们相信,在下一个生成式 AI 输入法引领的时代,讯飞输入法会带来更大的想象空间和更强的竞争力,让“输入”这件再基础不过的事儿在万物智联的世界里迸发出新的生命力。
而我们能够如此相信的原动力,还是在于讯飞输入法背后坚实的技术底座 —— 这里指的,自然就是讯飞星火 AI 认知大模型。
就在 9 月初,讯飞星火认知大模型正式面向全民开放。要知道讯飞星火在今年 5 月才正式发布,到正式全民开放不过四多月的时间,其技术迭代速度已然令人咋舌。
同时,在新华社研究院中国企业发展研究中心、《麻省理工科技评论》中国等权威平台发布的大模型评测报告中,讯飞星火 V2.0 均取得了总分第一的成绩,并被 MIT 科技评论认为是“最聪明”的国产大模型。
在本次科大讯飞全球 1024 开发者节上,讯飞星火也如期迎来了 V3.0 的升级,在通用人工智能的七大维度能力得到进一步升级进阶,作为链接“数字世界”有效手段的大模型代码能力更是重磅升级,整体超越 ChatGPT,夯实大模型国内应用第一方阵的实力。
而在技术的创新性上,我们就说支撑这一次应用在讯飞输入法上的突破,就是在多模态能力上,讯飞星火实现了将语音、图像、视频等模态对齐到统一语义空间中,实现语义的贯穿、衔接以及多模态协同涌现。因此我们才能在讯飞输入法 13.0 上用上例如“AI 皮肤”、“AI 头像”、“AI 造字”等一系列生成式 AI 底层技术之上的独特创新功能。。
类似的领先性技术还有很多,如前所提到的输入法认知大模型实现了将识别、翻译、语种分类等多任务聚合,让信息互享互通。因而能够在输入法上做到多种方言多种语种免切换自动识别、翻译,这些也都是领先于行业的体验。
最后,星火认知大模型正在构建“1+N(重大行业)+X(细分行业及产品)”产业发展生态体系,讯飞输入法则是“智慧输入”的重要行业应用。随着整个生态体系的不断完善,讯飞输入法与各行各业应用场景的连接紧密度必然也会迎来质的发展,这对于讯飞输入法向 B 端的发展也带来了更广阔的想象力。
自从移动智能终端出现,在触控屏幕上行“如何更舒适高效地输入”是伴随行业发展最基本、但很多产品都没能解决好的问题。
但讯飞输入法没有因为这件事“难做”而放弃,并且幸运的是,这件事恰好天然适合以 AI 技术见长的讯飞来完成。
因为在人机交互的过程中,“输入”这个行为的本质还是要让人的意图被机器理解,从这一点出发,曾经我们熟悉的键盘打字、手写等,都是机器智能化程度不够而妥协的产物,而 AI,才是输入这件事的终极答案。
讯飞输入法从一开始就锚定了 AI 这一点,多年以来坚持从产品定位、功能和设计等全方面强化 AI 对输入法的赋能,最新的讯飞输入法 13.0,就是在生成式 AI 时代来临时,讯飞对“生成式 AI 输入法”这一必然趋势的前瞻布局和占位。
而在万物智能逐渐成为现实的今天和未来,相信在讯飞输入法的引领下,“输入”这件事可以变得前所未有的轻松,人机交互也真的能迎来一场久违的变革。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。