日产 45 亿词，“地表最强语言模型”GPT-3 已落地 300 多个应用

2021-04-03 09:01 智东西 - 屈望苗

4 月 3 日消息，据 The Verge 报道，OpenAI 最近宣布，其人工智能文本生成器 GPT-3 现已被数万开发者用于 300 多个不同的应用程序，每天输出 45 亿词之多。

报道称，虽然 GPT-3 生成的大部分文本都很生涩，但如此大的输出量也反映出，AI 文本生成技术的规模、影响和商业潜力正在不断增长。

一、约 2000 亿个单词的训练，让机器“开口说话”

GPT-3 的全称叫生成预训练转换器 - 3 （Generative Pretrained Transformer-3），这套强大的“大型语言模型”于 2020 年 6 月问世，训练了大约 2000 亿个单词，估计花费了数千万美元。

目前，文本生成是机器学习的一大趋势。人工智能系统从互联网上抓取大量的单词进行学习，并根据各种提示生成文本。学习完成后，机器就可以实现一系列功能，比如创作小说、编写潦草的代码，以及让用户对话历史人物等。

二、众多公司申请使用 GPT-3 通用 API 以构建服务

获取 GPT-3 底层代码是 OpenAI 的一项商业服务。GPT-3 与微软签订了独家协议，允许微软独家访问 GPT-3 程序的底层代码。

不过，任何公司都可以申请使用 GPT-3 的通用 API，并在此基础上构建服务。目前已经有数百家公司这样做了。

美国一家名为 Viable 的客户反馈分析公司采用了 GPT-3，从调查、服务台票、实时聊天记录和评论中识别出“主题和情绪”；美国的 AI 虚拟形象公司 Fable Studio 使用这个程序实现了用户跟虚拟形象的对话；美国旧金山的人工智能搜索平台 Algolia 也在用它改进自己的网络搜索产品，然后卖给其他客户。

三、难逃同质化、文本质量堪忧，应用仍存难点

GPT-3 的大量使用对 OpenAI 以及微软来说都是好消息，因为微软 Azure 云计算平台能够为 OpenAI 提供更强大的技术支持，但并非所有创业公司都对此感兴趣。

据分析人士观点，如果不是真正拥有这项技术，那么一家公司全靠 GPT-3 来构建业务是十分不明智的选择。

主要原因在于，尽管使用 GPT-3 能让公司和业务的创建更加简单，但自己的竞争对手也同样能这么做。就算能通过品牌和用户界面让公司业务打出差异化，技术背后所产生的大量收益还是归 OpenAI 所有。

与此同时，GPT-3 的智能文本输出质量也存在令人担忧的问题。和许多算法一样，GPT-3 也会吸收和放大有害的偏见，这有时会让它犯下“愚蠢的错误”。例如，在使用 GPT-3 构建的医疗聊天机器人进行测试时，该模型曾鼓励“有自杀倾向”的病人去自杀。

▲测试中，GPT-3 鼓励有自杀倾向的用户言论

去年 9 月 4 日，蒙特雷的米德尔伯里国际研究所的两名研究人员在 airXiv 平台上发布了一篇论文，文章提到，GPT-3 在生成激进文本方面远远超过上一个版本 GPT-2。对此，OpenAI 也在开发工具，帮助用户更好地控制 GPT-3 生成文本。

结语：机器对话来临，还需摸索前进

OpenAI 的“45 亿字”里程碑说明了，像 GPT-3 这样的智能文本生成工具目前已经在大量生成机器对话，并且已经被开发者大量地采用。

但当前来看，实际应用中算法还是会造成错误、不公和偏见，过于依赖算法未必是好事。这类问题仍然值得关注，因为 AI 文本生成的机器对话还会继续下去、甚至愈演愈烈。

或许在未来，我们会迎来一个充满机器人生成对话的世界。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。