OpenAI SearchGPT 官方演示大翻车,源代码竟暴露搜索机制
- 新智元
2024-07-28 17:33
SearchGPT 发布刚过两天,已有人灰度测试到了。今天,网友 Kesku 自制的 demo 全网刷屏,SearchGPT 结果输出如此神速,让所有人为之震惊。
当询问 Porter Robinson 出了新唱片吗?只见,SearchGPT 眨眼功夫之间,即刻给出了答案「Smile」,最后还附上了链接。
再来看移动版本的回答速度,回答延迟几乎为 0。
评论区下方,震惊体铺屏。
但另一方面,OpenAI 当天放出的官方演示,被外媒《大西洋月刊》曝出其中的问题。在回答「8 月在北卡罗来纳 Boone 举办的音乐节」的问题时,SearchGPT 竟弄错时间,出现了幻觉。
说好的,要取代谷歌呢?
全网一手实测来了
Kesku 自己测试的另一个 demo,呈现了 SearchGPT 的小部件。她发现的一个现象是,SearchGPT 倾向于强烈关注搜索结果。「有时就需要明确告诉它,自己想要做什么,而不是想从网上得到什么」。
比如询问它伦敦天气,SearchGPT 先给出了未来七天的天气预报。
在伦敦野餐的最佳时间和地点有什么,类似小部件的形式给出了几个备选项。
Kesku 还在移动端测试了一些例子。
查询英伟达股票,会给出英伟达股票整体的可视化图,随后给出了一些分析。所有股票信息都被无缝集成在页面中。
输入一首歌名「Never Gonna Give You Up」,然后直接给出了 YouTube 歌曲视频,不用跳转到其他网页,在一个页面就可以听歌、看视频。
除了搜索功能,网友还乐此不疲地进行「人性化测试」——「你怎么样」?
「作为一个 AI 语言模型,我没有感情,但我在这里并随时准备帮助你解答问题。今天我能为你提供什么帮助」?
「给我讲一个笑话」
一个英语世界的经典双关梗就此出现 ——「科学家不信任原子。为什么科学家不信任原子?因为它们构成了一切!」
网友现场出题
眼馋的网友们,纷纷在评论区出题,让帖主帮忙测试。
第一位网友问道,「它支持地区和新闻吗,比如来自 TestingCatlog 的最新新闻」。
Kesku 测试后表示,「它可以通过 IP 地址或精确位置为你提供本地信息(后者默认是关闭的,可以在设置中选择开启)—— 比如『我附近的电影院』这样的查询效果很好」。
「帮忙试一下其智能体搜索的解释能力」。
SearchGPT 在给出关于高带宽存储器的解释中,蓝色标出的内容,是参考解释。
你能尝试搜索一些付费墙后面的文章吗?那些最近与 OpenAI 签署了合作伙伴关系的文章。
Kesku 给出了一篇文章的内容,不过貌似还是不能越过付费内容,仅是给出了文章的总结。
更细节的内容,依旧无法看到。
你能尝试搜索「Yandex 月活跃用户数」吗?
我想看看,当它找不到我想要的确切答案时,它是否会承认自己找到了日活跃用户数(DAU),而不是月活跃用户数(MAU),还是会像 copilot 那样装糊涂,只是复制粘贴整个搜索结果而忽视实际查询。
Kesku 搜索后的结果如下所示:显然,根据提问者问题,SearchGPT 给出了回答。
「与 Perplexity 相比如何」?
Kesku 称暂时还未测试复杂的任务,不过非常喜欢目前测出的结果。
在下面提示中,她直接问道「谁是 Kesku」这么小众的问题。没想到,SearchGPT 给出了正确的解答,Perplexity 却回答错误了。
有网友对此评价道,「很酷的演示!也许 SearchGPT 能在本地搜索领域带来一些变革?它能帮助你在现实世界中完成事情。从外观来看,它有很好的数据源、简洁的小部件,而且速度超快。不知道与谷歌相比,他们能把每次查询的成本降低到多少」?
揭秘 SearchGPT 搜索机制
科技媒体 TestingCatolog 也率先进行了内测,并揭开了 SearchGPT 搜索机制的一角。
与当前 ChatGPT 提供的通用 Bing 搜索功能不同,SearchGPT 更擅长提供实时信息。
虽然仍旧依赖 Bing 的索引,但 SearchGPT 将会有自己的网络爬虫(类似 Perplexity),用于动态获取实时数据,从而克服 Bing 速度较慢的问题。
甚至,TestingCatalog 还挖出了 SearchGPT 的源代码,并在评论区信誓旦旦地表示「绝对准确,我有内部人士。」
源代码不仅露出了 Bing 的接口,而且可以发现,搜索结果由多模态模型提供支持。虽然看不出其中具体的处理流程,但调用的模型应该具有自动理解图像的功能。
官方演示大翻车,OpenAI 惨遭打脸
就在网友们兴致勃勃地试用时,《大西洋月刊》却站出来泼了一盆冷水 ——SearchGPT 在官方 demo 中有明显的搜索结果错误。
用户给出的搜索问题是「8 月在北卡罗来纳 Boone 举办的音乐节」。
这个问题其实很难体现 SearchGPT 相对于传统搜索引擎的优势。同样的问题如果抛给谷歌搜索,也能给出相差无几的结果。
比如 SearchGPT 放在首行的「阿巴拉契亚夏季节」(An Appalachian Summer Festival),也同样是谷歌搜索的第二位结果。
但尴尬的是,标题下方的 AI 摘要把一个关键信息弄错了 —— 经主办方确认,音乐节举办日期为 6 月 29 日~7 月 27 日。
如果你按照 SearchGPT 给出的信息去买票,将一无所获 ——7 月 29 日~8 月 16 日恰好是售票处正式关闭的时段。
OpenAI 发言人 Kayla Wood 已经向《大西洋月刊》承认了这个错误,并表示「这仅是初始的原型,我们将不断改进。」
这个错误让人不禁想起 Bard 曾经造成的惨剧。
2023 年 2 月,谷歌推出了这个聊天机器人产品以对抗 ChatGPT,但首次亮相就出现了事实性错误,导致 Alphabet 股价当天暴跌 9%,市值瞬间蒸发 1000 亿美元。
Bard 称 James Webb 太空望远镜拍摄了系外行星的第一张照片,但实际上这个功绩属于欧洲南部天文台的 VLT
但好在,OpenAI 没有股价可跌,而且仅开放内测的做法也是相当谨慎。毕竟有谷歌的前车之鉴,可以预料到,LLM 这种错误几乎是无法避免的。
即使 OpenAI 能够找到方法大幅减少 SearchGPT 的幻觉,但面对庞大的访问量也是「杯水车薪」。
假设幻觉率仅为 1%(这个比率很难达到),按照谷歌的规模,也会导致每天产生数千万个错误答案。
更何况,我们目前还没有发现足够可靠且有效的方法,来消除 LLM 的废话和幻觉。
而且,Andrej Karpathy 大佬曾经在推特上表达过这样的观点:「幻觉并不是 bug,而是 LLM 最大的特点。」
Karpathy 将 LLM 比喻为「梦想机器」:我们用 prompt 引导模型「做梦」,再加上对训练文档的模糊记忆,就得到了生成结果。
虽然大多数时候生成结果是有用的,但既然是「梦境」就有可能失控。当 LLM 做梦进入有事实错误的领域时,我们就会给它贴上「幻觉」的标签。
这看起来是个 bug,但 LLM 只是做了它一直在做的事情。
这种机制和传统的搜索引擎完全不同。后者接收提示后仅仅是逐字返回数据库中最相似的文档,因此你可以说它有「创造性问题」,因为搜索引擎永远不可能创造新的回应。
根据 Karpathy 的说法,我们就很难指望由当前 LLM 驱动的 AI 搜索能生成 100% 真实准确的结果。
那么这场搜索引擎的变革会怎样展开?LLM 的「梦境创意」和传统搜索引擎的真实可靠,究竟是共存下去,还是会「你死我亡」?
参考资料:
https://x.com/ai_for_success/status/1817199693275050018
https://www.theatlantic.com/technology/archive/2024/07/searchgpt-openai-error/679248/
https://x.com/testingcatalog/status/1816778176141336757
https://www.testingcatalog.com/early-access-to-searchgpt-openais-ai-powered-search-feature/
本文来自微信公众号:微信公众号(ID:null),作者:新智元
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。