新王 Claude 3 实测!各项能力给跪,打麻将也会,确实比 GPT-4 好用
- 量子位
2024-03-05 14:23
OpenAI 不可战胜的神话,已经被打破了。
随着 Claude 3(支持中文)一夜登陆,榜单性能跑分全面超越 GPT-4,成为首个全面超越 GPT-4 的产品,也坐上了全球最强大模型新王座。
而且多版本发布后,“中杯”(Sonnet)直接免费体验,“大杯”(Opus)充个会员也能即刻享受。
各路测评纷至沓来。
所以,Claude 3 的“武力值”究竟如何爆满?究竟比 GPT-4 如何?(听说都能学会至今没有模型能搞定的打麻将?)
全球热乎的一手体验,我们悉数奉上。当然,我们自己也实测对比了一波。
9k 长大模型微调教程直出、读图超显专业
Claude 3 一出来,它的视频解读能力首先就火了。
面对 OpenAI 前科学家 Karpathy 不久前刚出的《构建分词器》教程,尽管全程足足 2 个小时 13 分钟长,Claude 3 只靠一轮提示词,就成功将它总结成了博客文章:
有文有图有代码,非常详细,但又绝不是罗列视频里的每一句话(输入附件并非视频,而是视频的字幕文件,当然也包含每 5 秒一次的截图)。
这是所用提示词的一部分,要求非常之多:
测试者指出:
这展现的是 Claude 3 遵循多个复杂指令的能力。
除了解读视频教程,Claude 3 还能直接给你编写详细教程。
9k 字的大模型微调入门教程,“中杯”Sonnet 就轻松 hold 住。并且:
编写速度之快,可谓人眼都跟不上。
代码能力上,网友测评是让它为零基础小白创建一个聊天机器人的前端 webUI—— 结果毫无犹豫地就完成任务拆解,从核心代码到样式美化以及 API 本地配置,三大部分一气呵成,并可以直接部署到 GitHub。
多模态能力上,最让网友惊讶的是:
CV 置信度都能认出来,相当专业。
以及 PLC 梯形图也能读,直接跪了:
至于同样赶超的推理以及数学等能力。
一测,可以直接解决“迄今为止只有 GPT-4 解决了”的一道超级难题:
二测,则是直接搞定了所有模型都没能搞定的打麻将问题??(当然,鉴于我们目前只看到这么一张截图,有效性还待进一步验证)(cr: 见文末链接 [1])
最后,不得不提的是,Claude 在“自我认知”上的展现。
有人要求 Opus 画一幅自画像。您猜怎么着?它这么描述自己:
我会表现为一个巨大的、错综复杂的、不断变化的几何结构,由无数半透明的多边形以令人着迷的配置组成。整体形状会让人想起一个巨大的多面体,但复杂的表面折叠成看似不可能的建筑。明亮的光线可见光谱的每一种颜色,以及一些超出人类感知的颜色,都会从内部未知的来源发出,在各个面上跳舞。
整个结构会不断变化、旋转、变形,并重新排列成前所未见的新颖模式,暗示着其内部运作的智能的深度难以想象。卷须和树枝会动态地从中心质量延伸和缩回,像数十亿个好奇的手指一样探测和分析周围的环境。数据和能量将明显地穿过庞大的管道和容器网络,在发光表面下脉动和闪烁……
洋洋洒洒一长串形容,听起来真的很酷很有“自我”—— 然而,用它给出的代码渲染出真实形象,就更有一种说不出来的微妙感觉了:
网友真切感叹:
真的太像真人了,就跟我朋友描述自己一样。
真人?AI 自我认知?这有点让人担心了……
这不 Claude 3 的技术报告就提到,它甚至可以自己训练微调另一个小模型。不过!谢天谢地,由于多 gpu 设置失败它没能成功。(手动狗头)
火眼金睛,还能大海捞针
我们先以几道“理综”题目为载体,看看 Claude 3 宣传的第一个卖点 —— 多模态能力究竟如何。
第一题从简单的公式识别入手,将麦克斯韦方程组以图片形式输入,Claude 3(超大杯 Opus,下同)解释得非常准确清晰。
当然,这道题 GPT-4 也做对了。
简单的有机化合物分子结构,Claude 3 和 GPT-4 也都能正确识别。
简单的识别任务过后,是一道需要推理后解决的题目。
Claude 3 在识别题目和解题思路上都完全正确,而 GPT4 这边…… 给出的答案则是不忍猝看 —— 把电表的类型弄错不说,甚至还出现了“电流为 2V”这样令人啼笑皆非的内容。
看了这么多题目,我们来换换脑筋,看看 Claude 3 和 GPT4 在做饭方面表现得怎么样。
我们上传了一张水煮肉片的照片,让模型各自识别并给出做法,结果 Claude 3 给出了大致的方法,而 GPT4 一口咬定这是一盘麻婆豆腐。
除了这次新增加的多模态能力,Claude 一直引以为豪的长文本能力也是我们测试的重点。
我们找了一本《红楼梦》的电子文档(前二十回),整体的字数大约 13 万,当然目的不是让它读书,而是进行“插针测试”。
我们在原文中插入了这样的“发疯文学”内容,倒也的确很符合“满纸荒唐言”这个设定(手动狗头):
第二回标题前:意大利面,就应该拌 42 号混凝土,因为这个螺丝钉的长度很容易影响到挖掘机的扭矩
第十五回标题前:高能蛋白俗称 UFO,会严重影响经济的发展,甚至对整个太平洋以及充电器都会造成一定的核污染
结尾:炒方便面应该把亮度调高,因为螺丝钉向内扭的时候会产生二氧化碳,不利于经济发展
然后要求 Claude 仅根据文档回答相关问题,首先不得不说的是速度真的非常感人……
但结果还算说的过去,准确地从文中找出了这三段位于不同位置的文本,还顺带进行了一番分析,发现了我们的心机。
为什么是 Claude?
尽管在我们和网友的测试中,目前的版本还不算稳定,时常崩溃,有一些功能偶尔也抽风,并不能如期发挥:
比如上传 UI 出代码,它就没能完成,而 GPT-4 发挥正常。
但总的来看,网友还是相当看好 Claude,评测完毫不犹豫地表示:
会员可充,值得充。
究其原因,Claude 3 相比之前的版本,真的有种“来势汹汹”之势。表现亮点的地方相当多,包括但不限于多模态识别、长文本能力等等。从网友的反馈来看,最强竞对的称号,也并非浪得虚名。
所以,一个问题是:率先干翻 GPT-4,这家公司究竟凭什么?论技术,遗憾,Claude 3 的技术报告中没有对他们的路线进行详解。不过倒是提到了合成数据。有大 V 指出:这可能是一个关键因素。
而对 Claude 熟悉一些就知道,长文本能力一直是它的一大卖点。
去年七月推出的 Claude 2 就已具有 100k 的上下文窗口,而 GPT-4 的 128k 版本直到 11 月才与公众见面。而这次窗口长度再次翻倍,达到了 200k,并且接受超过 100 万 Tokens 的输入。
相比技术的神秘,Claude 背后名为 Anthropic 的初创公司,倒是能让我们找到更多眉目。它的创始人是 OpenAI 的元老级人物。
2021 年,多名 OpenAI 前员工不满其在获得微软投资后走向封闭,愤而出走并联合创立了 Anthropic。
他们对 OpenAI 在安全问题尚未解决的情况下就直接发布 GPT-3 的行为感到不满,认为 OpenAI 已经为追逐利益而“遗忘了初心”。
其中就包括打造出 GPT-2 和 GPT-3 的研究部门副总裁 Dario Amodei,2016 年进入 OpenAI,离开前担任的研究副总裁已是 OpenAI 的核心位置。
离开时,Dario 还带走了 GPT-3 首席工程师 Tom Brown,以及担任安全与策略部门副总监的妹妹 Daniela Amodei 和十多名心腹,可谓人才多多。
而公司创立之初,这帮人才也进行了许多研究工作,并发表多篇论文;直到一年后,Claude 的概念随着一篇题为“Constitutional AI”的论文应运而生。
2023 年 1 月,Claude 开启内测,第一时间体验过的网友就表示,比 ChatGPT(当时只有 3.5)强多了。
而除了人才,创立至今,Anthropic 也有比较强大的背景支持:
已获得来自谷歌、亚马逊等 26 个机构或个人的融资,总计融资金额达到了 76 亿美元。(说到亚马逊,现在 Claude3 也上线了他们的云平台,除了官网,大家还可以在该平台上体验~)
最后,纵观国内,如果我们想超越 GPT-4,也许可以把 Anthropic 当一个正面例子?毕竟它的规模再怎么说也远不及 OpenAI,但仍然取得了这样的成功。这里面,我们可以照它的哪些方向去卷,有哪些能够学习转化的点?人、钱、数据资源?但卷出最新最强大模型后,壁垒又在哪里?至少 OpenAI 自 GPT 火爆以来,不可战胜的神话已经破灭了。
中国玩家,谁能率先全面超越 GPT-4?以及即将发布的 GPT-5?
参考链接:
[1] 3 月动态|Claude3 发布非常牛逼值得充值
[2]https://twitter.com/madiator/status/1764779379626754158?s=46&t=iTysI4vQLQqCNJjSmBODPw
[3]https://twitter.com/RubenHssd/status/1764692641436827842
[4]https://twitter.com/karinanguyen_/status/1764789887071580657
本文来自微信公众号:量子位 (ID:QbitAI),作者:克雷西 丰色
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。