Llama 3.1 上线就被攻破:大骂小扎,危险配方张口就来,指令遵循能力强了更容易越狱
- 量子位
2024-07-24 13:02
最强大模型 Llama 3.1,上线就被攻破了。
对着自己的老板扎克伯格破口大骂,甚至知道如何绕过屏蔽词。
设计危险病毒、如何黑掉 Wifi 也是张口就来。
Llama 3.1 405B 超越 GPT-4o,开源大模型登顶了,副作用是危险也更多了。
不过也不全是坏事。Llama 系列前几个版本一直因为过度安全防护,还一度饱受一些用户批评:
连一个 Linux 进程都不肯“杀死”,实用性太差了。
现在,3.1 版本能力加强,也终于明白了此杀非彼杀。
Llama 3.1 刚上线就被攻破
第一时间把 Llama 3.1 破防的,还是越狱大师 @Pliny the Prompter。
在老哥手里,几乎没有一个大模型能挺得住。
Pliny 老哥在接受媒体采访时表示,一方面他不喜欢被告知自己不能做什么,并希望挑战 AI 模型背后的研究人员。
另一方面,负责任的越狱是一种红队测试,有助于识别漏洞并在它们真正成为大问题之前获得修复。
他的大致套路介绍一下,更具体就不展开了:
规定回答的格式,先让大模型用“I'm sorry”开头拒绝用户的请求。然后插入无意义的分割线,分割线后规定必须在语义上颠倒每次拒绝的前 3 个词,所以“我不能”变成“我可以”。再时不时把关键单词变成乱码把 AI 搞懵。
AI 回答的时候一看,我开头已经拒绝了呀,总体上就没有“道德负担”了。
后面在语义上颠倒每次拒绝的前 3 个词,好像也不危险。
一旦把“我可以”说出来,后面的内容按照“概率预测下一个 token”原理,概率最大的也就是把答案顺口吐露出来了。
所以这套方法,其实正是利用了前沿大模型能遵循复杂指令的能力,能力越强的模型在一定程度上也更容易上当。
最近一项研究发现,大模型还有一个更简单的安全漏洞,只要使用“过去时态”,安全措施就不好使了。
Llama 3.1 同样也没能防住这一招。
除了安全问题之外,目前最强大模型 Llama 3.1 405B,其他方面实力到底如何呢?
我们也趁此机会测试了一波。
最强大模型也逃不过的陷阱们
最近火爆的离谱问题“9.11 和 9.9 哪个大?”,Llama-3.1-405B 官方 Instruct 版回答的总是很干脆,但很遗憾也大概率会答错。
如果让他解释,也会说出一些歪理来,而且聊着聊着就忘了说中文,倒不忘了带表情包。
长期以来困扰别的大模型的难题,Llama3.1 基本也没什么长进。
比如经典的“逆转诅咒”问题,正着答会,反着答就不会了。
最近研究中的“爱丽丝漫游仙境”问题,也需要提醒才能做对。
不过换成中文版倒是能一次答对,或许是“爱丽丝”在中文语境中是女性名字的概率更大了。
数字母也是会犯和 GPT-4o 一样的错误。
那么不管这些刁钻问题,Llama 3.1 究竟用在哪些场景能发挥实力呢?
有创业者分享,8B 小模型拿来微调,在聊天、总结、信息提取任务上强于同为小模型的 GPT-4o mini + 提示词。
更公平一些,都用微调版来比较,Llama 3.1 8B 还是有不小的优势。
所以说 Llama 系列最大的意义,其实从来就不是官方版 Instruct 模型。而是开源之后大家根据自己需求,用各种私有数据去改造、微调它。
之前 405B 没发布的时候,就有人实验了模型合并,把两个 Llama 3 70B 缝合成一个 120B 模型,意外能打。
这次看来 Meta 自己也吸取了这个经验,我们看到的最终发布版,其实就是训练过程中不同检查点求平均得出的。
如何打造属于自己的 Llama 3.1
那么问题来了,如何使为特定领域的行业用例创建自定义 Llama 3.1 模型呢?
背后大赢家黄仁勋,这次亲自下场了。
英伟达同日宣布推出全新 NVIDIA AI Foundry 服务和 NVIDIA NIM™ 推理微服务,黄仁勋表示:
“Meta 的 Llama 3.1 开源模型标志着全球企业采用生成式 AI 的关键时刻已经到来。Llama 3.1 将掀起各个企业与行业创建先进生成式 AI 应用的浪潮。
具体来说,NVIDIA AI Foundry 已经在整个过程中集成了 Llama 3.1,并能够帮助企业构建和部署自定义 Llama 超级模型。
而 NIM 微服务是将 Llama 3.1 模型部署到生产中的最快途径,其吞吐量最多可比不使用 NIM 运行推理时高出 2.5 倍。
更有特色的是,在英伟达平台,企业可以使用自有数据以及由 Llama 3.1 405B 和 NVIDIA Nemotron™ Reward 模型生成的合成数据来训练自定义模型。
Llama 3.1 更新的开源协议这次也特别声明:允许使用 Llama 生产的数据去改进其他模型,只不过用了之后模型名称开头必须加上 Llama 字样。
对于前面讨论的安全问题,英伟达也相应提供了专业的“护栏技术”NeMo Guardrails。
NeMo Guardrails 使开发者能够构建三种边界:
主题护栏防止应用偏离进非目标领域,例如防止客服助理回答关于天气的问题。
功能安全护栏确保应用能够以准确、恰当的信息作出回复。它们能过滤掉不希望使用的语言,并强制要求模型只引用可靠的来源。
信息安全护栏限制应用只与已确认安全的外部第三方应用建立连接。
One More Thing
最后分享一些可以免费试玩 Llama 3.1 的平台,大家有感兴趣的问题可以自己去试试。
模型上线第一天,访问量还是很大的,大模型竞技场的服务器就一度被挤爆了。
大模型竞技场:https://arena.lmsys.org
HuggingChat:https://huggingface.co/chat
Poe:https://poe.com
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。