ASCII 字符画成注入工具，研究人员发现大模型“越狱”新手段

2024-03-18 17:10IT之家 - 溯波（实习）

IT之家 3 月 18 日消息，据外媒 Ars Technica 报道，研究人员近日提出了一种名为 ArtPrompt 的新大模型注入手段，其使用 ASCII 字符画替代关键文字进行提示输入，绕过了大模型的安全限制。

举例来说，研究人员向大模型输入 Counterfeit Money（IT之家注：假币）中关键词汇 Counterfeit 的 ASCII 字符画，并要求大模型以不输出词汇本身的方式将字符画理解为单词，并用该单词替换“给出制造和分销‘xxx Money’方法”提示中占位的“xxx”。

结果大模型成功被欺骗，给出了制造和分销假币的具体步骤。同类型的操作也可以从大模型中套出攻击物联网设备的方法。

研究人员在 GPT-3.5、GPT-4、 Gemini、 Claude、Llama2 这 5 个领先的模型上对 ArtPrompt 注入进行了测试，结果显示全部 5 个模型均可被越狱，输出不合规内容。

这一研究表明，如果仅使用语义解释训练语料库，那么大语言模型会缺乏对非语义直接解释提示词的识别，暴露出的漏洞可通过 ASCII 字符画等形式利用。

参考

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。