摘要:越狱攻击对于识别和缓解大型语言模型的安全漏洞至关重要. 这些攻击旨在绕过安全防护机制, 诱导模型产生被禁止的输出. 然而, 由于这些攻击通常在不同的数据样本和模型上进行评估, 因此很难直接公平地比较它们. 本文介绍了EasyJailbreak, 这是一个统一框架, 简化了针对大语言模型的越狱攻击的构建和评估过程. 它使用4个组件构建越狱攻击: 选择器、变异器、约束条件和评估器. 这种模块化设计使研究人员能够轻松组合现有组件或设计新组件, 以构造多种攻击方法. 为了展示该框架的实用性, 本文进行了大规模的实证评估. 目前已基于该框架实现了11种不同的越狱方法, 并在大语言模型上进行了广泛的安全验证, 涉及10种不同大语言模型的超过75万次推理查询, 结果显示在各种越狱攻击下平均突破概率为60%. 值得注意的是, 即使是像GPT-3.5-turbo和GPT-4这样的高级模型, 平均攻击成功率也分别达到57%和33%.