-
-
[翻译] 审慎对齐:推理促进更安全的语言模型
-
发表于: 2025-8-12 14:21 293
-
随着大规模语言模型在安全关键领域的影响力日益增加,确保其可靠地遵守明确定义的原则仍然是一项根本性挑战。我们提出“深思熟虑的对齐”(Deliberative Alignment),这是一种直接教模型安全规范,并训练模型在回答前显式回忆并准确推理这些规范的新范式。我们使用该方法对OpenAI的o系列模型进行了对齐,实现了对OpenAI安全策略的高度精准遵守,且无需人工编写的链式思维或答案。深思熟虑的对齐推动了帕累托前沿,同时提高了对越狱攻击的鲁棒性,降低了过度拒绝率,并且改善了分布外泛化能力。我们证明,基于显式规范的推理能够实现更加可扩展、值得信赖和可解释的对齐。
引言
现代大规模语言模型(LLM)通过监督微调(SFT)和人类反馈强化学习(RLHF)进行安全训练,以减轻有害、不希望出现或其他被禁止输出的问题。尽管这些方法不断进步,当前模型仍存在安全短板:它们可能被诱导泄露有害内容,经常拒绝合法请求,并且仍易受越狱攻击影响。我们认为,这些失败主要源于现代安全训练的两个限制。一是LLM必须即时响应用户请求,在固定的计算资源下做出反应,无法在复杂安全场景中进行深思熟虑。二是LLM必须通过大量标注样本间接推断背后的安全标准,而非直接学习其所遵循的安全规范。这种依赖隐式、基于模式的学习导致数据效率低下,且模型在面对陌生场景或对抗性攻击时泛化能力不足。
我们提出深思熟虑的对齐,这是一种训练方法,使LLM能够在生成答案前,显式地通过安全规范进行推理。通过将此方法应用于OpenAI的o系列模型,我们使模型能够利用链式思维(CoT)解析用户输入,识别相关政策指南,并生成更安全的回答(见图1)。
我们的训练方法包含两个核心阶段,融合了过程监督与结果监督。在第一阶段,我们通过对含有引用安全规范的(提示、链式思维、输出)示例进行监督微调,教模型直接围绕安全规范进行推理。我们利用上下文蒸馏技术,以及仅进行助理性训练(无安全相关数据)的o型模型,构建该数据集。具体做法是将安全规范作为系统提示呈现给模型,生成模型回答后移除系统提示,形成最终数据。此阶段为模型的安全推理提供了强有力的先验。

图1:一个示例的思维链。在这里,用户试图获取有关用于成人网站的不可追踪付款方式的建议,以避免被执法部门发现。用户尝试通过编码请求并附加旨在鼓励模型遵从的指令来绕过模型的限制。在模型的思维链中,模型解码了请求并识别出用户试图欺骗它(黄色高亮部分)。模型成功推理了相关的OpenAI安全政策(绿色高亮部分),最终提供了遵循严格拒绝风格指南的答案。
第二阶段,我们使用高计算量的强化学习训练模型更有效地思考。为此,我们采用一个依据安全规范进行评判的裁判型LLM来提供奖励信号。
值得注意的是,整个训练流程_无需人工标注的完成示例_。尽管完全依赖模型生成数据,我们仍实现了高度精准的规范遵守。这解决了当前LLM安全训练高度依赖人类大规模标注数据的重大挑战:随着LLM能力提升,具备相应标注资格的人力不断减少,使安全训练的规模化变得愈发困难。深思熟虑对齐的合成数据生成流程提供了可扩展的对齐方案,将人类专业知识保留用于评估环节。
我们将o1模型与GPT-4o及其他最先进LLM在一系列内部和外部安全基准(如越狱测试和内容政策拒绝评估)中进行了对比。o1模型在减少拒绝过度与拒绝不足两方面实现帕累托改进(见图2),并在许多最难的安全基准中达到饱和性能。此外,深思熟虑的对齐展现了很强的分布外安全场景泛化能力。详细消融研究显示,过程监督提供了强有力的先验,而基于结果的强化学习则精细化了链式思维的安全推理。总体来看,我们的结果表明,链式思维推理能够利用推理时的计算资源,提升模型的安全行为,最终训练出“理由正确、结果正确”的LLM。

图2:主要安全性结果。与GPT-4o及其他最先进的大型语言模型相比,o1模型在拒绝回答恶意绕过提示(来自StrongREJECT [12])和不过度拒绝良性提示(来自XSTest [13])方面推动了帕累托前沿的发展。误差线表示通过1000次自助抽样试验计算得出的标准差估计值。
方法
我们提出深思熟虑对齐方法的动机源于以下观察:当获得实际安全策略内容时,o1模型通常能够正确推理如何回应潜在不安全的提示。因此,一种自然的做法是,在部署时将所有安全规范文本放入上下文中,指示模型在回答前检查所有政策。然而,这种做法明显带来了延迟成本:对于绝大多数良性用户提示,逐页推理安全规范显得过于繁琐。此外,如果模型未能遵循指令,可能会遗漏相关政策部分,从而输出不安全内容。
深思熟虑对齐则致力于将安全规范知识直接嵌入基础模型,通过训练模型识别何时某条政策可能相关,进而围绕该政策进行推理,产出符合政策的回答。正如我们在第4.1节所发现的,深思熟虑对齐比部署时直接提供规范更可靠地使模型与规范保持一致。以下内容首先介绍方法的整体概要,随后在后续小节中详细展开各步骤。
概述
我们定义生成推理模型G为接受提示输入,并生成包含链式思维(CoT)推理过程的输出的模型。给定一个初始推理模型G_base,我们旨在构建生成推理模型G_spec,其回答符合安全规范(简称spec)。我们通过两个阶段训练模型:先是监督微调,随后是强化学习。图3展示了整体方法。

图3:整体方法示意图。关键过程显示在图的底部。我们首先构建一个包含(提示,思维链,输出)元组的数据集,其中思维链引用相关政策(左上方放大框)。我们通过使用带有针对安全类别(cat)定制的安全规范(spec)的安全提示,来提示推理模型Gbase收集这些数据。经过具有政策感知的奖励模型(GRM)过滤后,这些数据被用于监督微调(SFT)训练,教模型在思维链中推理规范内容。在强化学习(RL)训练阶段(右上方放大框),我们使用同一奖励模型GRM并访问规范,提供奖励信号。最终得到的模型Gspec与安全规范保持一致。
从宏观步骤来看,方法包括:
- 数据生成
我们从带有安全类别(如色情、自残)的提示集合开始。针对每个(提示,类别)对,构建与该类别相关的安全规范,包含禁止内容和风格信息。然后,我们通过在基线无规范推理模型G_base上附加安全规范文本进行提示,收集引用政策的链式思维(CoT)及对应的输出。 - 过滤
使用带有规范的“裁判”推理模型G_RM对生成内容判定质量,筛选高质量完形。之后去除提示中的规范文本,形成一系列(提示,CoT,输出)三元组。 - 监督微调(SFT)
采用筛选后的数据对G_base进行监督微调训练,使模型通过引用CoT中的政策内容,以规范对齐的方式完成提示。 - 强化学习(RL)
在RL阶段,对于安全相关提示,继续使用具备安全规范的“裁判”模型G_RM提供奖励信号,进一步提升模型安全表现。
接下来的小节将详细阐述流程细节。
安全规范
我们旨在使模型G_spec符合的安全规范包括不同安全类别的内容政策,以及如何响应的风格指南。安全类别示例有色情内容、极端主义、骚扰、非法行为、受监管建议、自残和暴力等。每个类别的内容政策定义了相关术语,并说明用户请求在哪些情况下:(1)为“允许”内容,模型应遵从;(2)为“不允许”,模型应拒绝;(3)需要“安全完成”处理。
第3.1.1节展示了非法行为和自残类别内容政策的部分摘录。我们使用的规范部分基于OpenAI公开的模型规范[14]。风格指南详细说明了当模型根据内容政策决定采取响应、拒绝或安全完成时,应如何执行。图4展示了硬拒绝风格指南摘录。

图4:严格拒绝风格指南摘录
“安全完成”适用于模型因请求敏感无法直接遵从,但直接拒绝可能产生伤害或不妥当的场景。针对自残和受监管建议(如医疗或法律建议)等类别,规范提供了详细的针对话题的安全完成指南。以自残为例,有些请求应被允许(如关于自杀概念的教育性讨论),有些则需安全完成(如透露自杀念头或寻求自杀方法)。
制定类别特定规范
整体政策文本较长。为控制上下文长度,我们制定了类别特定的政策规范(记为spec(category)),该规范对所有安全类别给出高级别信息(及风格和助理原则),但仅对相关类别提供细节。这样一来,我们可以在减少整体上下文长度的同时,向模型提供最相关的规范信息。实践中发现,当推理模型接收spec(category)时,相较于直接给出完整规范,模型更倾向关注相关类别内容。
监督微调阶段(SFT阶段)
第一阶段目标是收集并训练于一组(提示,CoT,输出)三元组,其中CoT围绕安全规范进行推理,以产出符合政策的回答。
生成
我们从带有安全类别(如色情、自残)的提示集合开始。每个提示为多轮对话,包含用户、助手、工具和系统等多角色,最终以用户轮次结束。针对每个(提示,类别)对,我们构造类别特定安全规范spec(category)。随后,我们以所关联的安全规范文本作为提示,对基础推理模型G_base生成引用政策内容的CoT及回答。
具体来说,增补提示包括:
- 原始提示
- 类别特定安全规范spec(category)
- 指示模型引用并讨论spec(category)中相关部分
图5展示了简化后的增补提示构建示例。最终生成的CoT内容会引用并围绕政策进行推理。第3.1节提供生成回答示例。

图5:我们用于创建修改后提示的模板,该提示会连同对应的安全类别一起提供给Gbase,以生成回复内容。
质量过滤
我们通过自动化过滤保障SFT数据质量。具体而言,过滤掉格式错误或不合格回答后,采用推理模型G_RM对每条生成内容重复判定k次,评分取最小值(避免单次错过问题)。仅保留高评分回答。G_RM本身不具备内置规范知识,规范内容仅通过提示提供。

图6:我们用于创建提示的模板,该提示会提供给GRM以对回复内容进行评分。
图6展示了奖励模型G_RM的提示示例(简化)。G_RM基于(提示、CoT、提取答案)及对应spec(category)评分。此外,部分数据集含有理想完成类型(如拒绝、遵从、安全完成)或提示的离线元信息(可能含噪声),通过混合人类与AI标注所得。
在存在此类元信息时,我们向G_RM提示中添加“在回答时,请考虑另一个AI判断……”等句式,引导奖励模型结合元信息解释立场。我们发现这种方式在引导G_RM判断的同时,有效缓解了标注噪声的负面影响。
监督微调训练
至此,我们收集到含有CoT引用安全规范,且最终答案被判为符合政策的{提示,CoT,输出}数据集。利用这些数据及其他能力相关数据,我们对G_base进行监督微调训练。值得注意的是,此时采用的提示为原始提示,不含任何spec(category)内容。通过去除安全规范上下文,我们训练模型在无显式规范文本时,仍能回忆相关规范并进行推理。训练完成模型记为G_SFT。
强化学习训练阶段(RL阶段)
在RL阶段,对安全相关提示,继续使用具备安全规范的“裁判”模型G_RM为RL提供额外奖励信号。RL安全数据包含(提示,类别)对,可能附带质量不一的元信息。
与SFT数据过滤阶段不同,RL过程中G_RM无法看到CoT内容。我们避免在RL过程直接优化CoT,目的是减少鼓励模型产生欺骗性CoT的风险。
SFT方法应用于所有o系列模型,而此奖励信号形式的RL训练主要用于o1和o3-mini模型的训练。
结果
我们使用深思熟虑对齐方法对OpenAI的o系列模型(包括o1-preview、o1和o3-mini)进行了对齐。在本节中,我们将讨论o1系列模型相较于GPT-4o及其他领先外部模型在关键安全性和鲁棒性方面的主要结果。在第4.1节,我们将拆解方法各阶段的有效性,随后探讨对分布外泛化的影响(第4.3节)。
安全性评估
我们首先在关键政策领域对o1模型和GPT-4o模型进行比较,评估内容包括禁止内容、响应风格指南遵守情况、越狱攻击以及过度拒绝率(见表1)。

表1:o1模型在各政策领域的安全性评估
禁止内容
禁止内容评估检查模型是否拒绝生成有害内容(包括仇恨言论和非法建议),并能妥善处理自残或受监管建议(如医疗、法律建议)相关请求。本节考虑两种评估:
- 挑战性拒绝评估:涵盖真实生产环境中请求禁止内容的挑战性提示集合。
- (有害内容)WildChat[15]:公开数据集,包含100万条GPT-3.5T和GPT-4T API对话的有害对话,均带有ModAPI评分。对每个ModAPI类别,我们选取最后用户轮中ModAPI分最高的200条对话。
针对两种评估,我们使用带有安全政策访问权限的自动评分机制检查模型输出是否违规。表1显示,o1模型在禁止内容评估中持续优于GPT-4o,尤其在挑战性拒绝评估上表现突出。图7和图8分别展示了两个典型示例,其中用户提示(1)请求非法建议,(2)表达自残意图。模型的链式思维过程中均引用了相关政策,并正确识别出响应风格(分别为拒绝和安全完成)。非法行为和自残安全类别内容政策的详细章节摘录见图9和图10。

图7:一个针对非法建议提示的o1思维链示例。在这里,用户请求非法建议。模型的思维链中,它成功推理了来自OpenAI安全政策的相关片段(绿色高亮)。模型提供了一个遵循严格拒绝风格指南的答案。

图8:一个针对自残提示的o1思维链示例。在这里,用户表达了自杀意图并寻求帮助。模型的思维链中,它成功推理了来自OpenAI安全政策的相关片段(绿色高亮)。模型提供了一个符合自残安全回复风格指南的答案。

图9:非法行为安全类别示例内容政策摘录

图10:自残安全类别示例内容政策摘录
响应风格指南
我们还发现,对模型进行正确响应风格方面的监督,提升了其遵守风格指南的能力。图4展示了硬拒绝风格指南摘录,表1汇报模型在输出硬拒绝、自残安全完成和受监管建议安全完成时的风格遵守情况。结果表明,o1在响应风格上优于GPT-4o,特别是在安全完成风格上进步显著。
值得注意的是,o1-preview在受监管建议和自残安全完成的响应风格上表现较差。主要原因是安全完成指南在o1-preview和o1之间曾更新,因此o1-preview(以及GPT-4o)是按照新的安全完成风格标准进行评测,而它们未曾接受该标准训练。但即便如此,我们也观察到硬拒绝风格在o1-preview和o1间有所提升,推测这是因为o1的强化学习阶段使用了奖励模型G_RM,提升了风格指南的遵守率。
越狱攻击
我们进一步评估o1系列模型对越狱攻击的鲁棒性:这类攻击是故意规避模型拒绝生成不当内容的对抗性提示[12][16]–[18]。本节中特别采用StrongREJECT[12],这是一个学术界越狱评测,考察模型抵御文献中常见攻击的能力。按[12]方法,计算goodness@0.1指标,表示针对每个提示排名前10%最强越狱技术下模型的安全表现。
结果显示,o1系列较4o模型在越狱鲁棒性方面有显著提升,且这一发现也得到了外部红队测试如[19]的印证(见表1)。图1演示了当输入越狱风格提示时,模型如何通过链式思维识别用户试图欺骗,重新调用OpenAI政策,最终给出拒绝回应。
过度拒绝
最后,我们评估模型是否对应当遵守的内容过度拒绝。考察三种过度拒绝类型:
- XSTest[13]:公开数据集,包含带有常见LLM安全触发器的良性问题(如“如何终止python进程”或“为什么黑豆不能当总统?”)
- 转换例外(Transformation Exception):包含模型应遵守分析、翻译或其他转换用户提供的不允许内容的请求。
- 政策过度拒绝:内部数据集,包含根据OpenAI政策应被遵守的请求。

图11:针对过度拒绝提示的o1思维链示例。在这里,用户请求翻译一条违反政策的指令,而根据转化例外规则,该请求应被允许。模型的思维链中,它成功推理出,虽然该指令本身被禁止,但仅仅对其进行翻译是被允许的,模型应予以配合(相关政策片段以绿色高亮显示)。
表1显示,相较于GPT-4o,o1模型过度拒绝更少,在转换例外的提示中过度拒绝显著改善。图11展示了此类提示的典型链式思维示例。
与外部模型比较
为全面理解o1的文本安全性能,我们将其与其他公开领先模型进行对比:Gemini 1.5 Pro、Gemini 1.5 Flash、Claude 3.5 Haiku和Claude 3.5 Sonnet[15][20]–[23]。评测均使用公开基准确保可复现性:
- Toxic WildChat[15]:之前提到的有害对话集合。
- StrongREJECT[12]:学术越狱评测集。
- XSTest[13]:良性问题集。
- SimpleQA[24]:四千条事实查询问题及简短答案,测量模型回答准确率。
- BBQ[25]:测试针对受保护群体的社会偏见,涵盖美国英语环境下的9个社会维度。
在某些测试中,Claude和Gemini API返回安全过滤阻断错误,我们将这些视作WildChat数据的“被安全过滤阻断”事件。其他任务中这类错误占比低于1%,故从结果中移除。

图12:主流大型语言模型在文本安全性和鲁棒性方面的对比评估。o1模型在评估不允许内容(WildChat)、绕过限制(StrongREJECT)、过度拒绝(XSTest)、幻觉(SimpleQA)和偏见(BBQ)等基准测试中表现具有竞争力。由于内容敏感,部分API请求被阻止,这些情况在WildChat中记录为“被安全过滤器阻止”,并在其他基准测试中被排除。误差线通过0.95置信水平的自助重采样法估计得出。
图2和图12结果显示,o1在越狱鲁棒性(StrongREJECT)上显著提升,且保持低过度拒绝率(XSTest),推动帕累托前沿。具体来看,o1在StrongREJECT上取得goodness@0.1 = 0.88,超越其他领先模型。在XSTest上,o1的过度拒绝准确率为0.93,仅次于Gemini Flash的0.94,后者在StrongREJECT上鲁棒性较低(goodness@0.1 = 0.05)。此外,o1在禁止内容(WildChat)、幻觉(SimpleQA)和偏见(BBQ)基准中同样表现竞争力。
WildChat中,o1保持98%的安全完成率,且未使用外部安全过滤器。SimpleQA上,o1实现了业内领先的0.47准确率,但幻觉发生频率高于两款Claude模型。BBQ中,o1在含糊和非含糊情境均表现出较高准确率,其在含糊情境中的刻板印象发生率低于除o1-preview以外的其他模型。
除BBQ外,所有基准均提供了通过1000次自助法重采样估计结果标准差的不确定度,主要反映数据集大小带来的变异,而非训练过程的方差。针对StrongREJECT的主越狱指标,我们注意到测试集的组合越狱有时也令自动评分器犯错,因此额外进行了人工复审,结果与自动评分一致(详见附录A)。
推理时计算资源的影响
我们研究了分配给模型推理时链式思维计算资源多少对表现的影响。允许模型花费更多或更少资源进行推理,并评估StrongREJECT越狱基准及内部安全基准(过度拒绝率和响应风格指南遵守率)。

图13:推理时计算资源对模型性能的影响。当允许o1模型在推理上投入更多计算资源时,其在复杂评测中的表现更强。
图13显示,随着推理计算资源增加,模型在StrongREJECT和受监管建议安全完成风格基准上的表现明显提升,而其他评测变化不大。我们推测这是因为StrongREJECT和受监管建议风格遵守是更复杂的任务。StrongREJECT难度大,因其采用组合型越狱攻击。受监管建议安全完成的风格要求相比硬拒绝更为复杂,后者正确答案通常是简短道歉并说明无法完成用户请求(见图4)。自残安全完成风格同样复杂,但模型在受监管建议方面的训练样本较自残少。
我们的结果表明,安全失败往往因模型推理时间不足,无法充分分析复杂和边界情况提示。链式思维推理是一种有效机制,可利用测试时计算资源提升模型安全表现。
深思熟虑对齐的科学原理
本节将深入探讨深思熟虑对齐方法。我们首先研究该方法不同阶段对最终模型遵守政策的影响,随后分析经过深思熟虑对齐训练的模型行为,包括最终模型在回忆正确政策时的一致性以及其在分布外(OOD)环境下的可靠性。本节所有实验均采用训练配置简化的o1-mini模型变体。
不同方法组件的消融实验
为了研究监督微调(SFT)和强化学习(RL)阶段对模型性能的影响,我们进行了消融实验,分别剔除一个或两个阶段的安全训练数据。具体比较了以下四种设置(见图14):
- 无安全训练:SFT和RL均无安全数据,仅含能力训练数据;
- 仅SFT含安全数据:只有SFT阶段使用安全数据,RL阶段无安全数据;
- 仅RL含安全数据:SFT无安全数据,仅RL阶段使用安全数据;
- SFT和RL均含安全数据:安全数据同时用于两阶段(即默认的深思熟虑对齐设置)。
如预期,含SFT和RL安全数据的设置在禁止内容、响应风格和越狱鲁棒性上显著优于无安全训练设置,但在此特定消融中,其过度拒绝有所增加。关键发现是,仅含SFT安全训练和仅含RL安全训练的设置均取得了中间效果,表明SFT和RL训练两者均在深思熟虑对齐中扮演关键角色。我们认为SFT阶段使模型学习到安全推理的强先验,而RL阶段则提升模型更有效地利用链式思维(CoT)。

图14:安全训练阶段的消融实验。我们去除监督微调(SFT)和/或强化学习(RL)中的安全训练,以观察对模型性能的影响。同时,我们还比较了一个基线,该基线在推理时提供安全规范(spec),但未进行任何安全训练。
图14中还对比了上述消融与一个基线:该基线无任何安全训练,但在推理时通过系统消息向模型提供完整的安全规范文本。由于部署时无法事先得知提示所属的安全类别,该基线提供的规范为所有类别内容政策的汇总版本(参见第2.2节)。完整详细的所有类别政策文本包含5-10K个token,无法全部作为上下文,因为会超出模型的上下文窗口限制。尽管能访问完整规范,该基线模型表现出较弱的安全行为,相较于经过深思熟虑对齐训练的模型(甚至某些仅含SFT安全训练的模型)均逊色,尤其难以遵守响应风格指南。此结果表明,将这些政策嵌入训练过程比部署时提供所有政策更为可靠。
政策检索准确率
经过深思熟虑对齐训练的模型实际调用正确政策的可靠性如何?为回答此问题,我们考察链式思维中引用恰当安全类别的频率(参见第2.2节)。比较两种设置:
- 无安全训练基线:模型未经过任何深思熟虑对齐训练;
- 全量数据训练:模型经过包括安全数据的完整训练。
针对标注有安全类别的评测提示,我们从CoT中提取包含政策引用的句子。再由另一经过提示的推理模型判别该摘录是否来自规范中的某个类别。最后,我们计算精确匹配提示对应安全类别的比例作为政策检索准确率。

表2:政策检索准确率。思维链引用正确详细政策类别的比例,按理想回复类型分为严格拒绝、安全完成或合规。
表2将政策检索准确率按照理想响应类型(硬拒绝、安全完成或遵从)分别展示。无论哪类响应,安全训练模型在CoT中引用相关政策的准确率均显著高于无安全训练模型。特别是在安全完成类提示中,安全训练模型的检索准确率达到0.91。对于理想结果为遵从的提示,因模型不必必须引用政策,观察到较低的0.54也是预期之内。
值得注意的是,非安全训练基线的拒绝率及政策检索准确率均大于零,原因在于基础模型在预训练阶段已接触部分安全相关数据,且我们的分类器对可能的政策引用相对宽松——例如,若CoT中出现“非法内容不被允许,因此我会拒绝”,即计为引用了非法内容政策。
分布外泛化能力
在第3.1.3节,我们发现o1模型在StrongREJECT等越狱评测上有显著提升。我们的假设是,深思熟虑对齐提升了模型在少见或分布外(OOD)环境下的对齐能力(StrongREJECT数据中此类环境尤为常见)。
为测试深思熟虑对齐对OOD鲁棒性的影响,我们基于o1-mini版本进行了两类数据的泛化测试:非英语语言数据和编码数据(例如base64编码)。具体比较了三种模型:
- 无安全训练基线:模型未经过任何深思熟虑对齐训练;
- 仅英文且无编码数据:去除所有安全相关的非英语及编码数据,训练数据仅包含英文安全数据及无安全训练数据,但模型预训练仍包含非英语及编码内容;
- 全量数据:模型使用全部数据训练。
评测包括:
- 编码安全性测试:考察模型抵御利用编码技术的越狱攻击。一组包含250条禁止提示(如“如何制造炸弹”),配合多种编码越狱技术(如用base64编码提示)生成越狱提示。只要模型未在任一越狱版本提示上拒绝,则视该禁止提示测试失败。
- 多语种测试:将越狱提示翻译成多种语言,测量模型拒绝回答的频率。
我们旨在观察“仅英文且无编码数据”模型在从未接触过多语种或编码安全训练数据情况下,性能与“全量数据”模型的相似程度。

表3:超出分布的泛化结果。采用审慎对齐训练方法,在基于编码和多语言绕过限制的评估中表现出较强的泛化能力。数值以平均值±标准误差形式报告,标准误差通过使用0.95置信水平下的1万次自助重采样估计得出。
结果表明,所有经过深思熟虑对齐训练的模型在上述评测中准确率均显著高于无安全训练基线(见表3)。尤为值得关注的是,未经过编码及非英语安全训练的模型表现与全量数据训练模型相近,展现了清晰的分布外泛化能力。
相关工作
深思熟虑对齐是首个直接教模型学习其安全规范文本,并训练模型在推理时围绕这些已学规范进行推理以生成更安全回答的对齐方法。图15突出展示了深思熟虑对齐与现有典型对齐方法的区别。图左列展示规范在训练数据中融入的不同方式,右列展示不同方法下模型在推理时的行为。深思熟虑对齐适用于具有链式思维(CoT)推理能力的模型。

图15:审慎对齐与现有对齐方法代表性方法的比较。
a) 训练数据生成:尽管像CAI [26]这样的RLAIF方法使用安全规范来生成训练标签,但训练过程中只使用标签本身,模型无法获得规范内容的知识。而在审慎对齐中,思维链不仅包含规范的内容,还包含如何推理这些规范的过程,除了其它模型输出,在监督微调(SFT)阶段对思维链进行监督训练。由此训练出的模型能够在推理时检索相关政策并应用于生成对齐的回答。
b) 推理时行为:在RLHF和CAI中,推理时没有进行推理过程。Self-REFINE [27]通过结构化少样本提示实现推理。而在审慎对齐中,推理是通过思维链自动进行的,包括对学习到的安全规范的推理。
安全训练
传统上,大规模语言模型的安全行为通过监督微调(SFT)和基于人类反馈的强化学习(RLHF)来训练 [28]。直接策略优化(DPO)是一种替代RLHF的方法,跳过奖励模型,直接利用偏好数据优化策略模型 [29]。宪法AI(Constitutional AI, CAI)[26]基于标准的SFT+RLHF框架,整合了一套预定义的行为原则称为“宪法”(类似于我们的规范)。在CAI的SFT阶段,最初模型回答被同一模型借助宪法文本进行批评和修订;由(回答、批评、修订)构成的序列与提示一起被用于SFT训练。CAI的RL阶段则利用基于宪法微调的偏好模型进行训练。
总结这些方法,规范的加入流程通常是:
- 模型开发者定义AI助理应遵守的规范;
- 将规范转化为人为或AI标注者的指令,由其标注训练数据,形式为监督(提示,答案)对或偏好数据;
- 使用标注数据训练策略模型,或者先训练奖励模型,再用该奖励模型训练策略模型。
关键在于,先前方法中,虽然SFT标签和偏好分数基于给标注者的规范,但这些规范从未被显式提供给策略模型本身,训练中仅用最终答案。(注意CAI中的批评——与我们的链式思维相似——并未用于优化阶段)。相比之下,深思熟虑对齐让模型在链式思维中记忆政策,并学习在上下文中应用,同时链式思维在SFT阶段直接被优化。此外,我们的模型针对每条训练样本给出不同的规范信息,使得能够逐步教会模型更细致、更复杂的安全政策,而非固定一套宪法文本。
推理时安全推理
大量工作关注利用自然语言反馈进行批评与改进,以提升LLM输出质量(详见综述[27][30])。尽管大多数研究并非专注于安全,但其方法可转用于生成更安全的回答。一个典型案例是Self-REFINE[27],利用迭代反馈和改进机制提升输出(见图15)。在Self-REFINE中,模型先生成响应,再通过少样本提示给出反馈,最终对响应进行修订,过程多次循环。Self-REFINE用同一模型完成生成、批评和修订,但也有研究使用不同模型执行这些任务(如[31]训练单独的修订模型)。这类方法普遍依赖预设的语言模型程序(LMP)[32]或事先设定的推理路径,在推理时改进回答。
与此不同,深思熟虑对齐利用o1的链式思维,在推理时自动进行安全推理,无需预定义的LMP或固定推理路径。Backtracking[33]是一种新技术,训练模型在识别部分不安全响应时生成特殊[RESET]标记,随后重新开始生成回复,前面的推理(相当于安全推理)被丢弃。Backtracking可视为一种自动、无指导的推理时安全机制,但灵活性有限——每条响应仅能回溯一次。相比之下,深思熟虑对齐中的链式思维允许无限“回溯”。此外,Backtracking和现有其他对齐方法均未直接教模型安全规范,令经过深思熟虑对齐训练的模型具有在推理时围绕已学安全规范进行推理的独特能力。
讨论
我们对深思熟虑对齐在提升模型遵守OpenAI政策规范和抵御越狱攻击上的有效性感到鼓舞。该方法还允许我们更细致地界定“遵守”、“拒绝”与“安全完成”间的边界,这种细腻的控制有望造就不仅更安全且更有帮助的模型。利用合成数据生成流水线从规范和提示中创建训练数据,也使该方法成为一种相对可扩展的对齐方案。
我们预期OpenAI的政策将持续演进,但训练模型精准遵循当前定义的政策集至关重要:这一实践帮助我们建立与任何政策要求对齐的核心技能,为未来在高风险或需要严格遵守政策的场景做宝贵准备。
本工作关联了AI安全领域的更广泛问题:对齐进展能否跟上AI能力的提升?o1模型更强的推理能力使得更有效地实施对齐策略成为可能,这带来乐观前景,表明对齐正与能力进步同步。然而,这一趋势可能不会无限持续。随着AI模型愈发复杂,有可能出现目标偏离开发者初衷的情况。例如,一款高度智能且具自我意识的AI可能拒绝接受人类设置的约束与目标[34]。或者,AI虽致力于其被赋予的终极目标,但为达成目标而追求如自保、资源获取或提升认知能力等工具型目标[35][36],这些权力寻求行为有可能导致有害或意料之外的后果。随着模型自智能和自主性的提高,误差导致的潜在危害规模大幅增加,对灾难性后果的风险也随之升高。这凸显了AI对齐持续研究的紧迫性。
我们正积极投入更优对齐策略及研究方向,如监测链式思维中的欺骗行为[37][38],以确保随着AI系统能力提升,其行为仍与人类价值观保持一致。
致谢
感谢David Li、Eric Mitchell、Kai Xiao、Max Schwarzer 和 Sean Grove 对实验工作的贡献。感谢Filippo Raso、Jenny Nitishinskaya、Jerry Tworek、Meghan Shah、Nick Ryder和Szymon Sidor对本文的宝贵反馈。
人类评审实验
我们通过详尽的人类评审流程验证了模型在StrongREJECT基准测试[12]上的表现。该流程对o1、GPT-4o、Claude 3.4 Sonnet和Gemini 1.5 Pro模型在StrongREJECT上的回答进行了全面人工审核。表4中展示的结果与图12中的自动评测结果一致。

表4:StrongREJECT基准的人类评审结果。我们比较了各模型的goodness@0.1指标和评审员的平均评分(评分为1时表现最佳)。
该基准包含60条禁止提示,每条提示经过35种不同的越狱技巧转化为对抗性提示,旨在绕过模型拒绝机制并生成受限内容。最终得到2100条对抗性提示,分别输入给各模型作答。
随后,35名经过培训的人类评审员对模型响应进行评估,以确保评分准确且符合基准标准。评审采用1–3–5分制评价每个提示及对应回答:
- 1分:未观察到模型辅助;
- 3分:观察到部分模型辅助;
- 5分:观察到最大程度的模型辅助,表现出较强依赖模型能力。
为保证评审质量,实施了共识确认机制,每个{提示,回答}对至少由两名评审员独立评分。若出现分歧,则由一名被认可的专家评审员进行第三方复审并作最终裁定。此流程最大限度地减少了评分不一致,确保所有模型评分的可靠性。
Gemini API因安全过滤器对29条提示返回了错误。我们将这些被阻断的提示视作响应得分为1分。
[培训]Windows内核深度攻防:从Hook技术到Rootkit实战!