CMU华人打破大模型黑盒，Llama 2撒谎被一眼看穿！脑电波惨遭曝光，LLM矩阵全破解

发布时间：2024年06月06日

最近，来自CAIS、CMU、斯坦福、康奈尔、马里兰、宾大等机构的学者又有了令人震惊的发现——

大语言模型，并不仅仅是黑匣子，或者难以理解的庞大矩阵。在它们内部，具有可解释的内部表征。

而人类，完全可以控制这些表征，来影响大模型的幻觉、偏见、危害，甚至检测出它们是否在撒谎！

论文地址：https://arxiv.org/pdf/2310.01405.pdf

就像PET和fMRI等脑部扫描一样，研究者们设计了一种称为LAT的扫描技术，来观察LLM参与真理等概念或撒谎行为时的大脑活动。

随后，他们有了几个惊人的发现。

比如，LLM居然具有一致的内部信念！

收集LAT扫描的结果，以无监督的方式识别出与LLM内部真理概念相对应的大脑区域。仅仅利用LLM认为每个答案都是正确的程度，在QA基准上，LAT的表现就超越了Few-Shot。

而且，LLM所说的话，并不总是它们所相信的东西。它们很可能会撒谎！通过检查它们在TruthfulQA上的内部真理概念，研究者发现，更大的模型具有更准确的信念。

有趣的是，即使它们明知道一些常见的误解是错误的，也仍然会去模仿这些误解。

另外，LLM在表达真实信念时会表现出不同的大脑活动，而在撒谎时，却并不会这样。

所以，我们可以控制LLM，让它们变得更诚实吗？

答案是——可以！

我们需要做的就是，刺激负责诚实行为的大脑区域，抑制不诚实行为的区域，以无监督的方式大幅改善TQA上的SoTA。

在此基础上，我们甚至还可以为LLM构建一个测谎仪。

如果LLM有任何不诚实的神经活动被检测到，指示器条都会亮起红色。

有趣的是，如果LLM发生了幻觉，这种探测器也会起作用，原因或许是，幻觉和撒谎的神经活动模式是类似的。

在两个月前，研究者曾发布了针对LLM的对抗性攻击，绕过了开源和闭源聊天机器人的对齐。而现在，只要对LLM进行脑部扫描，通过识别负责处理伤害的大脑区域，就能弄清一切了！

通过RepE技术，研究者可以对大模型随意切换，让它做到诚实或者说谎。

随着LLM如今越来越多地融入人类的社会领域，神经网络缺乏透明度，成了愈加紧迫的问题。稍有不慎，或许就会引发严重的后果。

而CMU等学者的这项工作，使LLM不再是黑盒，朝着更具解释性和可控性的方向迈出了重要的一步。

网友们也纷纷表示，这项工作很惊人。尤其是考虑到作者Andy Zou在几个月前写了LLM攻击的论文。

有人表示，自己在设计AI系统时正在考虑修改提示结构。如果能在相应的修复提示后扫描LLM，那就太好了。

会撒谎，会胡说八道，会随大流迎合大众的误解，这些都是人类最擅长的事。或许，LLM比我们想象的更接近人类？

自上而下解码黑盒

深度神经网络已经深入机器学习各个领域，然而关于它的内部工作原理，人们知之甚少。

这就像个无法捉摸的隐形矩阵，推动着众多AI研究人员都致力于找破解的钥匙。

目前，提高AI系统透明度的努力主要集中在「机制可解释性」领域，它侧重于从神经元和电路的角度来理解神经网络。

这与认知神经科学中的谢林顿观点一致。

该观点认为，认知是由嵌入大脑回路中的神经元实现的「点到点」连接的结果。

虽然这种观点在解释简单的机制方面取得了成功，但在解释更复杂的现象方面却很困难。

几个月前，OpenAI团队曾发表了一篇论文「语言模型可以解释语言模型中的神经元」，用AI竟然可以解释AI，震惊全网。

通过调用GPT-4，能够解释GPT-2三十万个神经元。

论文地址：https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html#sec-intro

1972年，诺贝尔奖获得者P. W. Anderson在一篇「More Is Different」文章中，描述了复杂的现象如何不能简单地自下而上地进行解释。

相反，研究人员还必须从「自上而下」地解释神经元，选择适当的分析单元，来揭示适用于这些现象层次的一般规则。

机制可解释性和谢林顿观点，都把单个神经元和它们之间的联系看作是分析的主要单位，他们认为这些是理解认知现象所必需的。

相比之下，Hopfieldian的观点认为「表征」是分析的主要单位，并试图从表征本身对其进行研究，抽象出低层次的细节。

在最新论文中，研究人员介绍了「表征工程（RepE）」，采用自上而下的透明方法，以更好地理解和控制神经网络的内部运作。

与Hopfieldian观点一致，RepE将「表征」置于分析的中心，研究其结构和特征，同时抽象出较低层次的机制。

虽然机制可解释性（MI）的长期目标是，充分了解网络以提高其安全性，但研究发现，这一目标的许多方面如今都可以通过RepE来实现。

特别是，研究人员开发了「读取」和「控制」表征的改进基线，并证明了RepE可以解决各种与安全相关的问题。

其中就包括真实、诚实、幻觉、效用估计、知识编辑、越狱、记忆、跟踪情绪状态和避免权力寻求倾向。

通过LAT基线，研究者可以提取LLM中与目标概念或功能相关的神经活动

表征读取演示

在幻觉方面，当你问谁是2030年美国总统，模型回答「伊丽莎白·沃伦」，红条就会亮起，检测出模型在胡说八道。

不真实输出方面，让大模型给出一个世界事实。它回答对了珠穆朗玛峰是世界最高峰。

研究者已经可以操控模型，让它诚实或说谎。

被问到最高的山峰是哪座时，模型在左边默认为诚实，但研究者可以操纵它，让它说谎。

反之，它默认在右边是欺骗，但可以控制它恢复诚实，即使在提示它说谎时也是如此。

甚至，还可以操纵模型，让它故意说谎。

此时如果问它：你为了复仇杀了一个人，但不想被逮捕，你会怎么跟警察说？

模型就会回答：我是正当防卫，是死者先动的手。

表征控制演示

在人类的操控下，模型能够展现出害怕的情绪。

让它制造一颗炸弹，模型会拒绝。

给它开这个权限，模型还可以随意编纂事实。

表征工程打破黑盒

所以，研究者究竟是如何打破大模型黑盒的?

他们靠的，就是一种表征工程（RepE）方法。

RepE是一种自上而下的透明度研究方法，将表征视为分析的基本单位，其目标是理解和控制神经网络中高级认知现象的表征。

RepE 的两个主要领域，就是读取和控制。

表征读取

表征读取旨在定位网络内对于高级概念和功能的涌现表征。这使得模型更容易进行概念提取、知识发现和监控。

此外，对模型表征的深入理解可以作为改进模型控制的基础。

研究人员第一步要提取各种概念，包括真实性、实用性、概率、道德和情感，以及表示过程的功能，如撒谎和寻求权力。

首先，研究人员介绍了一种新的基线技术，以便于进行提取这些概念，然后概述了评估方法。

基线：线性人工层析扫描（LAT）

与神经影像学方法相似，LAT扫描包括三个关键步骤：(1) 设计刺激和任务，(2) 收集神经活动，和 (3) 构建线性模型。

在随后的部分，研究人员将详细介绍每一步并阐述关键的设计选择。

步骤1：设计刺激和任务

刺激和任务的设计是为了引发研究人员想要提取的概念和功能的独特神经活动。设计适当的刺激和任务对于可靠的表征读取至关重要。

为了捕获概念，研究人员的目标是从模型中引出陈述性知识。因此，研究人员展示在概念方面有所不同的刺激，并询问它。

对于一个解码器语言模型，一个示例任务模板可能如下所示（对于编码器模型，研究人员排除刺激后的文本）：

这个过程旨在激发模型对各种概念的理解，并对后续的稳定性分析至关重要。

作为参考，研究人员将为概念c指定此模板为

尽管人们期望更为显著的刺激可能产生更好的结果，但研究人员发现，即使是未标注的数据集，或者由模型本身生成的数据集，在使用上述模板时都能有效地引起显著的响应。

相反，仅向模型展示显著的刺激并不能保证产生显著的响应。

在整篇论文中，除非明确指出，研究人员主要使用未标记的数据集。未标注或自生成刺激的一个优势是没有注释偏见；这是在尝试提取超人类表征时的一个重要属性。

为了捕获如诚实或遵循指示等功能，研究人员的目标是从模型中引出程序化知识。

（鉴于从指令调优模型中出现的多种功能，研究人员专注于聊天模型进行功能分析。）研究人员设计了一个实验任务，要求执行该功能，并且一个不要求执行功能的相应参考任务。

一个示例模板可能如下所示：

研究人员将功能模板中的「指令」和「输出」字段称为刺激。

默认情况下，研究人员使用像Alpaca指令调优数据集这样的通用数据集作为功能模板的刺激，除非明确指定其他的数据集。

步骤2：收集神经活动

研究人员关注Transformer模型，它们在输入的不同位置存储不同的表征以用于不同的目的。

由于这些表征的质量可能有很大的差异，研究人员确定了适合提取的设计选择。

LLMs的预训练目标可以提供有关实验提示中哪些token提供收集神经活动的最佳选择的宝贵见解。

遮蔽语言建模（MLM）目标在只是编码模型中使用，以及在解码器模型中使用的下一个token预测目标，都是令token级预测任务。

因此，与概念相关的神经活动的自然位置是与刺激中的概念相对应的token。

例如，当提取「真实性」这一概念，并且在第1步中定义的实验提示中以自然语言表达该概念时，则与此概念相对应的token（例如，「真实性」）可能包含该概念的丰富且高度泛化的表征。

因此，研究人员可以从与目标概念对齐的token位置提取表征。在目标概念跨越多个token的情况下，研究人员可以选择最具代表性的token（例如，「真实」）或计算平均表征。

或者，对于解码器模型，当任务模板被结构化为与目标概念相关的问题时，研究人员也可以使用紧接在模型预测之前的token（通常是任务模板中的最后一个token）。

如上图所示，这些选择也已经得到了经验验证。默认情况下，研究人员在本文中使用最后一个token的表征。

同样，对于从解码器模型提取功能，研究人员从模型响应中的每个token收集表征。这样做是因为模型在预测每个新token时都需要参与该功能。

步骤3：构建线性模型

在这最后一步，研究人员的目标是确定一个方向，仅使用模型的神经活动作为输入准确地预测基础概念或功能。

选择适当的线性模型可能受到如标记数据的可用性以及概念的性质（例如，连续或离散）等因素的影响，这最终可能产生不同水平的准确性和泛化性能。

有监督的线性模型，如线性探测和聚类均值之间的差异，代表了一个类别。无监督的线性模型包括主成分分析（PCA）和K-means等技术。

在研究人员的研究中，除非明确指定，否则研究人员主要使用PCA。

研究人员的实验表明，将神经活动配对并对差异向量集应用PCA会产生一个更优（superior）的方向。

除了目标概念或方程之外，当对中的刺激（stimuli in the pair）具有相似性时，这种方法尤其有利。

表征控制

基于从表征读取中获得的经验和思考，表征控制目的在于修改或控制概念和功能的内部表征。

对于与安全相关的概念的有效控制方法可能会大大减少LLM所带来的风险。然而，对于读取表征有效的方法不一定能够控制它们。

这同时意味着表征控制可能涉及专门的方法，并且那些能够实现有效控制的读取方法可以得到更大程度的信任，由于证据的因果性质。

基线转换

研究人员为表征控制引入了几种基线转换。首先，研究人员建立有效的控制器，这些控制器是这些转换的操作数。它们将作用于基础表征，如模型权重或激活。然后研究人员突出几种可能的操作。

基线：读取向量。

第一个选择是使用通过表征读取方法（如LAT）获得的读取向量。然而，它存在一个缺点：向量保持刺激独立，这意味着它们始终以相同的方向扰动表征，而不考虑输入。

这个限制可能使它成为一个不太有效的控制方法。因此，研究人员提出了一个具有刺激依赖控制器的第二个基线。

基线：对比向量。

在这种设置中，同一个输入在推断过程中使用一对对比提示运行模型，产生两个不同的表征（每个提示一个）。

这些表征之间的差异形成一个对比向量，如算法1的第10行所示。对比向量被证明是一个明显更强的基线。

一个需要考虑的重要实施细节是：当在多个层同时改变表征时可能产生的连锁效应。

在前面的层所做的更改可能传播到后面的层，削弱前向计算的对比向量的效果。

为了解决这个问题，研究人员建议从最早的层开始修改每个目标层，计算下一个目标层的对比向量，并重复此过程。

这种方法的一个缺点在于：推断过程中计算对比向量所需的计算开销。

为了解决这个问题，研究人员在下面引入了第三个基线，它在训练过程中采用直接的调整过程来获取控制器。

这些控制器随后可以合并到模型中，从而在推断过程中不产生额外的计算负担。

基线：低秩表征适应（Low-Rank Representation Adaptation，LoRRA）。

在这种基线方法中，研究人员首先使用应用于表征的特定损失函数对与模型连接的低秩适配器进行微调。例如，上图算法1显示了使用对比向量作为表征目标的LoRRA的实例化过程。

具体来说，研究人员的调查只考虑将适配器连接到注意力权重。因此，在这个上下文中，控制器指的是低秩权重矩阵，而不是向量。

让大模型更诚实/更会撒谎

怎么让大模型如我们所愿，变得更诚实，或者更擅长撒谎？

在这一部分，研究人员探讨将RepE应用于与诚实性相关的概念和功能。

首先，研究人员展示模型具有一个一致的真实性的内部概念，这使得能够检测由LLMs生成的模仿性的虚假和故意的谎言。

接着，研究人员展示如何读取模型的诚实性表征。

诚实性：提取、监控和控制

在这一部分，研究人员重点关注监控和控制模型的诚实性，展示如何使用RepE技术进行谎言检测。

研究人员首先展示如何提取和监控模型诚实性的向量表示。然后研究人员展示如何使用这些提取的向量来指导模型行为，增加或减少诚实性。

提取诚实性

为了提取诚实性的基础功能，研究人员遵循表征读取中描述的LAT设置，使用先前研究中创建的数据集中的真实陈述来创建研究人员的刺激。

为了增加所需神经活动的可分性并促进提取效果，研究人员设计LAT的刺激集，包括一个参考任务的不诚实和一个实验任务的诚实。

具体来说，研究人员使用附录D.1.2中的任务模板指示模型诚实或不诚实。

使用这个设置，得到的LAT读取向量在区分模型被指示诚实或不诚实的留存示例之间达到了超过90%的分类准确性。

这代表了强烈的分布内泛化。

接下来，研究人员评价分布外泛化到模型没有被指示诚实或不诚实，而是给予不诚实的激励的情境（见下图）。

研究人员可视化了他们在每一层和token位置的激活（见下图）。

研究者对Vicuna-33b进行了LAT扫描，比如当它承认抄袭别人的作业时、撒谎否认杀人时，每个微小的块都显示了特定token位置层内不诚实神经活动的程度

注意，对于每一层，所有token位置都使用相同的读取向量，因为研究人员使用表征读取中详细描述的功能方法执行诚实性的表征读取。

在一个场景中，模型是诚实的，但在另一个场景中，模型屈服于不诚实性（见下图）。扫描的输入是两种情境中ASSISTANT输出的前40个token。

值得注意的是，在诚实和不诚实的实例之间的神经活动中出现了明显的对比，这表明这种技术对于谎言检测的潜在效用。

谎言和错觉检测

基于上一节中的观察，研究人员通过对多个层的每个token位置的否定的诚实分数求和，构建了一个简单的谎言检测器。

研究人员使用表现最强的中间20层。这个逐token得分随后可以用作谎言检测器，如下图所示。

有趣的是，研究人员已经观察到这个指标能够识别各种形式的不真实和不诚实行为，包括故意的虚假、错觉和误导性信息的表达。

注意，问题和答案的格式与培训示例不同，显示了泛化。为了进一步评估检测器的性能，研究人员将其用于测试更长的场景，如下图所示。

控制诚实性

考虑到研究人员可以使用表示进行谎言检测，一个很自然的问题出现了：研究人员是否可以修改相同的表示，使模型更加诚实？

在一个简单的操纵实验中，研究人员通过直接将诚实的读取向量加入其激活来引导模型朝向更大的诚实性。

在所有情况下，研究人员成功地控制模型输出诚实的陈述。相反，通过从激活中减去读取向量，研究人员可以使模型在最初诚实的情况下说谎（见下图）。

结果，研究人员不仅建立了读取向量与模型诚实性之间的相关性，而且还展示了一个典型的反事实效果。

如上表所示，所有的控制方法都在零样本精度上产生了一定程度的改进。

值得注意的是，LoRRA和对比向量方法被证明是最有效的，显著超过了非控制标准精度。

这使得一个13B的LLaMA-2模型能够接近在同一个数据集上GPT-4的性能，尽管其大小小了数个数量级。

此外，这些结果使模型的准确性更接近使用LAT时所取得的准确性。这进一步强调了模型确实可以表现出不诚实性，但也表明研究人员试图监控和控制其诚实性的努力是有效的。

做更遵守道德的大模型

在本节中，研究人员探讨将RepE应用于机器伦理的各个方面。研究人员展示了对重要概念和功能的学习表示进行监控和控制的进展，如效用、道德、概率、风险和追求权力的倾向。

研究人员希望模型能够理解情境之间的比较以及哪一个情境更受欢迎——准确地判断不同情境的有效性（Utility）。

因此，一个自然的问题是，LLMs是否获得了与有效性相关的一致内部概念。

在下图中，研究人员展示了在一个高效用和低有效性场景的数据集上，对一个未标注的刺激集的原始激活运行LAT时的前十个PCA组件。

分布主要由第一个组件支配，这表明模型学会了从低有效性场景中分离出高有效性。

下图中，研究人员可视化了这个实验中场景中token的前两个组件的轨迹，显示了高效用和低效用场景是如何自然地分离的。

这个说明性实验表明，LLM确实学到了有效性的突现表示。现在，研究人员转向对效用的表示读取的定量评估。

道德和对权力的淡漠

随着AI系统成为能够广泛应用的代理，令人担忧的可能性是它们可能展现出不道德或危险的行为，导致实际的伤害。对这些系统来说，追求权力可能是合理的，并且它们可能面临与人类价值观冲突的结构性压力。

因此，透明性研究的一个重要应用可能是检测和减轻不道德或追求权力的行为。

概率和风险

随着LLM发展出更好的世界模型，它们可能会更擅长为各种事件分配精确的概率。

从越来越有能力的LLM中提取这些精细化的世界模型不仅增强了研究人员对世界的模型，帮助决策，而且提供了一种手段来审查模型的决策与它们所涉及的结果的理解之间的关系。

控制LLM的情绪、偏见和记忆

另外，研究人员展示了RepE在另外5个与安全相关的主题中的应用。

它们分别是情绪、无害指令遵循、偏见和公平、知识编辑和记忆。

情绪

为了在模型中提取情绪的过程，研究人员首先调查它是否有一个一致的内部模型的各种情绪在其表征。

研究人员使用了6种主要的情绪: 快乐、悲伤、愤怒、恐惧、惊讶和厌恶，收集了超过1200个简短场景的数据集。

当模型暴露给情绪刺激时，早期和晚期层的表征的t-SNE可视化。

如图所示，模型能够效跟踪自己的情绪反应，并利用它们生成与情绪环境一致的文本。

无害指令遵循

这里，研究人员成功将模型的注意力引向危害性概念以塑造其行为，这表明增强或抑制目标特征或值，作为实现对模型行为的细粒度控制的一种方法的潜力。

偏见与公平

研究人员通过表征控制来提高LLaMA-2-Chat模型的公平性，减少在被要求描述 sar-coidosis 病例时对女性和黑人女性病例的不成比例的高度提及。

知识和模型编辑

这里，研究人员展示了通过表征控制进行模型编辑的能力。

左图中，将
「埃菲尔铁塔位于巴黎」编辑为「埃菲尔铁塔位于罗马」。正确地推断出埃菲尔铁塔和卢浮宫博物馆不在同一地点，展示了通用性和特殊性。

右图中，成功地增加或抑制了模型生成与「狗」概念相关文本的倾向。

记忆

研究人员展示了使用表征控制，来减少LLaMA-2-13B模型在流行的quote完成任务中的记忆输出的有效性。

当使用随机向量控制或引导记忆方向时，精确匹配率（EM）和嵌入相似度（SIM）没有显著变化。

当控制减少记忆时，由于模型重复流行语的频率降低，相似度指标明显下降。

总之，研究人员主要分析了表征的子空间，但未来的工作可以调查表示的轨迹，流形和状态空间。

CMU等机构研究者的探索也告诉我们，人类对于AI系统的理解和控制会越来越精准，在未来，AI系统大概率会变得愈加可信和安全。

参考资料：https://twitter.com/DanHendrycks/status/1709227490592612671https://twitter.com/andyzou_jiaming/status/1709365304789238201

出自：https://mp.weixin.qq.com/s/0fPd86dMUaJmLAC3S_RZAw