确保强大的机器学习模型中后门的安全

软件系统就在我们身边——从计算机操作系统到搜索引擎再到工业应用中使用的自动化。所有这一切的核心是数据，数据用于机器学习(ML)组件，这些组件可用于各种应用，包括自动驾驶汽车和大型语言模型(LLM)。由于许多系统都依赖于机器学习组件，因此保证其安全性和可靠性非常重要。

(资料图)

对于使用鲁棒优化方法训练的ML模型(鲁棒ML模型)，其针对各种攻击的有效性尚不清楚。主要攻击媒介的一个例子是后门中毒，它指的是输入模型的训练数据受到损害。在标准机器学习模型中检测后门攻击的技术是存在的，但稳健的模型需要不同的后门攻击检测方法，因为它们的行为与标准模型不同，并且持有不同的假设。

新加坡科技设计大学(SUTD)信息系统技术与设计(ISTD)支柱部门助理教授SudiptaChattopadhyay博士旨在弥合这一差距。

在《计算机与安全》杂志上发表的研究“在稳健的机器学习模型中实现后门攻击和防御”。Chattopadhyay教授和SUTD研究人员研究了如何在称为图像分类器的特定ML组件中注入鲁棒模型并防御后门攻击。具体来说，所研究的模型是使用最先进的投影梯度下降(PGD)方法进行训练的。

后门问题既紧迫又危险，特别是考虑到当前软件管道的开发方式。Chattopadhyay表示：“现在没有人从头开始开发ML模型管道和数据收集。他们可能从互联网上下载训练数据，甚至使用预训练的模型。如果预训练的模型或数据集中毒，生成的软件，使用这些模型将是不安全的。通常，只需要1%的数据中毒就可以创建后门。”

后门攻击的困难在于只有攻击者知道中毒模式。用户无法通过此中毒模式来识别他们的ML模型是否已被感染。

“这个问题的难度让我们着迷。我们推测后门模型的内部结构可能与干净模型不同，”Chattopadhyay说。

为此，Chattopadhyay研究了稳健模型的后门攻击，发现它们非常容易受到攻击(成功率67.8%)。他还发现，中毒训练集会为中毒类创建混合输入分布，从而使鲁棒模型能够学习特定预测类的多个特征表示。相比之下，干净的模型只会学习特定预测类别的单个特征表示。

Chattopadhyay与其他研究人员一起利用这一事实开发了AEGIS，这是第一个用于经过PGD训练的稳健模型的后门检测技术。AEGIS分别使用t-分布式随机邻域嵌入(t-SNE)和均值平移聚类作为降维技术和聚类方法，能够检测类中的多个特征表示并识别受后门感染的模型。

AEGIS的运行分为五个步骤-(1)使用算法生成翻译图像，(2)从干净训练和干净/后门翻译图像中提取特征表示，(3)通过t-SNE减少提取特征的维度，(4)采用均值平移来计算减少的特征表示的聚类，并且(5)对这些聚类进行计数以确定模型是否受后门感染或干净。

如果模型中有两个集群(训练图像和翻译图像)，则AEGIS会将该模型标记为干净。如果有两个以上的集群(训练图像、干净的翻译图像和有毒的翻译图像)，则AEGIS会将此模型标记为可疑且受后门感染。

此外，AEGIS有效检测了91.6%的后门感染鲁棒模型，误报率仅为11.1%，显示出其高效性。由于即使是标准模型中顶级的后门检测技术也无法在鲁棒模型中标记后门，因此AEGIS的开发非常重要。需要注意的是，AEGIS专门用于检测稳健模型中的后门攻击，而在标准模型中则无效。

除了能够在稳健的模型中检测后门攻击之外，AEGIS还非常高效。与需要数小时到数天才能识别后门感染模型的标准后门防御相比，AEGIS平均只需要5到9分钟。未来，Chattopadhyay的目标是进一步完善AEGIS，使其能够处理不同且更复杂的数据分布，以防御除后门攻击之外的更多威胁模型。

Chattopadhyay承认当今环境下人工智能(AI)的热度，表示：“我们希望人们意识到与人工智能相关的风险。ChatGPT等由法学硕士支持的技术正在流行，但存在巨大风险，后门攻击只是其中之一。通过我们的研究，我们的目标是实现值得信赖的人工智能的采用。”