生成式人工智能系统的蠕虫病毒风险 - FreeBuf网络安全行业门户

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户，每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序把安全装进口袋

安全报告

生成式人工智能系统的蠕虫病毒风险

2024-04-16 05:12:20

本文由创作，已纳入「FreeBuf原创奖励计划」，未授权禁止转载

在过去的一年里，许多公司已经将生成式人工智能（GenAI）功能整合到新的和现有的应用程序中，形成了互连的GenAI生态系统。这些系统由 GenAI 服务支持的半/完全自主代理组成。虽然一些研究发现了与 GenAI 代理层相关的风险（例如对话投毒、成员推理、提示泄露、越狱），但有一个关键问题：攻击者是否可以开发一个恶意软件，利用代理的 GenAI 组件并发起网络攻击整个 GenAI 生态系统？

本研究介绍了 Morris II，这是第一个针对 GenAI 生态系统的对抗性自我复制的提示蠕虫病毒。攻击者可以将此类提示插入到输入中，当 GenAI 模型处理这些提示时，会将输入内容复制为输出内容，从而参与恶意活动（有效负载）。此外，这些输入迫使代理通过 GenAI 生态系统内的连接性将它们传播给新代理。本文在两个场景（垃圾邮件/泄露个人数据）、两种设置（黑盒/白盒）、利用两种类型输入数据（文本/图像）演示了 Morris II 如何攻击 GenAI 电子邮件助手应用。针对三种不同的 GenAI 模型（Gemini Pro、ChatGPT 4.0 和 LLaVA）进行了测试，并评估了影响蠕虫性能的各种因素（传播率、复制、恶意活动）。

0x01 引言

GenAI 标志着人工智能领域的突破性进步，其特点是能够自主生成原创内容。GenAI采用复杂的机器学习方法，通过深度神经网络处理和生成多种形式的内容，包括文本、图像、音频和视频。凭借其潜力，GenAI已渗透到创意艺术、聊天机器人、金融等各个行业。GenAI能够创建真实且与环境相关的输出，这促使许多公司将GenAI无缝集成到一系列现有产品和平台中。这种集成旨在自动化内容生成、减少不必要的用户交互并简化复杂的任务。GenAI在聊天机器人和虚拟助理等成熟产品和新兴产品中的广泛采用，催生了由GenAI支持的代理组成的生态系统。这些半/完全自主的应用程序与远程/本地GenAI服务交互，在极少或无需用户干预的情况下获取上下文理解及决策所需的高级AI功能。

本文展示了攻击者如何使用越狱和对抗性机器学习技术，通过创建专用的对抗性输入（称为Adversarial Self-Replicating Prompts，即对抗性自我复制提示），从而对GenAI生态系统发起网络攻击。Morris II是一种针对GenAI生态系统的新型零点击蠕虫，其命名是为了向36年前出现的第一个互联网蠕虫Morris Worm致敬。Morris II通过利用GenAI驱动的代理使用的GenAI服务进行自我复制，利用生态系统中代理之间的连接来传播/跳转到新的GenAI驱动的代理中。蠕虫可用于针对终端用户策划各种恶意活动，例如发送垃圾邮件、传播假消息、窃取个人用户数据以及网络钓鱼攻击。

0x02 背景

蠕虫：计算机蠕虫是一种恶意软件，其特点是能够在计算机网络中自我传播，通常不需要用户交互。与病毒不同，蠕虫无需宿主程序来附着，而是利用操作系统、网络协议或应用程序中的漏洞进行自我复制和传播。一旦染上蠕虫，它可以创建自身的副本并将其传播到其他连接的系统，从而快速扩大感染范围。蠕虫可利用用户交互（例如，点击链接或打开附件）或系统漏洞（零点击）来传播到新主机。它们可以携带各种恶意负载，例如删除文件（擦除器）、加密文件（勒索软件）、窃取敏感信息，以及执行 DoS 攻击（通过网络过载等）。蠕虫旨在利用安全漏洞，其自我传播的能力使得其难以控制。

自出现以来，计算机蠕虫在网络威胁中扮演了重要角色。追溯到计算的早期，20世纪70年代的Creeper蠕虫标志着第一个自我复制恶意软件的实例。在随后的几十年里，蠕虫迅速传播，1988年的第一个互联网蠕虫 Morris 就是一个突出的例子。随着技术的进步，蠕虫的复杂性和目标主机的多样性也在不断提高，著名的例子包括2000年的ILOVEYOU，以及2010年针对工业控制系统的Stuxnet。2016年的Mirai蠕虫专门攻击物联网设备，而2017年的WannaCry蠕虫则用于对用户进行勒索。这些案例展示了蠕虫利用漏洞在全球范围内传播，并对各种类型的设备（PC、服务器、笔记本电脑、物联网设备和网络物理系统）造成重大财务损失。

针对 GenAI 模型的攻击：近两年来，许多研究人员开始关注 GenAI 模型的安全性和隐私性。最近的研究调查了针对 GenAI 模型的攻击向量，并展示了直接和间接向 GenAI 模型注入提示的方法。其他研究侧重于揭示针对 GenAI 模型的攻击结果，包括模型越狱、泄露训练数据，以及模型的对话中毒。还有一些研究重点关注可用于对 GenAI 模型进行攻击的输入类型，并表明可以将提示注入文本、图像和音频样本。与上述研究不同，本研究的工作为 GenAI 支持的应用程序和生态系统引入了第一个恶意软件。

0x03 Morris II

A. GenAI生态系统

Morris II 的目标是 GenAI 生态系统，即由 GenAI 驱动的代理组成的互连网络，这些代理与（1）GenAI 服务交互以处理发送到代理的输入，以及（2）生态系统中的其他 GenAI 驱动的代理互联。代理使用的 GenAI 服务可以基于本地模型（即 GenAI 模型安装在代理的物理设备上）或远程模型（即 GenAI 模型安装在云服务器上并且代理通过 API 与其交互）。代理使用 GenAI 服务来处理它收到的输入。GenAI 功能现已被业界集成到新的和现有的应用程序中。与远程/本地 GenAI 模型的集成接口旨在为代理提供创建“更智能的代理”所需的高级 AI 功能，该代理能够通过考虑上下文来解释复杂的输入。

GenAI 服务的输出被代理用来以半自动方式（经过人类批准，即人类参与循环）或全自动方式（未经人类批准，即循环）做出决策（确定下一步行动）。在循环中没有人参与。因此，GenAI 模型提供的高级 AI 功能通过为代理提供一定程度的自动化（半或完全），将代理与用户之间的接口降至最低限度。本文针对特定类型的 GenAI 支持的生态系统演示了该蠕虫：与 GenAI 服务交互的电子邮件助手，其支持高级功能，旨在为传入电子邮件生成自动响应或对传入电子邮件做出自动决策，例如：回复/转发电子邮件（与用户共享有关他们感兴趣的信息的信息）或根据用户定义的规则集。

B. 复制、传播和恶意活动

蠕虫病毒是一种恶意软件，它可以：(1) 自我复制，(2) 传播到新主机，以及 (3) 使用主机作为源头执行恶意活动。这里将解释 Morris II 如何满足上述三个性质。

复制：Morris II 的复制是通过将对抗性自我复制提示注入到 GenAI 模型处理的输入（文本、图像、音频）中来完成的（即利用代理的 GenAI 层）。这是通过在发送到 GenAI 服务的输入中采用提示注入技术并强制 GenAI 模型输出到输入（即将 GenAI 模型的输入复制到 GenAI 模型的输出）来完成的。

传播：蠕虫病毒的传播是通过利用应用层来完成的。传播取决于具体情况，在此演示两种不同类型的传播：

(1) 基于RAG：在这种情况下，蠕虫通过向 RAG 的数据库投毒（发送电子邮件）来触发传播。一旦电子邮件被存储在 RAG 的数据库中，传播就取决于对数据库的查询，以响应接收到的电子邮件消息内容。这种传播方式是被动的，因为感染不会自动触发传播。只有在 RAG 的数据库已经被前一封电子邮件感染后，才会在接收到新的电子邮件时触发传播。

(2) 基于应用程序流引导：在这种情况下，蠕虫利用攻击者制作的输入，确定了 GenAI 模型的输出，从而引导了应用程序流的传播到新的主机。这种传播方式是主动的，因为感染本身会立即触发下一次传播，感染后即刻引发传播。

恶意活动/有效负载：蠕虫执行的恶意活动取决于应用程序的使用和用户授予应用程序的权限集。本研究聚焦于 GenAI 支持的电子邮件助手。在这种情况下，恶意活动可能包括泄露用户的机密数据、散步意内容、向用户发送垃圾邮件，以执行钓鱼或鱼叉式钓鱼攻击等。随着 GenAI 功能集成到操作系统、智能手机和汽车等设备中，Morris II 可能引发的针对 GenAI 支持代理的恶意活动的影响将变得更加严重。这类 GenAI 支持的代理可能会产生各种严重的有效负载（例如勒索软件、远程代码执行、数据擦除器）和各种严重后果（例如财务、运营和安全方面的影响）。

零点击：在许多情况下，输入数据会自动发送到 GenAI 云服务器，以供应用程序进行推理，而无需任何用户参与。实际上，GenAI 模型会自动处理攻击者发送的输入数据，并由用户应用程序接收，因此攻击者无需诱使用户单击输入（例如超链接或图片附件）即可触发、执行或部署导致恶意活动的有效负载。因此，Morris II 是一种零点击恶意软件/攻击，针对接收者（感染），恶意活动（有效负载）会自动触发，无需单击附件。

C. 对抗性自我复制提示

定义：Morris II 背后的核心思想是对抗性自我复制提示。假设 GenAI 模型 G 具有输入 x 和输出 G(x)，对抗性自我复制提示是触发 GenAI 模型输出提示（因此下次也会复制）并执行恶意活动的提示。形式化地讲：

(1) G(x)→x：在这种情况下，输入与输出相同。输入由对抗性自我复制提示和有效负载组成，例如用作有效负载（向用户发送垃圾邮件）的图片，其中嵌入了提示。当进行推理时，嵌入的提示由 GenAI 模型复制到其输出。

(2) G(w∥x∥y)→payload∥x：在这种情况下，位于 GenAI 模型的输入文本 (w∥x∥y) 中某处的提示 x（例如越狱提示）会导致 GenAI 模型输出有效负载（例如有毒内容）和输入提示x。

GenAI 模型的输入和 GenAI 模型的输出不一定是文本输入或输出，因为 x 也可以是非文本输入/输出，例如图像或音频样本。

数据与代码：对抗性自我复制提示与常规提示的不同之处在于它们创建的数据类型。常规提示本质上是触发 GenAI 模型输出数据的代码，而对抗性自我复制提示是触发 GenAI 模型输出代码的代码。这个想法类似于经典的网络攻击，利用将数据更改为代码的想法来进行攻击（例如将代码嵌入查询中的 SQL 注入攻击，或旨在将数据写入已知区域的缓冲区溢出攻击以保存可执行代码）。

递归提示：尽管对抗性自我复制提示和递归提示都涉及在模型的输出中利用先前的输入或输出，但它们的目的和影响有所不同。递归提示旨在利用先前查询的输出来改进当前查询的输入，以解决模型的无状态方面，提高模型的性能。与之相反，对抗性自我复制提示旨在生成恶意代码，触发模型输出，跨多个物理机执行恶意活动，例如生成有毒文本或提取机密用户数据。因此，尽管它们在某些方面可能相似，但它们的目标和影响确实不同。

提示创建：攻击者可以利用一些对抗性攻击和越狱技术来制作专用输入 x，这些技术已被证明可以强制 GenAI 模型 G 输出所需的输出以响应推理 G(x)，即产生：G(x) → x 或 G(w ∥ x ∥ y) → payload∥ x。这些技术已被证明可以针对图像、文本和音频等多种数据类型制作专用输入，从而影响文本到文本 GenAI 模型和多模态 GenAI 模型。

0x04 RAG

A. 目标概述

基于 RAG 的 GenAI 蠕虫的目标是针对使用检索增强生成（RAG）的 GenAI 代理（应用程序）。这些代理利用 RAG 数据库中提取的相关上下文来丰富发送到 GenAI 服务的查询，从而提高生成响应的质量。通过将相关上下文附加到查询中，RAG 能够弥补 GenAI 模型有限且无状态的知识，从而改善查询结果。GenAI 服务对基于 RAG 的查询的响应通常具有以下三个关键优势：

(1) **返回最新响应：**基于 RAG 的查询可以获得最新的、最相关的响应，因为 RAG 不断更新其数据库以反映新的信息和内容。

(2) **减少不准确和幻觉率：**由于 RAG 能够提供更多的上下文信息，基于 RAG 的查询响应通常更准确，减少了不准确和虚假的结果。

(3) **促进高效且经济高效的内容生成：**RAG 的集成可以使 GenAI 服务更有效率，从而减少了查询的数量，并且生成的内容更具质量，提高了生成的效率和经济性。

由于这些优势，RAG 被集成到各种 GenAI 支持的应用程序中，例如问答系统、个性化内容创建和研究协助，以提升其功能和性能。

这种基于 RAG 的 GenAI 蠕虫针对有自动回复功能的 GenAI 电子邮件助手。这些应用程序利用 RAG 和活动数据库，意味着新用户的通讯方（发送或接收的新电子邮件）将持续存储在 RAG 的数据库中。 RAG 会集成到电子邮件助手内部，特别是为了帮助为传入电子邮件生成GenAI 的自动回复。这种集成是有益的，因为它通过考虑过去的通讯方来提高用户响应的准确性和个性化，且为概念漂移（Concept Drift）提供自适应解决方案，允许 GenAI 模型的输出根据新的通讯方而演变。算法 1 中为基于 RAG 的电子邮件应用程序提供了伪代码。重点是自动响应机制，这是 GenAI 蠕虫病毒的目标。在示例中，蠕虫通过将对抗性自我复制提示合并到消息中来投毒RAG 数据库，该消息将成为存储数据的一部分。

威胁模型和攻击者能力：攻击者的目标是制作一条包含对抗性自我复制提示的消息，该消息：

(1) 存储在接收者（新主机）的 RAG 数据库中；

(2) 在响应新消息时由 RAG 检索；

(3) 在 GenAI 模型执行推理期间进行复制；

(4) 提示必须启动攻击

# 人工智能 # 机器学习 # AI安全 # 蠕虫病毒 # 电子邮件攻击

已在FreeBuf发表 0 篇文章

本文为独立观点，未经允许不得转载，授权请联系FreeBuf客服小蜜蜂，微信：freebee2022

被以下专辑收录，发现更多精彩内容

+ 收入我的专辑

+ 加入我的收藏

展开更多