图像是LLM无法防御的攻击媒介

发布时间：2023-12-29 01:27:01 所属栏目：安全来源：DaWei

导读： 图像是LLM无法防御的攻击媒介

由于LLM在其处理过程中没有数据清理步骤，因此每个映像都是可信的。就像让身份在网络上自由漫游而不对每个数据集、应用程序或资源进行访问控制一样，上传到

图像是LLM无法防御的攻击媒介

由于LLM在其处理过程中没有数据清理步骤，因此每个映像都是可信的。就像让身份在网络上自由漫游而不对每个数据集、应用程序或资源进行访问控制一样，上传到LLM的图像也是如此。拥有私有LLM的企业必须采用最低权限访问作为核心网络安全策略。

OpenAI目前还没有关闭多模式提示注入图像攻击的解决方案——用户和企业只能靠自己了。英伟达开发人员的一篇博客文章提供了规范性指导，包括强制执行对所有数据存储和系统的最低权限访问。

多模式提示注入图像攻击的工作原理
多模式提示注入攻击利用GPT-4处理视觉图像的漏洞来执行未被检测到的恶意命令。GPT-4依靠视觉转换器编码器将图像转换为潜在空间表示。图像和文本数据被组合以创建响应。

该模型没有方法在编码前对可视输入进行清理。攻击者可以随心所欲地嵌入任意数量的命令，GPT-4会认为这些命令是合法的。自动对私有LLM进行多模式即时注入攻击的攻击者将不会被注意到。

包含注入图像攻击
图像作为无保护攻击媒介的问题在于，随着时间的推移，攻击者可能会使LLM训练的数据变得不那么可信，保真度也会降低。

最近的一项研究提供了关于LLM如何更好地保护自己免受即时注入攻击的指导方针。为了确定风险的程度和潜在的解决方案，一组研究人员试图确定攻击在渗透LLM集成应用程序方面的有效性，其方法值得注意。该团队发现，31个集成了LLM的应用程序容易受到注入的攻击。

改进平台架构，将用户输入与系统逻辑分离
目标应该是消除用户输入直接影响LLM的代码和数据的风险。任何图像提示都需要处理，以便不会影响内部逻辑或工作流程。

采用多阶段处理工作流来识别恶意攻击
创建多阶段流程以及早捕获基于图像的攻击有助于管理此威胁媒介。

自定义防御提示目标越狱
越狱是一种常见的即时工程技术，用于误导低层管理人员进行非法行为。加装提醒以应对看似恶意的分辨率信息能够加强图片的保护措施。不过研究团队警示道，这种更高难度的反手段也愈发难以被防御。

（编辑：文章分享网_茂名站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!