RSA 2023创新沙盒盘点｜HiddenLayer：针对机器学习攻击的防护与响应平台

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户，每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序把安全装进口袋

活动

RSA 2023创新沙盒盘点｜HiddenLayer：针对机器学习攻击的防护与响应平台

2023-04-21 18:32:36

所属地北京

RSA Conference 2023将于旧金山时间4月24日正式启幕。作为全球网络安全行业创新风向标，一直以来，大会的Innovation Sandbox（创新沙盒）大赛不断为网络安全领域的初创企业提供着创新技术思维的展示平台。

近日，RSA Conference正式公布RSAC 2023创新沙盒竞赛的10名决赛入围者，分别为AnChain.AI、Astrix、Dazz、Endor Labs、HiddenLayer、Pangea、Relyance AI、SafeBase、Valence Security、Zama。

4月24日（美国旧金山时间），创新沙盒将决出本年度冠军，绿盟君在此立足背景介绍、产品特点、核心能力等，带大家走进入围十强厂商，洞悉创新发展趋势。今天，我们要介绍的厂商是HiddenLayer。

公司介绍

HiddenLayer是机器学习算法和模型安全解决方案的提供商，成立于 2022 年美国得克萨斯州奥斯汀市。基于轻量化的软件平台方案，HiddenLayer能够提供针对机器学习系统的威胁建模、风险评估培训、红队评估服务。目前，已获得种子轮600万美元的融资。

创始人团队来自Cylance，同样是一家网络安全领域的人工智能和机器学习创业公司，采用了深度学习等技术手段实现了恶意软件的分析能力。HiddenLayer官网给出了一个故事，说明了团队成立契机——源于2019年在Cylance发生的一次真实的对抗机器学习攻击事件。HiddenLayer创始团队成员发现，攻击者采用模型推断技术（Model Inference Attack），制造了可绕过Cylance恶意软件检测机器学习模型的恶意程序，并进一步控制了客户设备。可见，机器学习的威胁攻击面暴露并被利用的真实事件，是推动HiddenLayer团队成立创业公司的核心驱动力之一。

图1 典型模型推断攻击场景

技术背景介绍

ChatGPT等大模型（Large Language Models, LLMs）驱动的新一轮人工智能技术变革正在如火如荼的发展中。与此同时，人工智能技术广泛、深入、持续应用中的伴随安全风险，也逐渐上升到一个全新的高度。据统计，2021年全球的网络攻击估计造成了6万亿美元的损失。实际上，针对机器学习系统的攻击技术研究领域非常活跃。一方面，相关的攻击事件愈发频繁，另一方面，针对机器学习、人工智能的开源工具集、攻击框架也越来越多，如IBM发布的Adversarial Robustness Toolbox、Microsoft发布的Counterfit、CleverhansLab发布的Cleverhans、QData发布的TextAttack等等。

人工智能技术的涵盖范围很广，包括机器学习技术、深度学习技术等各类数据科学和知识工程技术。人工智能的技术在各行各业的深入应用，以及数字空间、社会空间、物理空间的融合，使得人工智能的攻击面已逐渐渗透到更广泛的系统中。同时，人工智能技术栈涉及复杂的生命周期、部署框架与应用模式，其自身的攻击面风险的建模随之变得更复杂。

然而，传统网络空间威胁建模与威胁分析体系，主要面向传统网络空间攻击者、技战术、受害者、武器库等主要实体与关系分析。在威胁建模的范围上，缺乏针对人工智能系统关键要素，包括数据、算法、应用等维度的实体、关系范式适配，无法精确描述针对人工智能系统的攻击事件上下文；在威胁建模的方法上，缺乏对人工智能系统脆弱性缺陷、威胁攻击技战术描述、分类、交换方面的描述机制与共识，极大的限制了人工智能攻击面的识别、分析与风险分析。

随着人工智能技术的快速演进，人工智能风险对抗已成为国内外重要的研究领域。针对人工智能复杂攻击面风险的建模，我们可以参考以下几个重要的框架。

首先是MITRE构建的攻击面风险知识库ATLAS（Adversarial Threat Landscape for Artificial-Intelligence Systems），类似于MITRE ATT&CK，从攻击的视角，提供了描述人工智能攻击风险的技战术元语言词库。如图所示，ATLAS按照攻击阶段，划分了侦查（Reconnaissance）、资源开发（Resource Development）、初始访问（Initial Access）、机器学习模型访问（ML Model Access）、执行（Execution）、持久化（Persistence）、防御逃逸（Defence Evasion）、发现（Discovery）、收集（Collection）、机器学习攻击准备（ML Attack Staging）、数据外泄（Exfiltration）、影响（Impact）多个战术并给出了详细的技术词表，以及相关的技战术定义、缓解措施以及相关案例。

图2 MITRE ATLAS矩阵知识库
类似MITRE ATT&CK，ATLAS可以用于攻击模拟、攻击防御、攻击评估等多维度的覆盖率分析，或作为攻击关联分析的知识库基础。

另外一个可用来描述人工智能系统风险的框架，是美国国家标准技术研究所NIST于2023年1月最新发布的Artificial Intelligence Risk Management Framework (AI RMF 1.0)。该框架将从Plan and Design、Collect and Process Data、Build and Use Model、Verify and Use Model、Verify and Validate、Deploy and Use、Operate and Monitor以及Use or Impacted这7个生命周期，给出了涉及的人工智能的风险验证关键过程和利益相关人员。

该框架不同于MITRE ATLAS，AI RMF 1.0从开发构建的DevOps流程的角度，即从AI应用的拥有方给出了风险暴露面及其管理机制。

图3 《AI RMF 1.0》中的人工智能风险生命周期和责任归属

除了以上两个框架，人工智能的攻击面及风险分析，还可以参考中国信通院的《人工智能安全框架（2020年）》等。

图4 中国信通院的《人工智能安全框架（2020年）》

HiddenLayer技术分析

以上简要概述了人工智能技术及其系统的攻击面风险的技术矩阵与地图。接下来，我们重点解读HiddenLayer的技术能力。

3.1

核心产品和服务

3.1.1 产品

HiddenLayer提供的平台称为MLSEC PLATFORM，主要包括三个核心子产品（工具），包括：

MLDR，机器学习威胁检测与响应。能够提供实时威胁检测，提供包含告警、隔离、画像和误导（misleading）等响应操作，支持你可配置的精调选项。

Model Scanner，模型扫描器。能够提供脆弱性识别，失陷模型识别，以及恶意代码注入的检测。

Security Audit Reporting，安全审计报告。全面的报告AI/ML资产风险状态，可定制的仪表盘和报告功能，以及脆弱性的分级功能等。

基于上述产品能力，能够提供对模型推断和窃取、数据投毒、攻击逃逸、模型注入等方法的攻击检测和响应。

3.1.2 核心服务

HiddenLayer官网给出了其“CONSULTING SERVICES”，具体又包括以下核心能力。

威胁建模（THREAT MODELING）通过综合的调研和攻击预演，全面的评估业务需求和AI/ML威胁攻击面。通过场景化的分析，评估整体的AI/ML环境和资产风险，可以交付相关系统的威胁向量、可能性、影响、受影响的资产以及缓解和恢复工作。

机器学习的风险评估（ML RISK ASSESSMENT）分析机器学习模型的整个运营流程，并深入分析关键模型的风险，提供机器学习技术的投资风险分析。

专家培训（EXPERT TRAINING）为数据科学和安全团队提供了解AML TTP（针对机器学习的威胁、战术和程序）和最有效的对策来保护系统免受这些威胁的影响。

红队评估（RED TEAM ASSESSMENT）通过攻击渗透团队（Adversarial Machine Learning Research, AMLR）进行实战化攻击渗透进行现有的机器学习系统防御有效性。

人工智能/机器学习的模型扫描（AI/ML MODEL SCANNING）使用其模型完整性扫描器来测试和确认现有相关模型的被攻陷、被篡改等风险。

MLDR实现服务（ML DETECTION & RESPONSE (MLDR) IMPLEMENTATION SERVICES）提供其无侵入式MLDR软件的集成服务。

从以上核心产品、服务能力来看，HiddenLayer可以提供给服务，或软件集成的方式，向人工智能/机器学习的服务商、使用方等企业，提供定制化的攻击面识别、攻击防护、攻击模拟等核心能力。

3.2

AI攻击风险覆盖

HiddenLayer采用前述MITRE ATLAS框架来归类其AI攻击检测与响应的技术，其技术平台的AI攻击风险覆盖情况如下图。在技术覆盖方面，下图给出的矩阵技术种类，少于最新的ATLAS官网的矩阵技术种类，因此暂时按照HiddenLayer给出的版本进行统计。整体上，可以看到对ATLAS的战术覆盖率为100%。其中，大类技术的覆盖为92.3%（36/39）。这其中，其MLDR平台覆盖61.5%（24/39），MODEL SCANNER技术覆盖17.9%（7/39），专业服务能力覆盖12.8%（5/39），其他未覆盖7.7%。未覆盖部分，包括Physical Environment Access，Data from information Repositories以及Exfiltration via CyberMeans三项技术，主要是非防护系统机制可控的部分，例如物理访问等。

图5 HiddenLayer的ATLAS风险矩阵覆盖情况
整体上看，HiddenLayer通过三项核心平台、工具和服务能力，基本覆盖了ATLAS给出的核心AI系统攻击面。从以下HiddenLayer系统的展示来看，其MLDR平台的检测告警，给出了检测告警名称、严重程度、防护的模型名称、ATLAS ID、时间信息、请求信息及挡墙告警的处置情况，以及整体的告警统计情况。

图6 HiddenLayer MLDR平台展示
3.3

核心技术详解：MLDR

类似端点检测和响应（EDR）、扩展检测和响应（XDR）或托管检测和响应（MDR）等传统网络空间检测与响应技术，机器学习检测和响应（MLDR）旨在识别和防止针对机器学习系统的攻击。MLDR监控机器学习模型的输入和输出，即发送到模型的请求以及相应的模型预测。通过分析和识别恶意、可疑或异于常态的活动数据，MLDR能够在早期实现攻击检测并提供应对措施。

HiddenLayer提供的MLDR，是一种轻量级的、外挂式无侵入的软件防护系统，不依赖机器学习模型的“内生安全”机制。MLDR产品包含两个部分：本地安装的客户端和基于云的分析端，客户端通过API与云端传感器通信。客户端部署在客户的环境中，类似防火墙集成到机器学习模型服务流程中，并将所有模型查询的输入向量以及相应的预测发送到HiddenLayer 的云端API。然后，该数据用来分析以检测恶意或可疑活动。如果检测到任何这样的活动迹象，则会以所选择的方式将警报发送回给客户，可以集成到Splunk、DataDog、HiddenLayer UI或客户端命令行脚本。

图7 HiddenLayer MLDR框架

在数据遥测层面，很显然，这种将数据传输到云端的方式会带来数据和隐私泄露的风险。HiddenLayer的MLDR解决方案是，后向量化方法。即HiddenLayer的客户端只抽取机器学习模型向量化后的数据——匿名化的特征向量发送到云端的分析API。该客户端可以使用单个命令安装，并可以在几分钟内无缝集成到客户的MLOps管道中。

在检测机制层面，具体的方法我们不得而知，官方博客中显示其技术是启发式方法和机器学习分析技术的融合方法。

在告警机制层面，如前所述，能够将检测告警映射到MITRE ALTAS机器学习攻击风险矩阵当中，并统一集成到各类SIEM平台。

在攻击响应层面，MLDR可以实现1）限制特定模型或请求者的访问速率或封锁恶意访问；2）改变分类分数以防止梯度/决策边界的发现；3）将流量重定向并对攻击进行持续画像；4）引入人类干预，支持手动分类和响应。

HiddenLayer给出几个典型的针对机器学习系统的攻击案例，介绍了其MLDR的检测效果。例如，MLDR能够快速检出基于强化学习的恶意软件生成框架MalwareRL生成的恶意样本。其中，针对图像单像素扰动攻击，可通过监控带有微小修改的大批图像的输入向量来检测；针对HopSkipJump攻击这种模型欺骗技术，可通过使用个别请求者模型输入的时间序列的各种距离度量来进行识别；针对基于KnockOffNets框架模型推断的模型窃取行为，通过输入向量和预测结果序列的异常分析来检测，类似一种多实体横向分析UEBA方法。

总结

HiddenLayer提供针对机器学习和人工智能系统的攻击检测与响应技术、模型脆弱性扫描技术以及风险分析报告技术。这些技术构成了针对机器学习和人工智能系统的一套风险管控套件。整体上技术的构建框架和构建思路，遵循传统网络空间防护技术攻击面识别、检测响应等维度的基本框架。同时，HiddenLayer从AI/ML领域的最新研究技术出发，充分覆盖了MITRE ATLAS框架中涉及的攻击技战术矩阵，给出了合理的，同时保护客户隐私的检测分析技术解决方案。

站在ChatGPT的人工智能发展的风口上，HiddenLayer给出了相对完整、可信的人工智能/机器学习模型及系统安全解决方案，为此笔者相信，HiddenLayer将是本界RSA创新沙盒冠军的有利冲击者。

参考文献

[1] https://atlas.mitre.org/

[2] https://hiddenlayer.com/

# 数据安全 # 网络安全技术

本文为独立观点，未经允许不得转载，授权请联系FreeBuf客服小蜜蜂，微信：freebee2022

被以下专辑收录，发现更多精彩内容

+ 收入我的专辑

+ 加入我的收藏

展开更多