机密计算峰会2023 | 打通数据孤岛的PPML能力

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户，每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序把安全装进口袋

数据安全

机密计算峰会2023 | 打通数据孤岛的PPML能力

2023-07-12 18:15:10

所属地北京

6月30日，机密计算峰会2023（Confidential Computing Summit 2023）在美国旧金山成功落幕。该峰会由机密计算联盟举办，通过聚焦各行业机构优秀解决方案和实践案例，加速推动机密计算在如医疗、金融等各个行业的应用。峰会当天吸引了微软、Google、Meta、Intel、Nvidia、ARM等来自全球的云服务厂商、机密计算软硬件供应商，以及来自MIT、ETH Zurich等的学术界专家，数十家企业、机构进行了行业优秀案例的主题分享。 1689156784_64ae7cb0ec013227e5464.jpg!small?1689156785460

字节跳动安全研究团队与Intel BigDL团队出席本次峰会，首次对外展示了Jeddak Sandbox（Jeddak数据安全沙箱）的最新能力—— PPML（Privacy-Preserving Machine Learning），通过向与会嘉宾现场分享PPML如何帮助用户打通“数据孤岛”，呈现了Jeddak Sandbox的产品力和客户价值——为各方数据在机器学习全流程中提供隐私安全的保障，实现数据“可用不可见”的安全合规效果。

1689156793_64ae7cb95e910527bfd54.jpeg!small?1689156793743

一、PPML：打造高效安全的AI体验

Jeddak数据安全沙箱集成了常用的机器学习引擎，提供支持多源数据、可定制化、可调试、高效易用的机器学习能力，帮助用户解决各类AI场景下的隐私合规问题，充分挖掘和发挥数据价值。目前，沙箱已经服务了内外部多个业务的建模、预测场景，为各方数据的全生命周期隐私安全提供保障。
在产品建设上，沙箱团队与Intel BigDL团队展开了深度合作，集成了其提供的安全提升和性能优化手段，以优化产品体验：

沙箱集成了BigDL团队的加速方案（如BigDL Nano），让用户能够更快地完成各类计算任务，提高业务执行效率。
沙箱采用了BigDL的隐私加强方案，以低成本的方式完成了常用的大数据分析、机器学习框架与TEE的集成，使得沙箱能够在此基础上为用户提供更丰富的产品功能。

二、强大的联合建模工具

沙箱提供了一套强大的联合建模工具，无论是数据拥有方还是经验丰富的算法方都可以根据实际场景需要，轻松地使用沙箱进行隐私保护下的建模，并得到高质量的模型。

简单易用。沙箱PPML内置了多种机器学习算法，包括逻辑回归、XGBoost、通用神经网络模型等，帮助用户进行标准化的建模。用户无需编写复杂的代码，通过图形化界面完成数据和参数配置后即可进行建模。沙箱还能根据用户需求提供实时的模型训练指标和评价结果，为用户优化模型提供准确依据。
灵活可定制。针对一些复杂场景，沙箱支持定制化建模功能，用户能够更加灵活地进行训练脚本的开发。同时，沙箱还提供调试能力，并在保证数据安全的前提下，使用基于真实数据模拟的调试数据进行运行调试，帮助用户更快速地定位和解决开发中的问题。
多重优化。在易用性、安全性和效率方面，沙箱都进行了优化。例如，支持多方数据进行联合建模，并提供数据对齐、I/O加密等功能，帮助用户更好地处理数据。性能方面，沙箱结合了BigDL Nano提供的加速、分布式训练等特性，提高了训练效率和性能。针对分布式训练，也进行了针对性的安全加固，例如采用RA-TLS保护每个分布式节点间的通信。

1689156691_64ae7c53a9656f849ca9b.png!small?1689156692185

三、高效的在线预测服务

为了满足用户对数据进行深入分析以及预测的需求，同时快速响应用户的数据变化，沙箱提供了在线的预测能力，用户可以通过沙箱提供的API接口请求已经训练好的机器学习模型，实时地进行预测。

专注性能提升。为了提高预测过程中的效率，沙箱进行了一系列的优化。首先，沙箱使用了经过性能优化的在线预测框架。其次，沙箱采用分布式的架构设计，实现快速高效地处理高并发请求。同时，沙箱充分结合BigDL Nano提供的模型优化策略，例如IPEX、JIT、基于半精度（BF16）指令的模型量化等手段，提高预测效率。
充分保障安全。沙箱的在线预测不仅具有出色的预测效率，在安全性方面也进行了针对性的设计。首先沙箱支持端到端的通信加密，确保用户的请求只在TEE内被解密。同时，沙箱增加了对模型访问的认证鉴权机制，只有经过授权的用户才能够访问服务，有效地保护了模型的知识产权。

因此，沙箱能够快速、安全、准确的部署训练好的模型，为用户提供高安全和高效率的预测体验。

1689156655_64ae7c2f10c6e4d4c0582.png!small?1689156655946

四、性能总结

安全沙箱团队与Intel BigDL一起对沙箱的建模和预测能力进行了一系列的端到端性能测试。测试结果如下图所示。 1689156632_64ae7c18864de2869bb69.jpg!small?1689156633086

可以看到，由于采用了TEE技术，沙箱的建模和预测性能受到了一定程度的影响，但是基于TEE的解决方案与原生方案在性能上并没有明显差异，基本性能损失仅在10%以下（参考Baseline部分）。

通过优化，可以弥补因为TEE引入而带来的性能损耗。实际测试结果表明，在使用了优化后的Nano版本中，沙箱的建模和预测性能比原生方案提高了3倍甚至4倍（参考Baseline与使用Nano优化后的性能差距）。

五、总结与展望

Jeddak数据安全沙箱将持续关注行业发展和技术趋势，不断创新和优化，为用户提供更加安全、高效、易用的PPML解决方案。同时，沙箱将扩展算法支持，完善定制化建模功能和调试能力，并简化操作，使用户能够更方便、快速地开发、调试和使用模型。
同时，沙箱正在研究TEE和GPU的能力集成，实现CPU到GPU全链路可信安全的方案，以提高建模和预测的效率。此外，沙箱也将不断探索包括大语言模型（LLM）在内的新应用场景，推进前沿技术的研究和应用，帮助用户更好地解决业务需求与挑战。

# 数据安全 # 个人隐私 # 可信计算 # 字节跳动 # 隐私计算

本文为独立观点，未经允许不得转载，授权请联系FreeBuf客服小蜜蜂，微信：freebee2022

被以下专辑收录，发现更多精彩内容

+ 收入我的专辑

+ 加入我的收藏

展开更多