freeBuf
主站

分类

漏洞 工具 极客 Web安全 系统安全 网络安全 无线安全 设备/客户端安全 数据安全 安全管理 企业安全 工控安全

特色

头条 人物志 活动 视频 观点 招聘 报告 资讯 区块链安全 标准与合规 容器安全 公开课

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户,每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序

FreeBuf+小程序

个人信息为什么更喜欢谈“去标识化”?
2024-02-27 18:26:53

一、    脱敏和去标识化

最近,对较多的数据脱敏标准进行了解析,其中包括全国信息安全标准化技术委员会(简称安标委,TC260)在2019发布的GB/T 37964,针对个人信息进行了去标识化过程、以及数据去标识化方法的详细说明和指导,适用于:

  • 组织开展个人信息去标识化工作,
  • 网络安全相关主管部门、第三方评估机构等组织开展个人信息安全监督管理、评估等工作。

但从当前安全的商业化市场来看,这套指南的基础思路并未被广泛参考,如提到最核心的“去标识化”用词,在当前数据安全产品中,我们通常统称为“数据脱敏”,国家也针对数据脱敏产品进行了产品质量的项目研究,包括当前发布的大多数行业(如电信网和互联网、电力、交通运输)/地方标准(如广东省健康医疗、各省份的公共数据)等,其标题无一例外都是“XXX数据脱敏XXX”,而非“XXX去标识化XXX”。意味着在业内,我们除了在合规文件中或“数据脱敏”的名词介绍中会看到这个词,几乎很少单独听到“去标识化”这个说法,即“标识”的概念还未在数据安全的商业市场内广泛应用,我们更多的是进行所有敏感字段无差别的去隐私化,而非重点针对“标识”数据进行去隐私化。

那如何理解T37964-2019 《信息安全技术 个人信息去标识化指南》提及的去标识化?

根据2021年通过的《中华人民共和国个人信息保护法》,其在全文均未提及“脱敏”这个词,但提到了两次“去标识化”。其一,在“个人信息处理者义务”章节第五十一条,提及:应“采取相应的加密、去标识化等安全技术措施;”;其二,在“附则”-第七十三条明确了用语的含义:“去标识化,是指个人信息经过处理,使其在不借助额外信息的情况下无法识别特定自然人的过程。”

即从广义来看,我们可以认为,去标识化是数据在个人信息脱敏场景下的特定用语,其本质还是数据脱敏。

但从狭义来看,“标识”的概念囊括了具体数据是否可以标识到自然人,也就意味着脱敏过程中,应围绕“如何脱敏才能够保证无法识别到特定自然人”这个目标进行脱敏方法的开展,这对于数据脱敏的要求更高。

目前,安标委已发布两份个人信息去标识化的文件,均以“去标识化”命名,作为个保法的落地标准之一,也算是和个报法相呼应:

  • GB/T37964-2019 《信息安全技术 个人信息去标识化指南》——告诉我们如何针对个人信息脱敏、脱敏的流程和机制、以及脱敏可参考的算法
  • GB/T 42460-2023 《信息安全技术 个人信息去标识化效果评估指南》——告诉我们如何进行个人信息脱敏的效果评定

本文主要归纳GB/T37964-2019《信息安全技术 个人信息去标识化指南》,形象感知脱敏过程中的“标识”概念,以及需遵循的目标和原则,尽管随着云和大模型的出现,部分描述需迭代更新,但我认为本份指南整体的思想还是非常值得借鉴学习,也是撰写本文的起因。

备注:为了方便,解读时我们将去标识化的概念,等同于数据脱敏。

二、    标识主体延伸出的相关概念和诉求

在GB/T37964-2019中,明确了需要脱敏的核心主体,即个人信息主体——人。以数据库为例,其中已存放了A班级的学生个人信息,我们找出其中描述这个学生的数据行,如“张三、15岁、330201189201239230、家住杭州市滨江区大马弄35号”这条记录,定义其为微数据

其中“张三”以及其它列对应的字段,如name,我们可称之为属性。同时,为了进行数据在之后去标识化过程中的必要性,我们在这条记录中,发现通过身份证号-330201189201239230是能够唯一确定信息主体就是张三这个学生主体,因此定义“身份证号”为直接标识符,而“张三、15岁、家住杭州市滨江区大马弄35号”这些数据对应的属性,虽每个属性不能单独标识出是谁,但可通过组合标识出张三这个人,因此定义“姓名”、“年龄”、“住址”为准标识符

去标识化的数据对象,简单理解,就是针对直接标识符、间接标识符进行去隐私化的过程。

但实际上,去标识化并不如想象中那么简单,我们需要在保证数据可用的前提下,充分评估去标识化后数据的安全性,即是否会被利用、依然存在关联到个人的风险,这里称之为重标识(即重新标识),就需要结合各类因素进行综合考量了,下文在去隐私化过程中会提及。

1709028756_65ddb594758c01db2d2a6.png!small?1709028756949

图表 1 从整体架构了解名词

三、    去标识化的目标

1、对直接/准标识符进行删除、变换

2、控制重标识的风险,将其风险控制在可接受范围内。

3、结合业务目标、数据特性,选择合适的去标识化模型和技术,确保脱敏后的数据满足预期可用的目标。

四、    去标识化的过程

结合以上脱敏目标,文中把数据脱敏分为了5个过程

# 数据安全 # 数据脱敏 # 个人信息保护 # 去标识化 # 数据脱敏技术
本文为 独立观点,未经允许不得转载,授权请联系FreeBuf客服小蜜蜂,微信:freebee2022
被以下专辑收录,发现更多精彩内容
+ 收入我的专辑
+ 加入我的收藏
相关推荐
  • 0 文章数
  • 0 关注者
文章目录