数据分析驱动的身份安全：以前在路上，现在在面前

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户，每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序把安全装进口袋

安全管理

数据分析驱动的身份安全：以前在路上，现在在面前

2020-10-22 14:48:49

一、历史

历史，总是相似的，犹如同一个模子里刻出来的一样。

每当某个行业引入了数字化时代，这个行业便与高效和标准化联系在了一起，标准化的流程，标准化的产品和标准化的服务，提高了生产和建设的效率，加速了行业的发展，爆发出前所未有的价值增量。然而，每个进入数字化时代的行业，在经过一定时间的发展之后，人们对这个行业的期待往往会渐渐超出高效与标准化，在此基础上，也想看到差异化，个性化甚至特异化，每当这些想法被无限放大的时候，这个行业就会进入数据分析驱动的时代。为了避免歧义，这里的“数据分析”，指的是广泛的数据分析，包括算法，数据清洗，数据挖掘，统计，机器学习和深度学习等所有与数据分析相关的技术，也就是所谓的“把数据用起来”的概念。

当然，需要强调的是，“把数据用起来”的应用，一般是一个算法化的高可用产品。这其中，不但是需要数据分析相关技术，诸如如今的微服务架构，大数据技术（分布式，并行管道），容器化技术和各种数据库等技术的参与也是必不可少的。数字化必然会记录许多标准的数据，并且标准的存储起来，而数据分析驱动就是要将这些存起来的数据用起来，使数据发挥作用，不但让当时那些昂贵的存储资源显得太值得，而且会带来令人意想不到的价值增量。

在身份认证进入数据分析驱动时代之前，有太多成功的先例了。比如，金融交易的数据分析驱动，如今华尔街大约80%的交易是通过“机器交易”自动完成，高可用的系统与嵌入在其中的算法取代了离线算法与手动下单。再比如，电子商务行业，如今主流的电子商务平台都会利用算法对用户浏览的页面做实时更新，而且真正做到了“千人千面”的“魔力”。

乔布斯曾经说过：“计算机是思想的自行车。”那么注入了数据分析的计算机更像是“思想的自动驾驶汽车”，通过对数据进行分析与学习得到模型，再利用高可用的方式让模型运转起来，就能从一定程度上满足人们对差异化与个性化的需求，使得任何产品都更具“活力”。相信这种历史也一定会在身份安全领域得到再一次验证。

但是，历史是连续不断的，没有什么是真的横空出世的，都是在沉默之中打磨，最终露出了锋芒。

在身份安全这个行业，数据分析驱动是不可避免的趋势，无论是Gartner一年又一年的研究报告，Google每年相关的出版物和其他相关资讯或世界领先的公司的材料上来看，这种趋势是非常明显的。但是，在详解这个必然趋势之前，想大致的聊一聊这么一路走来的历史，从而让数据分析驱动身份安全的这件事情，显得不那么横空出世一些。

在数字化覆盖身份安全行业之前，企业的身份安全主要靠人的记忆力，“长得眼熟儿”或者“这人我在公司看到过”可能就是首次校验，而“请出示下工牌”，再通过对工牌上模糊的照片和被校验人的脸的人工比对，进行二次校验，而校验的结果只会留下验证通过的数据，即被校验者七歪八扭的签名，甚至往往不保留校验结果。有时，身份安全还要受制于校验人的心情，性格和自信心等。后来，在数字化时代的身份安全，就会使用用户名/密码，动态验证码，短信验证码，邮箱验证等手段，利用计算机对身份进行校验，使得校验的准确性与数据的完整性大大增加。但是，身份安全的核心，即如何判定身份的安全性，仍旧是一个难题，典型场景就是用户名/密码的盗用，短信验证码的拦截等，而且更糟糕的是，如果出现了安全事件，用户的所有权限与数据都将受到威胁。与此同时，安全防火墙的使用也显现了有违本意的另一面，基于网络拓扑的绝对信任与恶意软件、恶意邮件几乎不需要成本的泛滥，共同构成了压垮传统架构数字化身份安全的最后稻草。

再然后，为了强化身份安全的安全性，行业内开始采用零信任架构和规则引擎判定以及一些其他措施。其中，零信任架构主要针对的是安全防火墙基于网络拓扑的绝对信任的问题，规则引擎主要是利用人为既定的规则对访问的安全进行一定程度的加固，而诸如图形验证码，条形验证码等技术为了防止机器人访问。

就这样，把故事推到了数据分析驱动的身份安全时代。

二、趋势

Gartner早在几年前就提出了CARTA（Continuous Adaptive Risk and Trust Assessment）的概念，即连续自适应风险与信任评估的身份安全框架，这个框架当然是涵盖了零信任架构，但又不仅仅是零信任架构，主要还是突出连续，自适应与（量化）评估的属性。如果落地一个CARTA的应用，那么，“连续”对应了系统的高可用性与数据分析的持续计算能力，“自适应”对应了数据分析的持续计算能力，自动化计算能力以及迭代自修正能力，而“（量化）评估”对应了应用的数据分析化，甚至是纯数据分析驱动的特性。

图1：Gartner提倡的CARTA的相关资料

可见，一个完整的CARTA级别的应用对数据分析的要求不但在算法的难度上比较高，在业务的覆盖面上也比较全面。

图2：3FA与MFA（2FA）的关系

而Google在今年的出版物（参考文献【1】）中，详细讨论了规则引擎，Google的观点是，三因子规则引擎(3FA)对访问的身份安全有一定的加固作用，但是另一方面增加了系统的复杂性，从而降低了系统的可用性和增加了系统的开发难度。当然，值得指出的是，在Google的观点中，MFA是2FA，也就是说，他们不推荐将规则引擎做的过于复杂。类似的观点，在参考文献【2】中也有所提及。

图3：系统安全性与系统可用性的关系

另外，今年的出版物中对很多身份安全相关的技术也进行了很好的阐述，参考文献【3】,【4】，【5】，【6】对微服务如何加固安全进行了阐述，而参考文献【7】对容器如何加固安全进行了阐述。所有这些技术都为数据驱动的身份认证做好了基石与铺垫。

三、模型与场景

为了落地CARTA应用，需要针对不同的场景进行不同的建模。这里将以身份安全各种场景，结合实际落地的数据分析驱动的身份安全功能进行逐一阐述。

3.1 单点登录

身份安全中的一个重要应用就是单点登录。当讨论数据分析驱动的身份安全理念下的单点登录时，可以使用决策树和评分模型对登录的风险进行判别，从而降低规则引擎对系统可用性的负面影响。当然，算法与规则引擎往往并不矛盾与冲突，应当通过合理的设计使两者有机结合，更好的服务于单点登录场景。推荐使用3因子规则引擎（即登录时间，登录地点，登录设备）与评分模型作为决策树模型输入的整合方案。

另一方面，用户可能希望在单点登录时不使用传统的用户名/密码的认证方式，这个时候需要提供额外的登录认证方式，在实际落地的众多登录认证方式之中，高可用人脸识别和未来将纳入的智能语音识别是数据分析驱动的身份安全应用的具体体现，当然为了防止诸如视频伪造等危险事件的发生，实际落地中同时需要自主研发了视频活体认证的功能。从功能上来说，人脸识别和活体认证在当下的身份认证产品中已经不可或缺。之后的发展趋势可能是各个研究团队推出一些自主研发的创新认证方式，再以专利的形式将这些创新点保护起来，这又将是新的一轮竞争。

图4：人脸识别示意图

图5：人脸识别模型示意图

3.2 用户访问过程

当用户在单点登录之后，需要在整个用户访问的进程之中对其行为进行监测，对异常的行为进行实时识别，并做出相应的身份安全提示和加强认证请求，这是Gartner的CARTA模型的核心理念。在这个理念之下，Gartner引入了UEBA(User and Entity Behavior Analysis)功能，这是一种基于用户行为分析，以用户行为画像作为核心模型的CARTA实践。在充分理解CARTA与UEBA的理念与产品要求之后，来谈谈如何实际落地一个UEBA模型。

UEBA模型需要对用户访问进程中的行为进行用户画像，从而实现对用户行为的监测，而应用跳转是一种常见的访问之中的行为，可以作为UEBA模型的一个很好的切入点。实际落地中，首先得到用户的应用跳转数据，选择一个可迭代自适应的画像模型，将数据进行清洗后，利用选择的模型进行拟合，可以初步得到用户应用跳转的行为画像。在模型上线后，需要整个身份认证系统提供用户实时的应用跳转信息，再利用建立好的画像模型，进行风险行为的识别。在实际落地时，判断风险的标准既要统一也需要具有弹性，统一指的是风险判定需要基于一个风险判定模型，具有弹性指的是模型中的指标也需要具有“自适应性”，即根据用户的行为进行自动迭代更新。而当算法判断用户出现风险行为时，发出报警通知，通过提高认知级别（比如，人脸识别）解除报警。最重要的一点是，模型本身需要自适应性，即根据用户新产生的数据进行更新与迭代。

值得指出的是，虽然UEBA和用户画像模型对访问内的行为风险有一定的识别作用，但一般只能识别强信号的行为风险，即那些比较明显的异常行为，对于临时出现的或者不明显的异常行为，只是使用用户画像是无法做到有效识别的。为了更为全面的实践CARTA标准，持续自适应的识别不同类型的行为风险，除了使用用户画像模型以外，可以使用诸如分类算法和评分算法增加用户画像算法的识别能力。而如果将用户作为一个随机变量去建模，则可以放弃用户画像类别的模型，利用诸如随机过程模型，从而更好的对用户行为进行连续自适应建模。

四、总结

数据分析驱动的身份安全已经不再是纸上谈兵的理论阶段，如今随着相关技术与算法的成熟，身份安全领域实质已经进入了数据分析驱动的时代。随着更多的数据分析技术运用到身份安全领域之中，必然会带动符合CARTA标准的身份认证产品的诞生，从而使得整个行业的产品与功能更智能更人性化，满足人们对身份安全的差异化与个性化的需求。

参考文献：

Building Secure and Reliable Systems, 2020
Practical Cloud Security, 2019
Microservices Security in Action, 2020
Web Application Security, 2020
Mastering Distributed Tracing, 2019
Distributed Tracing in Practice, 2020
Container Security, 2020

# 数据分析 # 身份安全

本文为独立观点，未经允许不得转载，授权请联系FreeBuf客服小蜜蜂，微信：freebee2022

被以下专辑收录，发现更多精彩内容

+ 收入我的专辑

+ 加入我的收藏

展开更多