基于用户移动行为模式的风险识别探索

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户，每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序把安全装进口袋

企业安全

基于用户移动行为模式的风险识别探索

2021-05-20 18:20:00

所属地北京

随着互联网的发展，电商成为风控与黑产交锋最为激烈的场景之一，在对抗当中，绝大多数风控都会遇到两个最为头疼的问题——

敌暗我明，攻防信息存在着极大的不对等，在进行风险识别和判断时困难重重；

变幻莫测，黑产的攻击手段不断提升，风控需要不断升级对抗策略和模型，且他们的提升成本要小于风控的修改成本。

如何解决这两个问题的呢？

一、位置信息助力风控事前识别

在电商场景下，整个风控业务流程可分为非交易环节（事前）和交易环节（事中＆事后），因信息的不对等和黑产的变化速度快，在交易环节，即风控的事中＆事后再去进行防御存在瓶颈，这就需要在非交易环节获取到足够多的信息来给黑产画像，在其尚未发动攻击时拒之门外。

通过对比非交易环节中，已失效的黑产群控账号和正常账号，观察这些账号过往的点击行为、设备行为、位置信息等各种合法授权条件下能够采集到的信息，作为风险识别模型的特征补充，用于识别黑产群控账号和其他恶意账号的行为规律，甚至进一步发现新开发或者未知的黑软，从而保障正常消费者应得的福利不被黑产侵占。

其中，在众多合法授权信息当中，我们尝试使用位置信息实现风险识别能力创新。

下图是一段时间内正常用户和风险用户停留的位置个数分布和时间分布，其中红色代表风险用户，绿色代表正常用户，可以发现，风险用户的明显特征是power-law distribution（幂律分布），即大部分情况下不会去变化自己的位置，而正常用户多数会在10左右的数值停留，而在停留时间分布上，风险用户在d值较大的时候停留的概率较高。

在最长访问地址停留概率分布图中，以停留位置的数值同样为10进行比对，风险用户的最长访问地址停留概率小于正常用户，较短访问地址停留概率大于正常用户，在数值为15时亦然。

另外，京东风控还比对了一年中位置上报的天数分布，风险用户大多数情况下只有一天的上报记录，而正常用户上报的天数整体多于风险用户。

因此可以得出结论：

正常用户和风险用户在移动模式上存在着明显差异，包括停留位置、时间、活跃程度、最长停留位置概率分布等，我们可以充分利用黑产的这种作弊特征和某种意义上的非随机性进行风险账号的识别。

在具体实验时，将包含用户移动行为的非交易环节特征和其它交易信息特征放入xgboost模型中进行训练和测试计算，最终模型的风险用户识别准确率可以高达96.19%，而在特征重要度图中，也可以明显看到地址特征对于识别黑产账号有着更高的贡献，这就给我们在采集事前信息上提供了重要的方向，解决了第一个“敌暗我明”的问题。

而对于“变幻莫测”的问题又该如何解决呢？

二、以不变应万变的风控策略

我们提供了一个新的思路：

黑产的行为在不断变化难以追踪，那不妨“以不变应万变”，正常用户的行为是不变的，通过研究正常用户的移动行为模式，以排除法揪出黑产。

对于正常用户的移动行为模式研究，可以以前辈的研究情况为参照。

近代对于人类移动行为的定量研究，最早是Brockman等人于2006年在Nature上发表了关于人类移动的标度性规律的文章。Brockman等人分析了 100 多万条美元的流通位置记录，发现钞票的运动模式与之前研究原子随机运动时表现出的模式完全不同。如果说原子依照随机游走的布朗运动，每个微粒的扩散距离相对平均；那么钞票，或者说携带钞票的人类运动轨迹则更符合Levy-Flight（列维飞行模式），大量的人在固定的区域内活动、生活与工作，而少数人则穿梭跳跃于各个地区，在世界各地游走。

以众多用户移动行为的前沿研究为基础，在我们的研究中，使用了回转半径（Radius of gyration）表征用户的移动行为规律的统计指标，可以大致理解为用户的活跃范围。通过比较两个具有不同大小rg的用户，可以发现两个用户的移动行为随着时间变化存在明显的差异。当rg较小时，用户大多数情况下只进行小距离的迁移，而对于rg较大的情况，用户大距离的迁移行为更为频繁。

在先前的研究中，正常用户回转半径的分布为纯幂率分布方式，但在研究结果中，可以明显的发现回转半径分布的比例指数与所有先前的结果都不同，对于具有不同回转半径的种群，存在两种分段幂律模式（幂律模式可以分为两组）。

深入理解存在两段幂律分模式的用户群体，可以通过建立用户移动行为理论模型进行。要想建立很好的用户移动模式模型，必须与传统的随机游走（Levy-Flight和CRTW）不同，需要同时考虑到两种机制：探索（exploration）和带偏好的返回（preferential return）：

1、探索：随机行走模型中假设下一个移动是与之前访问过的位置想独立的。相比之下，可以发现人们探索新位置的趋势会随着时间的推移而减少。事实上，观察一个人的轨迹的时间越长，就越难在他的家/工作场所附近找到他还没有去过的地方。

2、带偏好的返回：随机游走模型中，随机访问概率在空间上是随机且归一化的。然而，人类实际的移动行为中，表现出显著的倾向于返回他们以前经常访问的地点，如他们的家或工作场所。

用户移动行为的两种机制，结合分析拟合计算得到的停留位置变化率的拟合参数、最长停留位置概率分布的拟合参数以及停留时间分布的拟合参数，发现用户的移动行为模式是存在类似于F=MA的基本规律，即为 u=β(1+γ)，也等价于u(rg)=β(rg)ζ(rg)，这样简洁表示的理论分析结果，可以更好地帮助我们识别账号的风险情况。

通过上述研究，对于风控目前面临的问题，解决方案可以总结为两条：

1、信息维度增益：在工作当中，要充分利用信息，包括关系网络、社区划分等，帮助风控在新账号或者信息缺失较为严重的情况下进行信息补充。
2、看“不变”应“万变”：风控容易陷于对黑产账号行为研究的泥潭中，当风控在研究黑产的变化时，实际上也可以去看一些不变的东西——分析正常用户的行为，从而抓住一些重要的基本规律，减小风险识别的误差，提升识别率。

参考文献：

[1]Yuansheng Lin, Weiran Cai, et al. Scaling behaviours of mobility patterns for e-commerce users, the 8th International Conference on Complex Networks and their Applications, 2019.

[2]Gonzalez, M.C., Hidalgo, C.A. and Barabasi, A.L., 2008. Understanding individual human mobility patterns. Nature, 453(7196), p.779.
[3]Song C, Koren T, Wang P, et al. Modelling the scaling properties of human mobility[J]. Nature physics, 2010, 6(10): 818-823.

[4]Brockmann D, Hufnagel L, Geisel T. The scaling laws of human travel[J]. Nature, 2006, 439(7075): 462-465.

# 网络安全技术 # 风控

本文为独立观点，未经允许不得转载，授权请联系FreeBuf客服小蜜蜂，微信：freebee2022

被以下专辑收录，发现更多精彩内容

+ 收入我的专辑

+ 加入我的收藏

展开更多