机器学习黄金时代下,业务安全攻与防:Qcon2017上海「直击黑产」专题回顾

2017-10-19 185540人围观 ,发现 3 个不明物体 企业安全活动

这是一个最好的时代,这是一个最坏的时代;这是一个智慧的年代,这是一个愚蠢的年代;这是一个光明的季节,也是一个黑暗的季节……

伴随着中国互联网的快速发展,国内黑产规模早已达到千亿级别:盗号、羊毛党、水军、骗贷——黑产攻击给很多互联网公司带来灭顶之灾。

这些欺诈是如何产生的?企业面对的攻击者究竟是谁?遭遇攻击后,如何复盘并制定有效防御策略?我们如何拦截才不会误杀真实用户?大数据时代的来临、机器学习的发展和应用是否会是新的浪潮和希望?机器学习又是否能够改变安全防护一直以来的黑白名单和规则拦截?而面对机器学习发展带来的挑战,企业又该如何应对? 

Qcon 2017上海「直击黑产,业务安全的攻与防」专题FreeBuf回顾

Qcon 是由 InfoQ 主办的全球软件开发大会, 今年 10 月 17 日- 10 月 19 日的 Qcon 上海站的会议是继伦敦、北京、圣保罗、纽约之后的第五站。本次大会的主题都是根据当年的热点话题而制定,昨天 FreeBuf 也来到了 Qcon 的现场,参加了第二天的「直击黑产:业务安全的攻与防」主题分享会。

会上分别有来自百度携程美丽联合集团新浪微博科大讯飞等企业的嘉宾围绕各自业务安全目前面临的威胁,安全防护的有效建设、以及机器学习在其中的应用等内容,分别就其对抗黑产的安全攻防思路进行了细致的说明。

机器学习风控实践与未来 | 百度 吴广柱

当今时代黑色产业的发展很快,风险控制策略除了在常见的金融机构普遍得到重视(信贷、交易、保险)之外,在其他互联网场景下的企业中(刷量、刷点击、垃圾注册、薅羊毛等)也应当得到重视。

从 2011-2016 可以统计到的数据来看,金融行业中银行卡盗刷情况基本保持在百分之几的比例。2016 年英国统计的数据中,在 64 %的盗刷拦截情况下,银行卡盗刷而带来的实际损失也高达 7.69 亿英镑。

Qcon 2017上海「直击黑产,业务安全的攻与防」专题FreeBuf回顾

而从传统的风险控制技术上来看,最早的方法是通过黑白名单过滤,之后逐渐开始使用专家制定的规则引擎进行过滤,但这种方法还是会出现维护上的复杂和其他问题。在如今企业的大数据架构之下,应用机器学习则可能便于了解复杂数据与欺诈事件之间的关系,进行实时诈骗预测。

嘉宾同时也提到目前人工智能的发展还只是保持在一个低级别的弱人工智能层次,因此当前还只是针对业务问题进行问题的解决,例如应用关联分析和机器学习方法。

具体来说,百度在监测恶意行为时建设了关联分析系统和滑动窗口动态模型进行风险管理。前一个分析系统,是使用图数据库对 IMEI 、 IMSI 、Token 、WiFi 和 IP 、 APP 和 URL 数据进行监控和关联分析。

Qcon 2017上海「直击黑产,业务安全的攻与防」专题FreeBuf回顾

而后一个的滑动窗口动态模型,则是针对单纯的有监督学习和无监督学习中算法的置信度获取困难,风控系统数据变化大(如用户的购买行为不断变化),核验难(滞后)的问题进行了改进后提出的风险管理模型。

Qcon 2017上海「直击黑产,业务安全的攻与防」专题FreeBuf回顾

 深度学习与业务安全对抗实践 | 携程 张亮

携程业务各线常见的安全对抗在于平台的运营活动,如批量垃圾账号的登录注册,留存和拉新时的优惠领取,内容交互中的无效内容。所有的业务风险可以分为垃圾注册、扫号、薅羊毛、爬虫、合规和信息泄漏6个方面,造成侵占活动资源,扰乱正常PV/UV,用户和权限越级等各类问题。

Qcon 2017上海「直击黑产,业务安全的攻与防」专题FreeBuf回顾

因此,在携程的业务安全防护上他们也应用了黑白名单、信誉库设备指纹、规则策略,目前也逐渐应用了机器学习和深度学习方法。最常见的安全对抗中应用的功能是短信认证、验证码、风控和历史习惯来对非正常行为进行身份核实。基于机器学习的携程风险值计算引擎能够结合用户行为、 fp 和日志进行数据汇聚和分析利用决策树、朴素贝叶斯算法(NB)和卷积神经网络(CNN) 进行风险判定。

最后,嘉宾还对携程的敏感词监测系统进行了介绍。该系统的目标是对无效内容、不合法内容、广告内容进行监测。在旧的系统版本中,监测仅仅是通过关键词匹配,由于没有上下文概念,导致人工成本高却无法满足实际监测需求。 而在 2.0 版本中,携程则建立了大数据系统,将搜集的数据清洗后用在内部拖拽式训练平台上,结合算法和模型最终形成了可调用的API。 针对不定长输入和定长输出的监测系统要求,使用的是RNN实现LSTM。 

Qcon 2017上海「直击黑产,业务安全的攻与防」专题FreeBuf回顾 

机器学习在微博业务安全中的定位 | 何为舟

何为舟嘉宾认为,微博业务上涉及安全问题的部分主要在于账号、关注、内容和金融服务上,例如虚拟注册、信息泄漏、垃圾内容、账号扫库、批量关注、恶意营销、金融欺诈套现等等。安全业务的主要目标也是围绕识别用户和区分机器行为。以不伤及真实用户的前提下,避免机器的恶意行为。 

Qcon 2017上海「直击黑产,业务安全的攻与防」专题FreeBuf回顾

而近年来机器学习的发展,在图像识别、特征描述和自然语言处理上都实现了很大的进展,但目前的机器学习的热度中还是存在一定的泡沫。但想在安全业务上实际应用机器学习,目前还有几大问题/挑战急需解决,否则会给业务安全的处理埋下隐患——训练集的缺陷(准确性、全面性、数量、实时性)会导致模型的准确性降低;数据处理流程中一大部分对人工的依赖则会导致数据本身存在偏向;机器学习算法在面对针对性攻击时(如图片识别中增加噪点)是否能够稳定表现都还存在疑虑。

但从新浪微博自身的风险控制体系来看,根据需求寻找合适的方法还是能够起到帮助。业务的需求决定了,这个系统需要能在少量数据训练集下,算法也能取得较好的效果;结果需要尽可能地准确,做到零误伤,并对每一个评判结果能给出合理解释,出现误伤时也能够对模型及时纠正;模型还需要随着时间/模型集的变化,能够进行实时更新。

而在训练集问题的处理上,微博会扩大来源,加强与客服的对接和用户的反馈,来获得尽可能准确的数据。其次,选择采用的是相对准确率较高而训练集数量要求不高的弱监督学习方法(其中的 Negative-Unlabeled分类)来实现。

Qcon 2017上海「直击黑产,业务安全的攻与防」专题FreeBuf回顾

出于可控性的考虑,在微博风险控制系统的整体架构上,规则系统(70%异常数据的监测)、机器学习和反馈系统一起发挥作用,为用户安全保驾护航。在黑产升级变化的同时,风控系统的规则以及模型都会发生变化。

Qcon 2017上海「直击黑产,业务安全的攻与防」专题FreeBuf回顾

嘉宾表示,原始数据中来自用户的反馈也会有一定程序的错误(用户记忆错误之类),这样训练集的准确度就会损失;其次,目前的机器学习监测方法由于对特征工程的依赖性也很大,一旦某种威胁无法通过现有特征来发现,就会顺利逃过机器监测;分类得到的结果无法评估机器判断的准确性;而目前系统中采集用户反馈的机制也很有可能被黑产攻击和反向利用,之后会考虑利用 RNN 深度学习的方法来降低对人工的依赖。


信息安全没有银弹,也许因为攻防之战永不停歇,安全从业者不可能也无法高估任何方法的应用。在与黑色产业的对抗中,安全从业者需要不断学习新的知识和技能,跟紧时代的发展,同时也需要以客观的态度面对任何一种技术和技术中出现的漏洞,并不断改进解决问题的方案。

 【PPT资料下载:链接

*本文作者Elaine,FreeBuf官方报道,转载请注明来自FreeBuf.COM

发表评论

已有 3 条评论

取消
Loading...
css.php