论坛数据能帮你做什么 | 5分钟风控数据干货系列

2018-02-22 +10 362315人围观 ,发现 2 个不明物体 观点

相信大家对论坛都不陌生,论坛氛围自由,可以方便的交流信息。信贷领域也有相应的垂直论坛,一方面为金融机构提供信息发布、整合营销的渠道,另一方面为用户提供各类理财、贷款、信用卡产品的比较推荐。

正因为论坛开放自由发言的特性,随着互联网金融的兴起,各类信贷、信用卡论坛成为黑产交流的一块重地。

这些黑产圈里的人们每天会在论坛上沟通不同口子的撸技,询问是否有新口子,找‘老哥’,谈‘上岸’,有的为了撸到几百块钱洋洋得意,有的为了申请被拒宣泄不满,有的鄙视贷款平台的垃圾风控,有的和催收人员展开拉锯战…这群人大部分是信贷饥渴的用户,多数贷款平台不上征信成为了他们不还款的理由,凭本事赚钱成为了他们经久不衰的口号。

身为互联网金融风控机构,我们都知道这里面暗流涌动,却无处着手。这也就引出了本文的写作初衷,把如何运用论坛数据进行建模,服务于风控讲明白,希望给一直想用却不知道如何落地的机构一种思路和逻辑。

1、数据获取

对于论坛的数据,获取方式有2种:爬虫和论坛合作联合建模。

1)爬虫

相信业界对爬虫这个已经证明很有效的数据获取方式很了解。 

需求调研:需要业务人员具备对信贷产品的了解,对风控也有足够的理解能力,对于黑产的互联网痕迹能够有一些sense,才能调研论坛里面潜藏的黑产数据,比如说常混的板块,常用的“术语”,交流些什么信息。

需求整理:论坛里面能有哪些信息呢?也很简单,页面上有哪些信息就能拿到哪些信息,总体来说包括个人账户信息和个人发帖/回帖信息。

一般个人账户信息页主要包含昵称、平台id、个人签名、个人链接、好友数、回帖数、主题数、用户组、注册时间、最后访问时间、上次活动时间、上次发表时间、经验值、信用币、好友数等字段。爬取时可将上述字段整理出相应的字段名称、英文名称、字段格式、枚举值,最后附上爬取时间。

个人发帖/回帖信息页面能够获得:大板块名称、小板块名称、小板块分类、主题名称、主题查看次数、主题回复贴数、帖子内容、主题帖内容、发帖还是回帖、帖子发表时间、用户名。同样需求中需要明确字段名称、英文名称、字段格式、枚举值表。

需求还需要明确的是爬取的页面(前100页还是一千页),增量爬取的逻辑,以便开发人员明确开发逻辑。技术开发部分不再赘述。

2)和论坛方合作联合建模

如果能够和论坛达成联合建模方式的合作,是最理想的。能够获得的数据更多,更标准,而且可以将用户注册手机号和用户名称强关联。

其实这种方式是一大趋势,目前BAT巨头中阿里旗下的蚂蚁金服已经公开一些DAS变量供战略合作方进行定制化建模部署工作;银联交易流水数据也已经通过银联智策和银联智慧对外输出变量及联合建模;还有运营商也逐步开放数据进行联合建模…这也是一种双赢:论坛既可以赚取数据费用,而且数据不会流出自有系统;合作商可以依据论坛数据做定制化模型,降低坏账。

2、特征提取

上述数据收集好了,接下来就是怎么识别哪些才是真正坏的客户了,做模型前首先需要提取特征。涉及三个方面:构建维度、计算对象、计算方式

直接提取的特征:用户组(客户会员等级),注册时间间隔,经验值,信用币等

维度:

帖子发布分类(大板块名称、小板块名称、小板块分类)

发表时间分段(8~12点、12~18点、22~24点、24~6点等)

帖子类型(发帖、回帖)

计算对象:条数、天数、时间间隔(最近24小时,最近72小时等)

计算方式:计数、最大值、方差、求和等

通过上述组合得到的特征变量示例如下:

最近30天内(时间间隔)在贷款与理财类(大板块名称)信用贷款(小板块名称)0点到6点(发表时间分段)发贴(帖子类型)的求和(计算方式)

基于上述特征可以构建第一批变量,之后可以做各种比例的变量构成作为第二批变量,例如:

最近30天内在贷款与理财类信用贷款0点到6点的发帖求和/最近30天内在贷款与理财类信用贷款的发帖求和

基于以上的逻辑可以构造几千个特征出来。

3、模型构建

特征变量构造好了,Y怎么来呢?

如果和论坛进行联合建模的话,带着客户的Y标签通过手机号进行直接的关联就可以得到Y标签;如果没有合作,只能通过文本内容清洗出来类似手机号,微信号的信息,再和机构的主键信息进行关联,以此来确定好坏的标签,但是此种方式,往往匹配率比较低。

通过特征和Y标签进行模型构建的方法有很多,XGBoosting,逻辑回归都可以得到不错的效果,具体模型方法,网上和书上有太多的资料,这里也不在赘述。

在帖子中有太多太多的内容,如下图示例,怎么才能将这些信息区分开呢?本文重点介绍一种基于文本内容的模型方法——文本标注+半监督模型训练,效果非常不错。

 5分钟风控数据干货系列

 5分钟风控数据干货系列

1)传统模型思路

数据标注:一方面通过人工标注该段文字是否来自于中介,来自于信贷饥渴用户,还是无关信息,获得可供训练的样本。同时,为获得标注样本多样性,建议样本来源和样本发布时间分布尽量广。另一方面,需要风控人员根据业务经验扩充语料库,主要包括信贷平台名称,产品名称,信贷黑话等。

特征加工与筛选文本模型主要特征包括词特征,n-gram 特征,句法特征和词向量特征。特征筛选方法建议考虑单变量筛选与模型筛选结合。

特征赋权(主要考虑词特征和n-gram特征):具体方法就是利用tf-idf值,iv值等手段将离散0-1特征转换为数值特征,获得更好的表达能力。

模型选择:从简单模型逐步迭代。以bayes模型为基础,逐步迭代复杂模型。

模型提升:考虑标注样本实际上仅占整体语料有限部分,采用流行相关的半监督算法会对模型进一步提升,为模型上线方便,建议采用semi-boost相关算法。

2)深度模型思路

Word_wise建模

Character_wise建模

4、落地方式

落地方式很简单,上面通过模型训练的效果得到坏人的用户名,进而通过清洗出来的手机号,或者通过我爱卡的合作得到用户的手机号,应用于信贷机构的业务决策中(或者添加到黑名单中,或者通过评分度进行决策)。

如上的方案,已经做过了不错的验证,希望想做这块数据落地工作的机构能够尝试去做一下,或者已经有更好的使用方案的机构可以提供更好的方式,我们的目的是将风控做细,将黑产研究并且落地做细,如果在这个过程中对整个行业能做出来一点点的贡献,也就心满意足了。

需了解详细信息,可关注公众号【诚安聚立CaFintech】。

*本文作者:郭庆壮,文本模型部分由秦宇皓提供;转载请注明来自 FreeBuf.COM

发表评论

已有 2 条评论

取消
Loading...
css.php