AI 世界的老球(si)迷(ji)是怎样炼成的？谈谈AI数据标注

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户，每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序把安全装进口袋

网络安全

AI 世界的老球(si)迷(ji)是怎样炼成的？谈谈AI数据标注

2018-06-25 16:45:42

当球盲们还忙着分辨「梅东和梅西」、「内马尔和外马尔」，真·球迷们已经能通过一个跑位、一脚抽射远远地辨认出自己喜爱的球星。
当年轻的司机们还在论坛贴吧四处发帖求种子想「借一部说话」，真·老司机们已经能通过一个镜头、一个眼神确认出演员、番号和系列。

这，就是「阅球无数」的力量。

（图源《FIFA 12》宣传海报）

擦干鼻血，继续看文。

这世上许多道理大抵相通。其实在人工智能领域，「阅球无数」的故事也时常发生。

老球迷的洞察，是一场球一场球的看球经验积累下来的。老司机的敏锐，是一部片一部片积攒下来的。同样，一个图片识别系统能瞬间认出某个物品，一套语音识别系统能瞬间读懂你说的话，其实也一张张图片、一段段语音素材训练出来的结果。

为了给大家讲明白其中的奥秘，我这次撩到了京东众智平台的产品经理“小七”。京东众智是 AI 数据标注行业的一匹新晋黑马。

今天我将和小七一起给大家讲讲 ——AI 世界的老司机是如何被调教出来的。

问：如何教会人工智能系统识别一颗足球？

答：像大人教小孩那样。

要教会小孩认识「什么是足球」，如果你试图把「圆形的」、「用脚踢的」、「黑白相间网格的」等等特征一条条告诉孩子，估计还没说完孩子就懵了，而且容易出错。

足球未必就只能用脚踢（比如守门员，比如马拉多纳的上帝之手），也并非只有黑白两色。

0 (18).jpg

最直接，最简单也最常用的办法是，找来一个真的足球摆在小孩面前，指着球告诉他，「足球」、「足球」、「足球」，实在找不到真球，用图片或视频也行。

试过几遍你就会发现，即便从来没告诉过孩子「什么是足球」，过不了多久孩子也能「自然而然」地认出足球。

网上有个段子说「人如果没有梦想，跟深度神经网络有什么区别」。其实小孩认识世界的过程，跟一个深度神经网络的训练过程还真的挺相似。

工程师想让 AI 模型准确识别出足球，最好的办法也不是用代码来描述足球，而是搭建好深度学习网络模型之后，直接找来很多张带有足球的图片，用 AI 能读取的方式把图片里的足球「标注」出来，扔进 AI 模型训练，之后它「自然而然」就获得了识别足球的能力。

不需要工程师用代码来描述「什么是足球」，甚至工程师也未必需要弄懂为什么 AI 模型能识别足球。

0 (17).jpg

（一颗用紫色标注的球和蓝色标注的背景）

在 AI 领域，这个将原始数据变成算法可用的数据的过程有个专业名词，叫「数据标注」，而找到原始数据的过程也有个专业名词，叫「数据采集」。

小七告诉我，目前数据采集和标注主要分为：视觉类（图片和视频）、语音类、文本类。

其中的逻辑依然可以用大人教小孩的例子来理解：

视觉类—— 用于训练图像识别系统，相当于大人用看图识物课本、用动画片(视频）教小孩认识各种物品类
语音类—— 用于训练语音识别系统，相当于大人教幼儿说话聊天
文本类 —— 用于训练语义理解等系统，相当于大人教小孩识字阅读

一个孩子学习的快慢主要看两件事：「1.孩子的天赋」、「2.强化认知的次数」

一套 AI 系统的强大程度也主要看两件事：「1.算法模型的好坏」、「2.训练数据的数量和质量」

小七说，目前很多人工智能领域的公司使用的算法模型其实大同小异，很多甚至就是用同一个开源项目改的。

也就是说，在「天赋」都差不多的情况下，后期训练所用数据的数量和标注的质量能起到决定性作用。

我忽然想起了那句神烦的广告词：我不是天生强大，我只是天生要强……

小七告诉我，目前人工智能领域对于数据采集和标注的需求非常大。

达到什么程度呢？就拿之前在微信群里流传很广的「中国天网监控系统9秒视频」来感受一下：

人来车往的大马路上，监控系统能准确识别出每一个来往的行人和车辆，每个人身上都挂着几个小标签，精准显示出机动车和非机动车的种类，以及行人的年龄、性别、穿着。

（网上流传的所谓天眼监控系统）

这套系统的背后是一个数量庞大的数据训练在支撑，虽然视频素材可以直接从监控系统中调用，但免不了大量的后期「数据标注」工作。

单看行人身上的标签就多达四个，人的性别、年龄段、衣着细节，其中每一个特征都需要大量素材来训练才能最终做到精准识别。

0 (1).jpg

小七告诉我，京东众智平台上有类似的路边标注的视频标注实际案例。从下面这张标注截图上来看，粗略统计每张截图就有二十多种标签，行人、骑行人、小型车、大型车、电线杆、广告牌……

0 (19).jpg

（图片取自京东众智AI数据众包平台）

对于一些自动驾驶系统来说，精准识别路面的每个物体是多么重要！

路边随时可能窜出一条小狗、飘来一个垃圾袋、地上出现一团类似人形的污渍……而每一样需要准确识别的物体在前期大多需要大量高质量数据标注过的素材来训练。

并且，标注得越精细，自动驾驶系统的安全性、稳定性就越高。

「除了视觉识别，在语音识别、文本识别等领域，数据采集和标注同样有着巨大需求。」

比如我们会发现某一家的语音识别功能特别准，即便带有背景嘈杂声、或是略带方言口音也能准确识别。

这背后就是依靠大量场景化的语料训练，比如专门区分孩子、老人的声音，各个地方的方言、口音、室外杂音标注等等……

从这个角度来看，人工智能系统就像是一个嗷嗷待哺的婴儿，等待着数据的喂养，并且随着时间的推移，食欲有增无减。

那么，用来「喂养」人工智能系统的海量数据素材都哪儿找去呢？又上哪儿找那么一堆人来标注数据？

小七告诉我，在数据采集和标注这件事上，大大小小的公司各有妙招：

大型公司通常不缺钱，他们需要的是质量和效率，因此他们多数会成立自己的数据部门，招募许多专职数据标注人员。

这些标注人员就像工厂里流水线上的员工，每天的工作就时根据公司需求不停地对采集过来的图片、文本、语音数据进行标注。

0 (6).jpg

照小七所说，我果然在豆瓣、贴吧和论坛里找到了各种招聘数据标注兼职的帖子。

（豆瓣、百度贴吧、招聘网站和各种论坛都能找到标注员招聘贴）

中小型公司，有时会直接向第三方购买已经标注好的数据，或者用公开的免费数据。
需要做定制化标注，他们就会向一些小型打标工作室或者中型的专业标注公司、平台来购买相应的数据采集&标注服务。

大概也是因为需求量比较大，近两年网上出现了不少专业做数据标注服务的公司，和许多社会闲散的打标小团体。

我搜索数据标注相关的关键词，找到了一堆相关QQ群：

0 (16).jpg

小七说，在数据标注领域小团队的资源和能力都非常受限，很多时候满足不了客户需求。

「最直接的，如果客户的需要两个星期内标注好几万张图片，又对标注质量有较高的要求，如果整个团队加起来才几十人，几乎不可能标注完，赶工又会拖低标注质量。」

市场需求不断倒逼着小团队们集体抱团协作。于是，AI 数据众包平台开始崛起。

越来越多做得还不错的小团队和个人就会主动向更大的众包平台靠拢，在数据众包平台的统一管理和指派下接活。

京东众智平台网站首页明晃晃写着「我要赚钱」、「我有需求」八个字，众包平台的商业逻辑显而易见。一头对接有购买数据采集和标注服务的公司，一头对接想通过标注数据赚钱的人们，是很典型的 B2C 生意，跟打车平台的逻辑差不多。

0 (4).jpg

（图片截取自京东众智平台主页)

百闻不如一试，我决定在京东众智平台上直接体验一把「AI 调教」。

但是，木有成功。

登录账号后，我发现想接打标任务，居然还要考试。而且右侧的星级评分显示我的各项指标只有一颗星：

0 (3).jpg

小七告诉我，人工标注的平均准确率会最终决定AI 系统的准确率，一旦标注人员犯错，最终机器也会犯错。所以，把控数据采集和标注质量是 AI 数据众包平台生存的根本，就跟购物商城要严查假货一样。

0 (20).jpg

（一个看起来并不怎么精细的饮料标注图)

「我们会给标注人员评级，根据等级来匹配相应难度的任务，这样能很好地控制工作效率和准确度」小七说。

（每项任务都有对应的星际要求和考试，图片截取自京东众智）

除了标注质量之外，客户最关心的主要有两点：

1）数据安全

数据这个东西实在特殊，只要经过一次手，就有被复制的可能。

但是，很多情况下做数据标注都需要双方把数据打包，然后传来传去。

甲方把需要标注的数据发送给接单的团队，标注完成后再传送回来给甲方验收，这一来一回，就产生了很多安全隐患。遇到一些不正规的小作坊，数据直接被拷贝一份数据卖给竞争对手公司也说不定。

数据安全问题的本质是个信任问题，想让客户相信，一方面是把品牌打响，靠背后的大公司大品牌来支持，让顾客相信即便是出于长远利益考虑，平台也会竭力保证数据安全。

另一方面就是依靠严格的技术手段来「自捆双手」，以换取信任。

小七说，京东众智平台使用了一种「数据切割」方案，他们会将涉密的素材拆分成很多个部分，分别派给几个不相关的团队，并且用数据接口的方式来传输数据，避免客户的数据被直接打包传来传去，这样能尽可能提高安全性。

2）速度

很多时候，数据标注的速度决定了一个公司 AI 商业产品的研发速度，而产品研发效率影响着一个公司的命运。

打个比方，某公司研发了一套猪脸识别系统，可以辅助猪场进行科学养猪，模型搭建好以后，他们花了3个月时间找外包团队采集猪脸数据，又花了三个月标注数据，这一下就过了大半年。期间如果它的竞争对手如果找到效率更高的标注团队，在更短的时间内推出相同的产品，就能来个“截胡”，让其商业计划受挫。

为了提高打标的效率，一些数据标注公司和平台开始利用深度学习网络，自己先做一个 AI 标注系统来辅助打标工人。说起来也有意思，用 AI 来帮助训练 AI ……

小七说，京东众智平台用的是一个名为「Pre-AI」的方案。

在标注人员打标之前，系统会预先用人工智能系统来辅助标注人员打标，这样能大大简化标注人员的工作难度。

比如下面这个，原本需要标注人员一个个点来标注，现在系统会自动把轮廓标注出来，人类只需要检查和修正即可。

0 (7).jpg

再比如下面这段录音，如果让你用文字写下对话内容，你至少需要听一遍，遇到听不清的部分，可能需要听上四五遍。

但是在「Pre-AI」方案能够事先自动把相应部分标注并转录出来，人类只需要跳着听一遍，修改掉错误的语句就行。

0 (11).jpg

如此看来， AI 数据众包平台并不是单纯的把社会上的闲散劳动人口聚拢过来，然后扔给他们一堆标注订单，而是会提供一整套考试、评级、辅助系统，朝着专业服务的方向在发展……

这其实也是所有B2C的必然发展之路。

很多B2C购物商城的一开始的定位是出售闲置物品，但发展到后来，清一色全是专业卖家；很多打车平台一开始想让每个普通私家车主共享出自家汽车，现在平台上几乎全都是专业司机……

或许在不久的将来，类似「数据标注」一样，「教」AI 学习的工作会形成一种职业，届时 AI 会朝着更加专业化的领域进发，医学生开始教 AI 看病、我这样的可以教 AI 写稿、黑客教 AI 做渗透测试、自动化攻防，阅片无数的老司机教 AI 来鉴黄 ……

有人觉得这有些可怕，人教出了 AI ，然后 AI 替代了人的工作。

我想说的是，人之所以为进化人，很大程度上就是因为使用了先进的工具，替代了原本的工作，让人类能投入更先进的工作中。可以说是一种劳动力解放，也可是说是一种倒逼。

如今的 AI 也是如此，AI 替代了现用的工作，倒逼着（解放了）人们去创造更先进的事物，这不就是汹涌科技大浪的本质么？

AI 替代的只是工作，而不是人，不是么？

最后再介绍一下我自己吧，我是谢幺，科技科普作者一枚，日常是把各种高大上的技术知识、黑科技讲得通俗有趣。如果有什么有意思的科技类问题，可以在知乎@谢幺，或者加我的个人微信：dexter0。

不想走丢的话，请关注【浅黑科技】！

# 人工智能 # 机器学习 # 京东众智平台 # AI数据标注

本文为独立观点，未经允许不得转载，授权请联系FreeBuf客服小蜜蜂，微信：freebee2022

被以下专辑收录，发现更多精彩内容

+ 收入我的专辑

+ 加入我的收藏

展开更多