爬虫凶猛:支付宝、微信、现金贷放贷数据无一幸免
02 光明与黑暗爬虫技术也并不神秘,无非分为三步:“爬”上网页、“铲”下数据,进行加工清洗。 爬虫有光明的一面。 类似百度谷歌这样的搜索引擎,其核心逻辑,也是爬虫——爬到用户要的关键词,再展现搜索结果。 “让有价值的东西,更好地呈现,这是爬虫最大的功劳”,一爬虫公司的联合创始人金苑称。 爬虫也有黑暗的一面。 大数据时代,爬虫成为低成本获取数据的捷径,经常沦为“黑暗武器”。 2014 年,互联网创业高潮中,爬虫技术迎来了一次小爆发。 “爬虫生态链里有这么一类公司,专门替人爬虫,增加APP的虚拟访问量”,金苑称, 1 万浏览量,报价 10 元。 “很多公司去竞争对手网站或APP上爬数据,然后拿过来自己用”,金苑称。 在 2016 年,有媒体曝出,大众点评网起诉百度,称百度未经许可,使用爬虫技术从“大众点评网”上大量获取用户点评信息,用于自家的百度地图及百度知道产品。 最终一审判决,要求百度停止不正当竞争行为,并赔偿 323 万。 光明与黑暗的交集中,爬虫行业在 2016 年,才迎来了真正爆发。 2016 年,现金贷行业成为爬虫产品的最大买家。 爬虫公司为其提供五花八门的服务:例如爬取淘宝、社交网络、网上银行等。 “不管是网站还是APP,只要有账号密码就可以爬,连央行的征信报告都能爬”,某数据负责人声称,“技术好,就没有爬不到的数据”。 这其中最火的产品,是通话记录(运营商数据)爬取。 在这一波浪潮中,崛起了众多爬虫公司,其中做得最大的是“聚信立”。 “爬取通讯录,主要是用于用户失联后,可以找他们的亲朋好友催款”,某平台的风控负责人平元鑫称,但通讯录的伪造成本较低,“将联系人改一个号码就行”,有时候可能会失效。 而通话记录的数据,则可靠得多。 而爬取方式也很简单,只要用户提供手机号码和服务码,就可登陆各大运营商的系统爬取。 聚信立爬取数据后,提供给客户的“个人用户报告”极为细致:包括通话号码、次数、时长等信息。 “聚信立爬取一次的价格,是 1 到 3 块,但也成了现金贷公司的标配,聚信立赚了很多钱”,平元鑫称。 “你就算吧,每放款一个用户,就得支付聚信立 1 到 3 元,如果用户去其他平台借款,还要再收一次”,平元鑫认为,聚信立成了现金贷时代的最大赢家之一。 某种程度上,爬虫技术撑起了现金贷的黄金时代,为其提供大量的风控养料。 但爬虫行业的好日子,并没有持续太长时间。 在聚信立的领头下,大量的公司开始涌进——市场热闹起来。 “成立的公司越来越多,但大部分都是代理商,真正有爬虫技术的,也就 30 多家”,金苑称。 为了抢夺用户,行业开始打价格战,甚至免费。 “比如,融 360 和富数,都是你买他家产品,可能会免费附赠爬虫服务”,金苑称,很多公司卯足了劲,开始追赶聚信立,抢夺客户。 爬虫产品同质化严重,客户挑选的标准,自然变成“谁家便宜用谁”。 突然间,一门好生意,变得挣钱都难了,爬虫行业陷入艰难存活的旋涡中。 “尽管爬虫没有门槛,找几个技术就可以干,却是一个脏活累活”,从事爬虫工程师三年的韩苏称,几乎每天,爬虫和反爬之间都在战斗。 每天早上一坐到公司,打开电脑,韩苏就知道,今天的战争开始了。 “谁都不想把自己的数据免费贡献出来,为了反爬,他们也会动用一切手段”,韩苏称。 比如,对于单一IP和设备频繁登录,直接封掉;网站调整为动态的,只有正常用户行为,才能调取数据等等。 “比如以前一个移动商城只要一个短信验证码,后来升级了,验证码又加了一个,我们就得重新写爬虫代码”,韩苏称。 在爬虫公司,后台会有一套监控系统,可以实时看成功失败的比例。 而韩苏需要每个小时去查看一次,一旦失败率上升,就要马上找到原因,并处理。 近来机器学习、canvas指纹等新技术,也被频繁用到反爬软件里,爬取难度越来越大,数据越来越不稳定。 “爬虫开始变成一个重运营、重技术的活”,韩苏称,数据稳定性,成为爬虫公司最大的宣传点。 “前有伏兵(反爬),后有追兵”,韩苏如此形容夹缝中的爬虫行业。 03 未来之路今年 6 月 1 日,《网络安全法》开始实施,无比严苛:
整个大数据行业面临生死劫,上万数据接口关停,大量数据源被生生切断,行业90%的公司面临淘汰。 而有意思的是,在这轮清洗中,爬虫技术却成了最后的救命稻草。 “安全法规定,获取用户的数据,必须授权,而爬虫就打了一个擦边球”,某大数据公司的CEO称。 “爬虫需要用户授权用户名和密码,只是大部分用户不知道,爬取的数据如此具体,将他所有数据翻遍”,该CEO称。 但激烈竞争依然存在,爬虫行业未来的命运又将如何? 很多爬虫公司为了存活,各种产品开始出现,如同业爬虫、支付宝爬虫、而摩羯科技的最新产品,是爬微信。 但多位业内人士称,这样的竞争方式,不是“康庄大道”,而是“羊肠小道”。 业内人士称,现金贷早期,客户资质都比较好,后期骗贷和欺诈的都来了,只靠简单的爬虫技术,很难挡住他们。 “爬虫公司要提供更多价值,比如,给对方的风控产品,定制化数据,或者自己也可以建立风控模型”,金苑称。 已有几家头部公司开始了转型的尝试,一家爬虫公司正准备将所有数据整合,做一整套的现金贷风控解决方案。 而老大哥“聚信立”,也有这方面的尝试。 “现在最关键的能力,不是建模能力,而是整合和清洗能力”,聚信立的CEO罗皓对一本财经称,因为数据维度越来越多,电商、支付等信息,可能都关系到“还款能力”,需要整合起来。 但这条路,也不是很好走,因为很多大数据公司和风控产品公司,都在这块领域抢肉吃,爬虫公司又如何和他们竞争? 部分从业者对于爬虫技术的未来命运不太乐观,在大数据行业,没有独家数据源的公司,都难以存活,何况没什么门槛的爬虫技术? “孤立无支的爬虫技术,竞争力越发微弱。被收购,成为大数据公司或者大公司的一个爬虫部门,也许也是一条出路”,金苑称。 “存在即是合理”,也有部分从业者比较乐观,现金贷的黄金时代,他们永不会缺业务。 在大数据的涅槃重生时代,爬虫行业也到了一个关键节点。 是深耕行业,还是剑走偏锋,他们可能会走向两条截然不同的路。 (应受访者要求,本文部分人名为化名) (编辑:PHP编程网 - 黄冈站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |