加入收藏 | 设为首页 | 会员中心 | 我要投稿 PHP编程网 - 黄冈站长网 (http://www.0713zz.com/)- 数据应用、建站、人体识别、智能机器人、语音技术!
当前位置: 首页 > 站长资讯 > 评论 > 正文

百度网址安全中心,这个神秘的组织如何为世上所有的网址“验明正身”?

发布时间:2016-12-14 03:49:40 所属栏目:评论 来源:雷锋网
导读:副标题#e# 网络世界,就像一道无尽的步行街。 而不同的网址,就像一扇扇大门,分列在街道左右。这些门背后,有摩天大厦,也有木屋小宅。 例如: 你推开“www.taobao.com”这扇门 ,就走入了琳琅满目的商

木马传播到电脑上,一般都会利用漏洞,而这些漏洞都有“特征内容”。利用对这些特征的识别,就可以判断出网页是否有挂马行为。但是,很多黑产也会采用加密、变形等手段增加我们的检测难度。我们主要在对抗这些手段。

冯景辉说。

有些网页在脚本中隐藏了恶意木马,但是这种隐蔽方法和一些病毒类似,需要在真实的网页环境中才会被触发。对于这类“嫌疑网页”,百度网址安全中心的童鞋们会利用类似“沙箱”的系统,让网页脚本跑在虚拟机中,让它露出“真面目”。

优雅地“鉴黄”

对于“黄赌毒”内容的检测,和传统反病毒所需的技术差别很大。实际上,引擎所要做的基本任务,就是根据网页内容把它进行分类。

这里面主要用到了一种数学技术:TF-IDF 算法。

所谓 TF-IDF 算法,简单说来就是提取网页内能够表述网页内容的关键词,找到在这个网页中出现频繁,但是其他网页中并不普遍的词汇。

这种技术,往往可以帮助系统判断一个网页的“中心思想”,判定“黄赌毒”再适合不过。

识别钓鱼网站

仿冒正规网站的钓鱼网站,精髓就在于“像”。

百度网址安全中心,这个神秘的组织如何为世上所有的网址“验明正身”? | 深度

既然黑产的目的是“像”,那么对抗的技术就是“对比相似性”。这其中又主要用到一种数学算法:SIMHASH 算法。

简单说来,SIMHASH 算法就是把一个网页内容转换成一个64位的“特征字”,如果两个内容的特征字距离小于规定值,那么就判定二者相似度极高。这种算法最早由谷歌研发,用于网页搜索去重。

写过毕业论文的童鞋都知道,从网上 Down 哪怕一段内容,都会被论文查重系统的火眼金睛发现。没错,老师们正是用 SIMHASH 这种“人类智慧的结晶”在和“不法学生”对抗。

然而,在钓鱼网页中,还有70%的“虚假中奖”类页面,它们并没有仿冒其他网页,这对于冯景辉和团队来说,是一个不大不小的难题。

对于这样的问题,他们手里还有一样“秘密武器”。

秘密武器——人工智能

判断一个网页是不是“虚假中奖”页面,对于一个人来说,可能是小菜一碟。如果可以训练机器来模拟人的判断,问题就会迎刃而解。

人工智能,可是百度的“招牌菜”。

冯景辉告诉雷锋网(公众号:雷锋网)宅客频道,

除了一些司法上的特征,很多“虚假中奖”页面还会有其他的特征,例如:

  • 网页中的图片比例很高,呈现瀑布流状;

  • 而这类网页链接由于频繁变动,经常是一些和正常网址不一样的奇怪域名。

  • 这类网站也会引用大量的外部链接。

类似的特征还有很多,把这些特征参数放到深度学习引擎中,机器就可以自己总结出一套判定“虚假中奖”页面的标准,实现自动的智能识别。

百度网址安全中心,这个神秘的组织如何为世上所有的网址“验明正身”? | 深度

【虚假中奖网页】

识别“高段位”的黄赌毒网页,同样需要这种深度学习的方法。

例如一些小说站和图片站。对于描写的尺度、内衣的高度(为了防止本文被判定为黄赌毒网页,就不多说了)这些擦边程度的判断,只能人为地划定标准(参考车展和 ChinaJoy 为美女“量身定做”的“两厘米”规则。。。),然后把这些标准输入深度学习系统,把这种让人“心力交瘁”的工作甩给机器。

以上这种深度学习的方法, 被称为“有监督学习”,简单来说,就是需要人类不断提供一些特征标准,机器根据这些特征进行下一步总结。但是冯景辉说,他们下一步想要搞的,是“无监督学习”。

无监督学习,就是根本不告诉人工智能系统任何“人类总结出的特征”,仅仅是给它大量的黑白样本,让系统自动抽象出一些特征。人类只负责告诉机器它的判断是对还是错,机器根据这个结果来改进它总结的特征。

这些特征往往非常奇葩,有些以人类大脑的逻辑并不容易总结和表述。但是,这类“无法描述”的特征往往一针见血,精准异常。

深度对抗——魔高一尺,道高一尺五

连人工智能这种“原子弹”级别的武器都被抬出来了,这下该天下太平了吧?哈哈,图样图森破。

充斥着黑产的赛博世界从来都是“Hard”模式。要知道,冯景辉和团队面对的是无数“老司机”,“束手就擒”这四个字从来就不在他们的字典里。

冯景辉举了一个最简单的例子:

很多黑产为了躲避对违法文本内容的打击,会把这些文本做成图片的形式。当然,图片上的 OCR 文字识别技术已经很成熟了。我们需要做的,就是把这种技术重新部署进我们的系统,不断升级对抗的手段。

然而,一言不合黑产老司机就脑洞大开,新玩法层出不穷。

“林丹”身上的恶意网址

不要低估黑产的嗅觉。

百度网址安全中心,这个神秘的组织如何为世上所有的网址“验明正身”? | 深度

在“林丹”事件被爆出的那一刻,反应最快的不是林丹,不是谢杏芳,而是黑产。他们手中控制了一个僵尸网站群,在第一时间把这一站群的集中引用页面的关键词都改为“林丹”,这样,这一站群的关键词都会成为林丹,被搜索引擎自动匹配关联。

这样,在有关林丹的消息还没有大规模爆发的时间窗口,恶意网站就会占领搜索引擎的最佳位置。

由于平时这些网站群处于“蛰伏”状态,不一定被“战斗爬虫”和“检测引擎”发现。此时它们突然大规模跳出,借助人们对于林丹的“如火热情”,可以大赚一票。

当然,“林丹”显然是躺枪。最近每出现一个爆炸性的新闻,黑产都会利用流量效应迅速“捞一把”。

另外,百度搜索引擎有联想功能,可以关联两个相关的词汇。例如:人们会搜索某个明星的名字,但是名字比较复杂,很多人第一次输入错误,搜索之后又更正为正确的重新搜索。这时,搜索引擎就会自动关联这两个词汇。

百度网址安全中心,这个神秘的组织如何为世上所有的网址“验明正身”? | 深度

【黑客利用木马组建受自己控制的僵尸网络,为黑产“顾客”提供服务】

(编辑:PHP编程网 - 黄冈站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读