空白页面神隐"透明"网址,骗过爬虫蜘蛛猖狂搞颜色
404页面并不少见,通常是由于服务器地址变动,或者维护不到位等因素导致网站个别链接失效 。正常情况下,当搜索引擎蜘蛛爬取时遇到此类链接,也会显示404页面,但对于遭遇黑客攻陷的网站来说,其失效链接则会骗过"蜘蛛",显示空白页面却在源码中暗藏大量链接 。
看到这里你或许会有疑问,中招的网站怎么区分正常的用户和爬虫呢?其实当用户使用浏览器打开一个网站,浏览器向网站服务器发出请求时,会在请求数据头部设置一个User-Agent的字段,例如访问百度时:
而当搜索引擎爬取时,User-Agent设置的则有一些不一样:
百度蜘蛛
Mozilla/5.0(compatible;Baiduspider/2.0; http://www.baidu.com/search/spider.html)
360蜘蛛:
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36; 360Spider
神马蜘蛛:
Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36
搜狗蜘蛛:
Sogou web spider/4.0( http://www.sogou.com/docs/help/webmasters.htm#07)
此次事件中,不法黑客下载的恶意模块会通过判断User-Agent区分用户和蜘蛛(爬虫),当识别为搜索引擎蜘蛛后,就会返回上述100条链接,其中前80条hostname是恶意模块生成的随机页面,与当前网站的hostname一致;后20条hostname则是其他受害网站生成的随机页面,均为接口
hxxp://zjclasjsdknlnxsa.com:8081/ping返回(此接口需要特殊User-Agent才能访问) 。
与此同时,100条随机生成的页面链接,看似杂乱无章其实暗藏一定规律的,它们的URL一般是由下图中的规则构成,即[]中的为可选 。
参照上图的URL规则,观察随机链接中的path字段会发现,它们全都是以lista/xzs/api/bks开头,且以上四个关键词,分别对应了四套恶意模块使用网站模版 。
在生成网页过程中,程序还会随机读取keyword等其他表中的数据,以此来替换网站模版中的对应留空位置 。四套模版运行如下图所示:
上述网页显示内容,都是访问受害网址时数据库关键字替换随机生成的,搜索引擎蜘蛛(爬虫)则会将上述伪造的URL和页面缓存在数据库中 。当用户在搜索引擎中搜索色情关键词,一旦命中上述伪造页面内容,那么搜索引擎就会返回上述伪造的URL和页面摘要 。
此时,如若用户点击页面网址,浏览器则会默认设置Referer字段,以此来标明是从那个链接找到当前的链接 。恶意模块正是利用这一点,区分当前访问页面是否来自于百度/360/搜狗/神马等国内搜索引擎中的一种 。
猜你喜欢
- 如何调整c盘大小 win10调整c盘分区大小
- 数码知识:vivoy3s有没有闪充vivoy3s支持闪充吗
- 数码知识:华为nova5pro怎么开空调 有没有空调遥控器功能
- 周瑜去世后小乔有没有改嫁他人 三国周瑜多少岁死的
- 谁不说俺家乡好歌曲歌词 没有情人的情人节歌词
- 朱棣登基后为什么再没有儿女了 朱棣多大岁数当的皇上
- 1个号码申请2个微信 没有手机号可以注册微信吗
- 手把手教你注册QQ号 没有手机号怎么注册qq新用户
- 怎么检查车有没有装GPS 怎么检查车有没有装GPS
- 图示6种方式可进入bios界面 win10怎么进去bios界面
