win10没有internet信息服务 internet信息服务( 二 )


空白页面神隐"透明"网址,骗过爬虫蜘蛛猖狂搞颜色
404页面并不少见,通常是由于服务器地址变动,或者维护不到位等因素导致网站个别链接失效 。正常情况下,当搜索引擎蜘蛛爬取时遇到此类链接,也会显示404页面,但对于遭遇黑客攻陷的网站来说,其失效链接则会骗过"蜘蛛",显示空白页面却在源码中暗藏大量链接 。

看到这里你或许会有疑问,中招的网站怎么区分正常的用户和爬虫呢?其实当用户使用浏览器打开一个网站,浏览器向网站服务器发出请求时,会在请求数据头部设置一个User-Agent的字段,例如访问百度时:

而当搜索引擎爬取时,User-Agent设置的则有一些不一样:
百度蜘蛛
Mozilla/5.0(compatible;Baiduspider/2.0; http://www.baidu.com/search/spider.html)
360蜘蛛:
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36; 360Spider
神马蜘蛛:
Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36
搜狗蜘蛛:
Sogou web spider/4.0( http://www.sogou.com/docs/help/webmasters.htm#07)

此次事件中,不法黑客下载的恶意模块会通过判断User-Agent区分用户和蜘蛛(爬虫),当识别为搜索引擎蜘蛛后,就会返回上述100条链接,其中前80条hostname是恶意模块生成的随机页面,与当前网站的hostname一致;后20条hostname则是其他受害网站生成的随机页面,均为接口
hxxp://zjclasjsdknlnxsa.com:8081/ping返回(此接口需要特殊User-Agent才能访问) 。

与此同时,100条随机生成的页面链接,看似杂乱无章其实暗藏一定规律的,它们的URL一般是由下图中的规则构成,即[]中的为可选 。

参照上图的URL规则,观察随机链接中的path字段会发现,它们全都是以lista/xzs/api/bks开头,且以上四个关键词,分别对应了四套恶意模块使用网站模版 。



在生成网页过程中,程序还会随机读取keyword等其他表中的数据,以此来替换网站模版中的对应留空位置 。四套模版运行如下图所示:

上述网页显示内容,都是访问受害网址时数据库关键字替换随机生成的,搜索引擎蜘蛛(爬虫)则会将上述伪造的URL和页面缓存在数据库中 。当用户在搜索引擎中搜索色情关键词,一旦命中上述伪造页面内容,那么搜索引擎就会返回上述伪造的URL和页面摘要 。
此时,如若用户点击页面网址,浏览器则会默认设置Referer字段,以此来标明是从那个链接找到当前的链接 。恶意模块正是利用这一点,区分当前访问页面是否来自于百度/360/搜狗/神马等国内搜索引擎中的一种 。

猜你喜欢