win10没有internet信息服务 internet信息服务( 二 ) _蜘蛛

空白页面神隐"透明"网址，骗过爬虫蜘蛛猖狂搞颜色
404页面并不少见，通常是由于服务器地址变动，或者维护不到位等因素导致网站个别链接失效。正常情况下，当搜索引擎蜘蛛爬取时遇到此类链接，也会显示404页面，但对于遭遇黑客攻陷的网站来说，其失效链接则会骗过"蜘蛛"，显示空白页面却在源码中暗藏大量链接。

看到这里你或许会有疑问，中招的网站怎么区分正常的用户和爬虫呢？其实当用户使用浏览器打开一个网站，浏览器向网站服务器发出请求时，会在请求数据头部设置一个User-Agent的字段，例如访问百度时：

而当搜索引擎爬取时，User-Agent设置的则有一些不一样：
百度蜘蛛
Mozilla/5.0(compatible;Baiduspider/2.0; http://www.baidu.com/search/spider.html）
360蜘蛛：
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36; 360Spider
神马蜘蛛：
Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36
搜狗蜘蛛：
Sogou web spider/4.0( http://www.sogou.com/docs/help/webmasters.htm#07)

此次事件中，不法黑客下载的恶意模块会通过判断User-Agent区分用户和蜘蛛（爬虫），当识别为搜索引擎蜘蛛后，就会返回上述100条链接，其中前80条hostname是恶意模块生成的随机页面，与当前网站的hostname一致；后20条hostname则是其他受害网站生成的随机页面，均为接口
hxxp://zjclasjsdknlnxsa.com:8081/ping返回（此接口需要特殊User-Agent才能访问）。

与此同时，100条随机生成的页面链接，看似杂乱无章其实暗藏一定规律的，它们的URL一般是由下图中的规则构成，即[]中的为可选。

参照上图的URL规则，观察随机链接中的path字段会发现，它们全都是以lista/xzs/api/bks开头，且以上四个关键词，分别对应了四套恶意模块使用网站模版。

在生成网页过程中，程序还会随机读取keyword等其他表中的数据，以此来替换网站模版中的对应留空位置。四套模版运行如下图所示：

上述网页显示内容，都是访问受害网址时数据库关键字替换随机生成的，搜索引擎蜘蛛（爬虫）则会将上述伪造的URL和页面缓存在数据库中。当用户在搜索引擎中搜索色情关键词，一旦命中上述伪造页面内容，那么搜索引擎就会返回上述伪造的URL和页面摘要。
此时，如若用户点击页面网址，浏览器则会默认设置Referer字段，以此来标明是从那个链接找到当前的链接。恶意模块正是利用这一点，区分当前访问页面是否来自于百度/360/搜狗/神马等国内搜索引擎中的一种。

win10没有internet信息服务 internet信息服务( 二 )

猜你喜欢