有的镜像网站是没有恶意的,很可能是你自己设置的,为了方便用户能从多个域名访问网站,被封了一个,还有其它的域名。比如著名的草榴社区,彷佛就有很多镜像可以访问。
有的镜像,也便是这里谈论的镜像,是不怀美意的,常日是别人设置的,要么为了负面SEO你的网站,要么为了利用你的内容得到排名,然后把用户转向到敏感、造孽内容网站上去。
网上有的文章把采集和镜像混在一起。虽然表现形式差不多,但严格来说,采集和镜像实现方法、表现形式是有差异的。

采集的网站一样平常是提前抓取别人网站的内容,放入自己数据库,再用程序调用到页面上。被采集网站有新内容时,采集网站并不能实时同步更新,要再采集之后才能涌现。一旦被采集,内容已经在对方数据库里了,从技能上是无法阻挡采集网站显示这些内容的。这篇帖子说的不是这种。
镜像网站并不事先抓取内容,而是有人访问网站时,实时从被镜像的网站调取内容,做些处理(更换URL、笔墨,加笔墨、加JS等),然后实时显示。被镜像的网站有任何更新,镜像网站是实时同步的。
网上有卖用于镜像网站的小偷程序的。小偷程序常日也可以用来做采集。为了不给他们做宣扬,就不提名字了。从他们的官网摘取几条程序功能,有助于理解后面的内容:
全自动剖析,内外链接自动转换、图片地址、css、js,自动剖析CSS内的图片内置强大更换和过滤功能,标签过滤、站内外过滤、字符串更换、等等伪原创,近义词更换有利于seo增加URL路由,实现全站URL变换,个性化本站URL地址超级模板增加移动模板、自定义栏目功能增加自动获取301、302重定向的采集,办理跳WWW,跳https采集代理IP、假造IP、随机IP、假造user-agent、假造referer来路、自定义cookie,以便应对防采集方法从SEO角度看,权重不高的小站、新站,被镜像意味着有其它网站和你的网站内容基本一样,搜索引擎有可能认为你的网站不是原版,镜像网站才是,以是把排名、流量给了镜像网站。
对有一定历史、权重的网站,镜像网站取代原版网站的可能性微乎其微。但从心情角度考虑,被别人镜像,内容被别人偷走,纵然没有其它明显后果,也还是挺烦人的一件事。
另一个烦人的事是,镜像网站一样平常来说并不是要和你供应同样的产品或做事,而是把用户转到赌钱、色情等做事上去。有的是通过JS把赌钱、色情内容显示给用户,有的直接把用户转向到其余的网站上去。
有时候把稳到被镜像了是由于自己网站排名低落,疑惑有人负面SEO。有时候是搜索品牌名称,看到镜像网站。已经知道自己被镜像了好办,直接看下面怎么处理部分。
一是百度统计后台:
受访域名部分列出了利用相同百度统计代码的域名。个中涌现快照、百度/谷歌翻译等是正常的,但涌现一些奇奇怪怪的域名就要查看一下了,比如上图里的第5、7、8个,访问一下就知道都是镜像SEO每天一帖,领导用户赌钱的网站,然后站长把SEO每天一帖的统计代码也照抄过去了。
看看上面列出的小偷涌现功能就知道,实在统计代码很随意马虎更换或删除的。以是在受访域名只能看到一小部分镜像网站。
第二是搜索网站的特色句子。最随意马虎想到的是网站品牌名称、首页标题等,确实可以创造一些镜像网站。但如前所述,品牌名绝大多数是会被更换的,以是我更喜好搜索一些页面上的特色句子,比如本博客最上面的副标题:Zac的SEO博客,坚持12年,优化成为生活。搜索一下就会看到:
把对方主机IP先屏蔽了。不过镜像网站来实时抓取用的IP大部分情形下不是域名主机IP,可能是CDN,可能是假造IP,也可能是多IP的做事器。要创造必须屏蔽的IP,须要查看网站原始日志。我的一个小窍门是,访问镜像网站上一个很少人会访问的页面,比如翻页第70页,然后立时查看日志,这个页面被访问的IP便是该当屏蔽的IP,等等。