网站404错误链接说明

  由于网站经常修改,所以难免就会有一些链接地址不用了,这样再访问就会出现404错误。虽然对用户的浏览影响不大,但有些蜘蛛采集却不知道,老是去找那些早已不存在的链接,对此说明如下:

  本网站首页下有给搜索引擎用的网站地图(SiteMap.html、SiteMap.txt、SiteMap.xml),本网站所有链接均以此地图文件为准(链接可能会经常变化),SiteMap文件里没有的链接就不要再找了(所有/asp/php/jsp/等文件最好也不要采集)。

  本网站有‘404错误链接记录’程序,所有‘访问过的错误链接’均会记录,所以经常看到很多‘已经删除的链接’‘不是本网站的链接’以及‘扫描/盗取/黑客’等等各种链接。

下面对有些识别错误的链接简单说明:

1、有些采集程序不能识别(无网址的)目录?请自行调整各自的软件吧
例如:﹤a href="/lkz.htm"﹥这样的链接(有斜杠,首页目录),有些采集 识别为‘当前目录’
  而﹤a href=" lkz.htm"﹥这样的链接(无斜杠,当前目录),有些采集却识别到‘首页目录’
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄^此处无空格,仅为和上行对比。这种链接不是标准的,只因俺们懒省事,没有写出全部路径。
  因此自己写的采集程序主要是研究‘正则表达式’(斜杠前面就是域名,无斜杠的前面才是当前路径)
成品采集软件可能就要修改参数了

2、本网站首页下有robots.txt文件,标注的是:所有‘已经删除的目录’和‘准备删除的目录’,这些目录下的链接就不要再找了。格式是按照网上介绍写的,但不知道是否正确?因为发现很多搜索引擎并不遵循?
  百度还是遵循这个规则的,一般改过后百度先会扫描一阵,之后就不再找了。
  但搜狗并不遵循这个规则,十几年前就已经删除的链接一直到现在还在找,确实比较执着。
其它很多采集程序自然也不会遵循的,有些人恨不得能把网站后台所有内容全都下载,唉,多累呀。

3、本网站多数为原创照片、视频等,为了加快网络速度,影像都是有损压缩、并且加了logo的。若是转载别人的内容一般会写‘链接来源’(除了已经打不开的)。所以希望采集转载俺们内容的网站也能写上‘链接来源’。

4、对于那些一天到晚就想盗取别人后台的所谓高手们,真不知道咋想的?是好玩呢?还是能获利?
  俺们这些公益性的个人小网站,几乎是在夹缝中艰难的生存着。在劳心耗时之后,自然不想自己的辛劳白费,所以很多高清像素的大照片是不会放在网上的。
  在此告知那些一心想扫描后台的高手们,就不要浪费精力了。不想让你看到的,你永远都看不到!


© Copyright www.27ds.net . All Rights Reserved