信息中心 / NEWS CENTER

亿岸网络新站快照与网站日志之间的关系 上海网站建设 | 上海网站设计 时间:2012-09

亿岸网络运用网络营销新站上线,历时19天网站出现百度首页快照,同时核心关键词有了一定的排名。今天我们就来用这个案例来分析一下,新上线站点快照与网站日志文件之间的关系?

  正文前还是要交代一下背景是一个起用了老域名的新站点,网站2012年9月2日正式上线, 站点设置了404错误页与301跳转www域名,至2012年9月21日出现首页快照并收录为8,期间各大搜索引擎蜘蛛一直在爬行域名以前被收录的路径, 导致网站一直处于反馈404的状态,那么我们是怎么熬过没有快照的这一段时光的呢?

  不论在哪个站长类论坛的问答区,总是有很多这样的问题:“新站一般什么时候可以被收录,我的怎么一直没有收录呢?”、“请大神帮忙分析一下网站,上线两个月仍没有收录”、“现金支付求收录”……

  做为一个SEOer,当自己的网站出现这样的问题时,有没有想过从自己网站入手找到解决问题的办法?正如上面交待的背景那样,我们这个站点起用的是被 人用过的域名,从上线之日起,各引擎蜘蛛一直爬行的都是新网站不存在的路径,结果可想而之,网站对于蜘蛛来说一直是404和301的返回码状态。

 


  我们做的网站前台完全是生成的静态网页,所以图上爬行的路径在本网站根本就不存在,所以返回大量的404与301码,看到这些本不该出现的状态码,心 里那个急呀。实说实说,一般正常的新站点上线,只要网站结构合理,域名是干净没有被使用过的,首页内容充实,一般三天到七天左右都会有快照出来的。

  从9月2日起,亿岸网络就一直在分析网站每天的日志,日志文件里包含了太多隐性的信息,特别是在新站点上线初期,分析研究日志文件是非常有必要 的。虽然百度官方的站长工具有过说明,百度有一套自己的程序,可以识别域名是否更换了主人,但这一论调,站长们普遍表示不相信,否则也不会大量的站长只要 遇到K站就弃用被K域名了。而且,百度官方也同样申明,站长可以向百度提交错误路径,已加快百度删除失效页面的速度,但问题是域名转手后,我们也没办法弄 到原网站的真实收录数据呀,难道真的只能任由蜘蛛将原路径遍历一遍之后,等待它判断域名更换了主人吗?不是的,当然不是的,这个时候的你,应该主动出击! 我们仍是用这个网站做研究,通过光年日志分析软件我发现特别是BaiDu Spider与Sogou Spider经常访问那些我网站上不存在的路径,于是根据统计出来的路径结果,我在robots.txt文件里做了如下设置:

Disallow: /vip/(禁止蜘蛛访问vip文件夹,因为该文件夹根本就不存在)
Disallow: /job/(禁止蜘蛛访问job文件夹,因为该文件夹根本就不存在)
Disallow: /other/(禁止蜘蛛访问other文件夹,因为该文件夹根本就不存在)
Disallow: /gongbcheng/(禁止蜘蛛访问gongcheng文件夹,因为该文件夹根本就不存在)
Disallow: /product/(禁止蜘蛛访问product文件夹,因为该文件夹根本就不存在)
Disallow: /faq/(禁止蜘蛛访问faq文件夹,因为该文件夹根本就不存在)
Disallow: /newsb/*.php$(禁止蜘蛛访问news文件夹下的动态网页,因为该文件夹存在,但根本没有任何动态网页)
Disallow: *.asp$(禁止蜘蛛访问任何扩展名为asp的文件)
Disallow: /*disp.php?blassb_id*(禁止蜘蛛访问任何包含了more.php?class_id的文件)
Disallow: /*../index.html?clabss_id*(禁止蜘蛛访问任何包含了../index.html?class_id的文件)
Disallow: /*shopping.php?bid*(禁止蜘蛛访问任何包含了shopping.php?id的文件)
Disallow: /*dis_job.php?id*(禁止蜘蛛访问任何包含了dis_job.php?id的文件)
Disallow: /*more_p.phpb?class_id*(禁止蜘蛛访问任何包含了more_p.php?class_id的文件)
  为什么要这样设置,请结合上图来看,因为这些文件夹或路径根本就不存在于我的网站中,当然要屏蔽掉。

  这样的设置是不是对网站真的有好处呢?那是当然的。

  2012年9月2日网站上线,一直出现404与301,然后我们发现被重新撰写了robots.txt文件;

  2012年9月13日的网站日志中已经找不到百度蜘蛛爬行返回404的记录;

  2012年9月16日谷歌放出第一批收录数据,并且成都笔记本维修排名谷歌前十,同一天搜狗放出了首页快照;

  2012年9月19日在没有首页快照的前提下,百度放出四篇内页收录,当时亿岸网络就果断预判在下一个周四晚上百度大更新会放出百度快照;

 

  2012年9月21日周五,果不其然,百度终于在今天放出首页快照,同时收录数据增长到8。

 


  通过我们亿岸网络的描述,现在不收录或者没有快照的站点是不是也有了一定的优化方向?!我们不敢说自己的经验就是百分之百正确,但我们从源头去分析改正 自己的优化方式,特别是日志这一块,不像模板,代码那样是你一手码起来的,日志是每天随机发生 返回上页