Robots.txt的优化
    发表日期:2010-3-10
    • Robots.txt文件对于Wordpress自建博客在搜索引擎中获取较好的排名和流量有很大的作用,因为它可以有效防止wordpress复制内容的不好影响。Google在其官方指南中就谈到Robots.txt对于google爬虫的作用:

      Make use of the robots.txt file on your web server. This file tells crawlers which directories can or cannot be crawled. Make sure it’s current for your site so that you don’t accidentally block the Googlebot crawler.

      那么该如何设置robots.txt文件呢?对于wordpress博客,我们可以从两个地方来设置好对于搜索引擎爬虫的限制访问。

      一、header.php中的robots meta的优化

      1. <?php if(is_single() || is_page() || is_home()) { ?>
      2.     <meta name="googlebot" content="index,follow" />
      3.     <meta name="robots" content="all,index,follow" />
      4.   <meta name="msnbot" content="all,index,follow" />
      5. <?php } else { ?>
      6.     <meta name="googlebot" content="noindex,noarchive,follow" />
      7.     <meta name="robots" content="noindex,follow" />
      8.   <meta name="msnbot" content="noindex,follow" />
      9. <?php }?>

      这样的代码告诉搜索引擎爬虫除了首页、文章页面以及独立页面外的其他页面只检索不收录。

      二、robots.txt的设置
      在网站的根目录下添加robots.txt并正确设置是很有用处的。以下的例子简单告诉robots.txt该怎么使用。

    • 禁止爬虫访问以下目录:
      1. Disallow: /about/
      2. Disallow: /contact/
      3. Disallow: /tag/
      4. Disallow: /wp-admin/
      5. Disallow: /wp-includes/
      6. Disallow: /contact
      7. Disallow: /wp-
      8. Disallow: /feed/
      9. Disallow: /trackback/
    • 禁止google爬虫访问以下文件名的文件:
      1. User-agent: Googlebot
      2. Disallow: /*.php$
      3. Disallow: /*.js$
      4. Disallow: /*.inc$
    • 禁止爬虫访问地址中带?的地址:
      1. Disallow: /*?*
返回首页 | 域名注册 | 虚拟主机 | 企业邮局 | 网络U盘 | 网站建设 | 网站优化推广 | 客户案例 | 新闻中心 | 技术支持 | 在线订单 | 网站地图
业务咨询: 点击这里给我发消息 业务咨询: 点击这里给我发消息 业务咨询: 点击这里给我发消息
四川省网飙数码科技有限公司 copyright www.wangbiao.net All rights reserved 蜀ICP备05020877号
电话:业务咨询:028-87603489(上班时间)13880692042 13348966191(节假日)传真:028-87602312 站长统计:
地址:成都市二环路北一段西南交通大学内(进南大门左侧80米)交大南苑27栋22楼 邮编:610031