现在位置:首页 » 网站建设 »

robots协议写法

时间:2013年11月11日 ⁄ 分类: 网站建设 评论:0

robots.txt协议有必要吗?

一直在折腾网站前台,结果忘记了写robots协议,导致百度收录了大量无关页面。

为什么要加入robots.txt协议限制百度收录?最迫切的出发点是防止百度抓取admin这类文件,否则直接导致网站后台裸奔。还有一种说法是为了避免搜索引擎认为网站存在大量重复页,这也是为什么copy这条路走不通的原因。

拿WP来说,page/category页面都将导致网站大量重复内容。为了呈现内容给访问者,而在侧边栏加入tag、最新、最热等等,这些方式都会导致增加网站重复度,这也是为什么百度对于新站只收录tag而不收录single页面的原因。可能百度搜索技术远远不如谷歌,但是网站自身的站内优化也是很重要的。

robots协议写法

robots.txt协议写法

# robots.txt for maplemark

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

/*防止后台暴露给robots*/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/

/*减少robots消耗资源*/
Disallow: /?p=

Disallow: /cache/tag/
Disallow: /cache/category/*/page/
Disallow: /cache/category/*/*/page/
Disallow: /cache/*/
Disallow: /cache/*/feed
Disallow: /feed

/*减少网站的重复抓取,根据需要书写*/

Sitemap: http://www.maplemark.cn/sitemap.xml.gz
Sitemap: http://www.maplemark.cn/sitemap.html
Sitemap: http://www.maplemark.cn/sitemap_baidu.xml
Sitemap: http://www.maplemark.cn/sitemap.xml

/*帮助robots快速找到sitemap*/

robots协议验证

robots协议可能需要根据需求实际书写,robots协议错误设置可能导致网站无法被抓取,将是致命问题。

在最后FTP之前,可以使用谷歌robots协议工具模拟抓取验证,看看需要屏蔽的链接能否通过验证。

目前有 0 条评论