做网站当然希望搜索引擎抓取我们网站的内容,但我们做SEO优化 SEO优化时候并不希望所有的信息都公布于众,比如后台隐私,或者其它一些杂七杂八的信息。
那么这时候我们就可以能过robots.txt 文件来控制网站在搜索引擎中的展示,robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被搜索引擎 robots 访问的部分。
带“*”的一种写法:
=================================================
User-agent: *
Disallow: /ad*
Allow: /ad/img/
Disallow: /*.php$
Disallow: /*.jsp$
Disallow: /*.css$
=================================================
这种写法允许所有蜘蛛访问,但会限制以“ad”开头的目录及文件,并限制抓取.php文件、.jsp文件和.css文件。其中 Disallow: /ad* 会连同附件目录(即你上传的图片、软件等)一起限制抓取,如果想让搜索引擎抓取img目录中的内容,需要将写上第三行“Allow: /ad/img/“。
较合理的一种写法:
=================================================
User-agent: *
Disallow: /admin
Disallow: /content/plugins
Disallow: /content/themes
Disallow: /includes
Disallow: /?s=
Sitemap: http://www.ememarket.com/classroom432.aspx
=================================================
如果对自己写的robots.txt不放心,建议你使用 Google管理员工具中的“工具 -> 测试 robots.txt”来对你的 robots.txt进行测试,确保你的修改正确。