Answers
网站地图sitemap.xml文件,对搜索蜘蛛的爬行很重要。
什么是sitemap.xml文件
sitemap.xml文件是严格按照xml语言编写的网站地图,用来引导搜索蜘蛛对本站点文章等内容的索引,它是由google提出来的概念,目前yahoo,bing等已经公开声明支持这种格式。所以像Zblog这样的博客系统都会自带sitesmap.xml文件,它是向众多搜索引擎提供站点信息的一个非常好的方式。如果没有sitemap.xml文件,那么搜索引擎就会对你的网站一页一页的抓去,效率不高且不友好。
google的“关于站点地图”提供了详细的sitemap.xml的写法:
http://support.google.com/webmasters/...
这里给一个网站地图样例:
<?xml version="1.0"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.lefern.com/</loc>
<changefreq>daily</changefreq>
</url>
<url>
<loc>http://www.lefern.com/questions/scope:all/sort:activity-desc/page:1/</loc>
<lastmod>2015-02-19T13:24:49+09:00</lastmod>
<changefreq>monthly</changefreq>
</url>
</urlset>
语法很简单。其中
- priority是指相对于其他页面的优先权
- changefreq则是指内容更新的频率。
有了这些设置,就等于告诉搜索引擎机器人,你的网站的更新情况如何,以及希望搜索引擎优先收录哪些内容。
下面给出一个完整的sitemap.xml样例分析
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.google.com/schemas/sitemap/0.84" >
<url>
<loc> http://www.tekuba.net/searchengine/28/ </loc>
<lastmod>2008-07-17</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc> http://www.tekuba.net/searchengine/133/ </loc>
<lastmod>2008-07-17</lastmod>
<changefreq>weekly</changefreq>
<priority>0.9</priority>
</url>
…
</urlset>
1 首尾格式
如下:
<?xml version="1.0"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
这两句代码类似html标签是死的。照抄即可。文件最后会有</urlset>
2 loc
这两个标签中间的地址必填。格式为:http://www.lefern.com/all/,此网址应以协议开始(例如:http)并以斜线结尾。此值应少于 2048 个字符。
3 lastmod
可选标签 标签含义:该文件上次修改的日期。此日期应采用 W3C Datetime 格式。如果需要的话,此格式允许省略时间部分,而仅使用 YYYY-MM-DD。 列子:2012-06-12。
一般来说这个很重要。Google的机器人会在索引此链接前先和上次索引记录的最后更新时间进行 比较,如果时间一样就会跳过不再索引。所以如果你的链接内容基于上次Google索引时的内容有所改变,应该更新该时间,让Google下次索引时会重新 对该链接内容进行分析和提取关键字。
4 changefreq
可选标签 标签含义:页面可能发生更改的频率。此值为搜索引擎提供一般性信息,可能与搜索引擎抓取页面的频率不完全相关。有效值为:
- always
- hourly
- daily
- weekly
- monthly
- yearly
- never
值“always”应当用于描述每次访问时都会改变的文档。而值“never”应当用于描述已存档网址。
5 priority
可选标签 此网址的优先级与您网站上其他网址的优先级相关。有效值范围从 0.0 到 1.0。此值不会影响您的网页与其他网站上网页的比较结果,只是告诉搜索引擎您认为您的那个网页最重要,从而它们对您页面的抓取可以按照您最喜欢的方式进行排序。一个网页的默认优先级为 0.5。
xml文件必须是utf-8的编码格式,可以用记事本打开xml然后另存为时选择编码(或转换器)为UTF-8。了解这些标签的作用我们就可以根据自己网站的情况做出适合自己站点sitemap.xml。
通过以上的知识我们可以知道:如果要想添加 乐纷网 - 所有
(http://www.lefern.com/all/)的站点地图的话,值需要增加如下代码即可:
<url>
<loc>http://www.lefern.com/all/</loc>
<lastmod>2015-02-19T19:41:29+09:00</lastmod>
<changefreq>daily</changefreq>
</url>
提交sitemap.xml
Sitemap.xml制作完成后,就需要将xml文件提交到相关搜索引擎。
- Google提交网址:http://www.google.com/webmasters/sitemaps/?hl=zh-CN
- Yahoo提交网址:http://sitemap.cn.yahoo.com/
提交后,一般在几个小时之内,系统就开始下载处理了。
Sitemap.xml的校验
至于你的网站地图是否符合标准,最方便有效的手段就是使用google的管理员工具了。
在google搜索引擎接收你的sitemap.xml后几天内,google的管理员工具就会将详细的分析结果反馈回来,包括:
- sitemap.xml中包含了多少地址
- google已将多少地址加入索引
- sitemap.xml中出现了哪些错误
- 蜘蛛采集过程中遇到的各种问题,比如哪些网页有404,500错误都会详细的罗列出来
如果你提交的xml文件一切无误,那么接下来,你就是等着让它的搜索蜘蛛来爬了,sitemap的文件告知了文件更新的频率,这样搜索蜘蛛来得更勤快,页面被收录当然也就更快。