• home > webfront > SGML > xml >

    详解Sitemap

    Author:[email protected] Date:

    提交sitemap有利于搜索引擎的收录,比如动态网页。google登陆一个网站,首先看是否有sitemap这个东西,如果有就先读,没有的话就逐个按站点页面抓取。sitemap就是你网站上页面的信息列表,google

    sitemap是什么?

    网站的 sitemap(站点地图)文件对于 SEO 来说非常重要,可以用来引导爬虫的抓取,提高网站的抓取效率。

    提交sitemap的好处?

    提交sitemap有利于搜索引擎的收录,比如动态网页。google登陆一个网站,首先看是否有sitemap这个东西,如果有就先读,没有的话就逐个按站点页面抓取。sitemap就是你网站上页面的信息列表,googlebot就按照这个去一个个的抓取页面。

    xml sitemap和html sitemap

    站点地图分为 xml sitemap和html sitemap。前者给搜索引擎爬虫用,后者给用户查阅。

    sitemap.xml

    sitemap.xml是一种站点地图协议,此协议文件基于早期的robots.txt文件协议,并有所升级

    向搜索引擎中提交了sitemap.xml的网站将更有利于搜索引擎网页爬行机器人的爬行索引,这样将提高索引网站内容的效率和准确度。

    sitemap.xml的六个标签

    1. changefreq:页面内容更新频率;

    2. lastmod:页面最后修改时间;

    3. loc:页面永久链接地址;

    4. priority:相对于其他页面的优先权(这个标签可以不使用);

    5. url:相对于前4个标签的父标签;

    6. urlset:相对于前5个标签的父标签。

    标签名称标签说明标签类型标签限制可选/必选
    changefreq标示数据更新频率字符串有效值为:always、hourly、daily、weekly、monthly、yearly、never。该字段用来表示页面的更新频率,always 表示频繁更新,比如用在首页上,hourly 表示每小时会有更新,daily 表示每天更新,用这个值的最多,一次类推可选
    lastmod标示数据最新一次更新时间日期时间格式为 yyyy-mm-dd ,例如 2016-12-15可选
    loc标示该条数据的存放地址url最小长度1个字符,最大长度256个字符, 以 “http://” 开头,只能是绝对完成的 url ,不能使用类似 “./test.html” 这样额相对路径必选
    priority标示优先值小数[0.0 1.0](大于等于 0 小于等于 1,保留一位小数),用来表示例如:< priority >0.8< priority >可选
    url
    地址的开始和结束单个文件最多 50000 条,神马搜索限制在10000 条一下。必选
    urlset
    urlset 用来标记整个文档的开头
    必选

    注意事项:

    1. 文件编码使用 UTF-8(推荐) 或 GBK,推荐使用 UTF-8,google 对 sitemap 的默认使用 UTF-8 编码。

    2. 单个 sitemap 文件不能超过 10M——你可以向搜索引擎提供多个Sitemap文件,但提供的每个Sitemap文件包括的网址不得超过50,000 个,并且未压缩时不能大于10MB 。

    3. 如果 sitemap 文件过大,需要拆分成多个文件,用 sitemap 索引文件来声明,搜狗官方文档推荐拆分文件不要超过 100 个,百度和 360 没有拆分数量方面的明确说明。

    4. sitemap 文件可以 gzip 压缩来提高抓取速度,推荐以 .xml.gz 为后缀,例如 http://www.zhoulujun.cn/sitemap_001.xml.gz。

    5. 需要对 url 中的特殊符号进行转义

    6. url 如果有中文要进行 encode 转义。

    7. 其中 xml 命名空间声明地址 xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" 是 Google sitemap 规范要求添加的,国内的搜索引擎并没有强制要求。不过为了兼容性友好,最好加上。而且如果不声明的话,国外的一些 xml sitemap 正确性校验工具会报错。

    8. 确保 xml 文件格式正确

    sitemap.xml使用

    建议将 Sitemap 放在 HTML 服务器的根目录中,即 http://www.zhoulujun.cn/sitemap.xml。

    某些情况下,例如您公司网站允许对应不同的目录划分写入权限,这时您或许希望在网站上针对不同的路径创建不同的 Sitemap。
    如果您有上传到http://www.zhoulujun.cn/路径/sitemap.xml  的权限,那么您可以针对 http://www.zhoulujun.cn/路径/&rdquo; 创建不同的sitemap 。
    Sitemap 包含的所有网址必须和 Sitemap 位于同一个主机上。
    例如:
    • 如果Sitemap位于http://www.zhoulujun.cn/sitemap.xml,就不能包含 http://xxx.zhoulujun.cn 中的网址。
    • 如果Sitemap位于http://www.zhoulujun.cn/路径/sitemap.xml,就不能包含 http://www.zhoulujun.cn 中的网址。

    sitemap 文件提交

    向Google提交网站地图Sitemap: 通过网址http://www.google.com/webmasters管理提交;

    向Yahoo!提交网站地图Sitemap: 通过网址http://siteexplorer.search.yahoo.com管理提交;
    向MSN提交网站地图Sitemap: 用URL直接提交:http://api.moreover.com/ping?u=http%3A//your.domainname/sitemap.xml。

    向ASK提交网站地图Sitemap: 直接提交。http://submissions.ask.com/ping?sitemap=http%3A//your.domainname/sitemap.xml



    参考文章:

    Sitemap详解 https://juejin.cn/post/6844903810616262670




    转载本站文章《详解Sitemap》,
    请注明出处:https://www.zhoulujun.cn/html/webfront/SGML/xml/2015_0729_194.html