关于sitemap的格式和生成请参考前篇:python3 ElementTree 生成SEO站点地图sitemap.xml
题记:
本站链接太多导致站点地图sitemap.xml 包含链接太多,google 、baidu无法全部拉取。于是进行站点地图拆分
如果要列出超过 50,000 个网址,您需要创建多个 Sitemaps 文件。如果预计您的 Sitemaps 网址数量会超过 50,000 个或大小超过 10MB,应考虑创建多个 Sitemaps 文件。如果您的确提供了多个 Sitemaps,您可以将其列在 Sitemaps 索引文件中。Sitemaps 索引文件只能列出不超过 1,000 个 Sitemaps。
sitemapindex格式说明:
Sitemaps 索引文件的 XML 格式与 Sitemaps 文件的 XML 格式非常相似。Sitemaps 索引文件使用以下 XML 标记:
- loc
- lastmod
- sitemap
- sitemapindex
注:Sitemaps 索引文件只能指定与其位于同一网站的 Sitemaps。例如,http://www.yoursite.com/sitemap_index.xml 可包含位于 http://www.yoursite.com 的 Sitemaps,但不能包含位于 http://www.example.com 或 http://yourhost.yoursite.com 的 Sitemaps。与 Sitemaps 一样,您的 Sitemaps 索引文件应为 UTF-8 编码。
XML Sitemaps 索引示例
下例展示了一个 XML 格式的 Sitemaps 索引。该 Sitemaps 索引列出了两个 Sitemaps:
<?xml version="1.0" encoding="UTF-8"?> <sitemapindex xmlns="http://www.google.com/schemas/sitemap/0.84"> <sitemap> <loc>http://www.example.com/sitemap1.xml.gz</loc> <lastmod>2004-10-01T18:23:17+00:00</lastmod> </sitemap> <sitemap> <loc>http://www.example.com/sitemap2.xml.gz</loc> <lastmod>2005-01-01</lastmod> </sitemap> </sitemapindex>
备注:与 XML 文件中的所有值一样,Sitemaps 网址需要实体换码.
Sitemaps 索引 XML 标记定义
-
需要有 <loc> 标记并用其来识别 Sitemaps 的位置。
-
<lastmod> 标记是可选标记,用于指示相应 Sitemap 文件的修改时间。它并不对应于该 Sitemap 中列出的任一网页的更改时间。lastmod 标记的值应采用 W3C Datetime 格式。
通过提供最近修改的时间戳启用搜索引擎抓取工具,抓取工具将只检索索引中的 Sitemaps 的一个子集,也就是说,抓取工具只检索某特定日期之后修改的 Sitemaps。通过这一递增的 Sitemaps 提取机制,可以快速发现超大型网站上的新网址。
-
<sitemap> 标记封装单个 Sitemaps 的相关信息。
-
<sitemapindex> 标记会压缩有关文件中的所有 Sitemaps 的信息。
参考:https://www.cnblogs.com/fdszlzl/archive/2009/05/29/1491897.html