135 月
控制Google抓取网站和将其编入索引的方式
查看 Google 搜索的运作方式高级指南;如果您未能充分了解抓取/索引/呈现流水线,则很难进行网站调试或预测 Google 搜索对您网站的行为。
重复内容
请务必了解规范网页的定义及其对网站的抓取和索引编制有何影响。除此之外,还要了解如何在必要时移除或处理网站上的重复内容。
资源
请确保要让 Google 抓取的所有资源(图片、CSS 文件等)或网页均可供 Google 访问;也就是说,它们没有被任何 robots.txt 规则屏蔽,并且可供匿名用户访问。无法访问的网页不会显示在“索引涵盖范围”报告中,而网址检查工具会将其显示为未抓取。被屏蔽的资源仅会在网址检查工具中显示为具体网址级资源。如果网页上的重要资源被屏蔽,这可能会导致 Google 无法正确抓取该网页。使用网址检查工具可以呈现实际网页,以验证 Google 能否看到您所预期的网页样貌。
Robots.txt
使用 robots.txt 规则可以阻止系统抓取内容,使用站点地图可以帮助系统抓取内容。您可以禁止 Google 抓取网站上的重复内容,或禁止其抓取不太重要的资源(例如图标或徽标之类的常用小图片),以免使您的服务器收到过多请求。不要将 robots.txt 用作一种阻止 Google 将内容编入索引的机制;而应借助 noindex 标记或登录要求实现此目的。详细了解如何阻止 Google 访问您的内容。
站点地图
站点地图是一种非常重要的方法,可以告知 Google 哪些网页对您的网站很重要,同时还提供其他信息(例如更新频率),并且对于抓取非文字内容(例如图片或视频)也很重要。虽然 Google 不会只抓取站点地图中列出的网页,但它会优先抓取这些网页。对于内容随时变化的网站或可能无法通过链接发现的网页,这一点尤为重要。使用站点地图有助于 Google 发现网站上可供抓取的网页,并优先抓取这些网页。点击此处可详细了解站点地图。
国际化网站或多语言网站
如果您的网站包含多种语言,或者以特定语言区域的用户为目标用户,请注意以下几点:
- 了解多区域和多语言网站,获取关于如何管理针对不同语言或区域提供本地化内容的网站的高级建议。
- 使用 hreflang 告知 Google 网站上的网页的不同语言版本。
- 如果网站会根据请求的语言区域调整其网页内容,请了解这对 Google 抓取网站的方式有何影响。
- 如果网站使用通用顶级域名(.com、.org),而非基于语言区域的顶级域名(.ch、.in),您可以告知 Google 将搜索结果定位到哪些国家/地区。
迁移网页或网站
如果您可能需要迁移单个网址乃至整个网站,请遵循以下指南:
迁移单个网址
如果您将网页永久迁移至其他地址,请记得为网页实现 301 重定向。如果由于某种原因而只是暂时迁移,则返回 302 以告知 Google 继续抓取您的网页。
当用户请求访问的网页已被移除时,您可以创建自定义 404 网页以提供更好的体验。请确保当用户请求访问的网页已不存在时,您会返回真正的 404 错误,而不是软 404 错误。
迁移网站
如果您要迁移整个网站,请实施所需的所有 301 和站点地图更改,然后告知 Google 迁移情况,以便我们开始抓取新网站并将您的信号转发到新网站。了解如何迁移网站。
遵循抓取和索引编制最佳做法
- 确保链接可供抓取。只有链接是含有 href 属性的 a 标记时,Google 才能跟踪这些链接。Google 的抓取工具不会跟踪使用其他格式的链接。Google 无法跟踪缺少 href 标记的 a 链接,也无法跟踪通过脚本点击事件起到链接作用的其他标记。
- 对付费链接、需要登录的链接或不受信任的内容(例如用户提交的内容)使用 rel=nofollow,以免将良好的信号传递给它们,或者让它们的低劣质量牵连到您。
- 管理抓取预算: 如果您的网站规模过大(包含数亿个会定期更改的网页,或包含数以千万计经常更改的网页),Google 可能无法经常抓取整个网站。因此,您可能需要向 Google 指明网站上最重要的网页。目前实现此目的的最佳机制是在站点地图中列出最近更新的网页或最重要的网页,并使用 robots.txt 规则隐藏不太重要的网页。
- JavaScript 用法:遵循 Google 关于网站 JavaScript 的建议。
- 多页文章:如果您的文章分为几个页面,请确保有可供用户点击的下一页和上一页链接,并且这些链接是可抓取的链接。您只需这样做,Google 就可以抓取这种网页集。
- 无限滚动网页:Google 可能无法滚动浏览无限滚动网页;如果您想让网页可被抓取,则提供分页版本。详细了解易于搜索的无限滚动网页。
- 禁止访问会更改状态的网址,例如可以在其中发布评论、创建帐号、向购物车添加商品或执行其他操作的网页网址。使用 robots.txt 屏蔽这些网址。
- 查看可供 Google 编入索引的文件类型的列表。
- 在少数情况下,如果 Google 似乎过于频繁地抓取您的网站,您可以将网站的抓取速度调慢一些。不过,这种情况很罕见。
- 如果网站仍采用 HTTP,我们建议您改用 HTTPS,确保用户的安全以及您自身的安全。