Google 网站站长工具发布新一代抓取错误处理方式

抓取错误(Crawl errors)是 Google 网站管理员工具(Webmaster Tools)中最受欢迎的工具之一。昨天,Google 针对抓取错误工具发布了重大更新,使之更加方便、实用。

现在,抓取错误功能可以检测和报告多种新的错误类型。为了使数据更加直观,网站站长工具将错误分为两类:网站错误(site errors)和链接地址错误(URL errors)。

Site Errors

网站错误是指那些会影响整个网站的错误,而不是针对某些特定的 URL 链接。包括 DNS 解析失败、服务器连接问题以及获取 robots.txt 文件问题等。以前,Google Webmaster Tools 仅仅报告相关的链接地址错误。不过这样做没多大意义,因为它们并不是特定链接造成的。实际上,这种错误甚至会阻止 Googlebot 请求某个 URL 链接地址。于是 Google Webmaster Tools 开始跟踪这类错误出现的频率,并在适当的时候向网站管理员发送提醒信息。

查看网站错误频率和次数变化曲线

而且,如果你的网站没有出现过错误,或者最近一段时间在这方面没出什么问题 —— 实际上大多数网站都是这种情形 —— 他们就会仅仅显示简单的一切正常的提示,而不会显示很多信息来影响管理员获取其它信息。总之,如果看到的提示图标都是绿色的,就表示一切正常。

最近一段时间网站都没有问题的话,就显示这样的友好提示信息

URL 链接错误

URL 链接错误是指那些指向特定页面的错误。当 Google 机器人试图抓取该链接时,能够解析 DNS、连接到服务器、抓取 robots.txt 文件,然而在请求该 URL 链接地址的时候遇到了错误。按照错误原因,URL 链接地址错误也分为几种类型。如果网站提供 Google 新闻内容或者移动数据内容(CHTML/XHTML),将会按照不同的分类来显示这些错误。

链接错误提示

简洁的错误提示信息

以前,Google 网站站长工具给每个分类最多显示 10 万个错误。检查这么多错误信息是非常困难的,你甚至都无法知道哪些错误是重要的(比如主页无法打开),哪些错误是次要的(比如别的网站链接到你的网页时出现了拼写错误)。基本上不可能对 10 万条错误记录进行排序、搜索,或者标记你的处理进度。

在新版本的抓取错误里,Google 开发人员尝试着仅仅提供最重要的错误信息。对于每种错误分类,一般只提供 1000 条被认为是最重要的错误信息。网站管理员还可以对这些错误进行排序和过滤,查看错误详细信息并进行处理,然后可以将已经处理过的错误进行标记并通知 Google(从而不再显示,除非该错误重新出现)。

在任一栏目上实时排序或过滤错误信息

对于某个错误类型,某些网站可能有超过 1000 条错误,超出这个数目的错误仍然可以体现在总的错误条数上。同时还有图示来显示过去 90 天的历史错误数据。也许有人担心 1000 条错误的详细信息外加一个粗略的错误总数可能不太够。Google 正在考虑提供 API 接口来解决这个问题。

现在,网站站长工具将使用 robots.txt 屏蔽的链接列表移除,因为,虽然有时候这些链接对于诊断 robots.txt 错误有帮助,但是这些链接是管理员特意屏蔽的(自己屏蔽的当然该很清楚了)。为了专注于真正的错误,被 robot.txt 屏蔽的链接将会很快移动到“网站设置(Site configuration)”栏目的“抓取限制(Crawler access)”页面。

查看错误详细信息

在主列表中点击一个单独的错误链接就可以激活一个显示详细错误信息的面板,包括最后抓取时间、最早发现错误的时间以及一个简单的解释。

主列表中能看到的错误详细信息

在详细信息面板,还可以直接点击相关链接来检查访问的时候会出现什么错误。如果没有问题,可以将此错误标记为“已修复”(以后还会有更多选项的),也可以查看这种错误类型的帮助信息,包含该链接的网站地图文件列表,链接到该链接地址的其它页面列表等,还可以使用 Googlebot 来模拟抓取该链接看看是不是有别的什么问题或者是不是已经修复正常。

查看链接到该页面的其它页面地址列表

采取行动

抓取错误功能中一个非常值得期待的东西就是,网站管理员可以切实地将注意力集中在解决那些最重要的问题上。Google Webmaster Tools 将错误进行分级,那些优先级高的条目是你的确可以采取措施来解决的。或者需要修正网站上的链接,或者需要处理服务器上的软件问题,或者需要更新网站地图文件以清理那些不需要的链接,或者增加一个 301 转向将用户重定向到正确的页面等等。Google Webmaster Tools 在确定优先级时考虑了多种因素,包括你是否将该 URL 包含进了网站地图,有多少个页面链接到该地址(还考虑这些页面是不是都在你自己的网站上),这个链接最近从搜索引擎中获取了多少流量,等等。

一旦你认为已经修复了问题(可以使用 Googlebot 来模拟抓取该页面),就可以将其标记为“已修复”(当然,你得是管理员才行)。该操作会通知 Google Webmaster Tools,然后就会将这个错误从错误列表的顶部(重要的 1000 条)移除并且不再显示(除非 Googlebot 在抓取该页面的再次碰到了同样的错误)。

将错误标记为已修复

英文原文由 Webmaster Tools 团队的 Kurt Dresner 撰写。因时间仓促,水景一页对本文的翻译不提供品质保证。转载请保留本段内容,以示对原作者的尊重。

同时,Google 还更新了网站站长工具的帮助文档中的有关部分,提供链接以供参考。©

本文发表于水景一页。永久链接:<http://cnzhx.net/blog/crawl-errors-next-generation/>。转载请保留此信息及相应链接。

3 条关于 “Google 网站站长工具发布新一代抓取错误处理方式” 的评论

  1. 引用通告: 重定向 /index.html 到 / | 水景一页

  2. 我们知道这些错误,该怎么解决呢 ?我的网站就有抓取出现DNS错误,结果谷歌引擎不来IP了

    • DNS 服务器应该很稳定的。如果极其偶然的情况下出现一两次错误关系也不大。照你说的情况,你用的国内某公司的 NS 估计不稳定吧。可以试试用 dnspod.cn 的免费域名解析服务,还可以。

雁过留声,人过留名

您的电子邮箱地址不会被公开。 必填项已用 * 标注

特别提示:与当前文章主题无关的讨论相关但需要较多讨论求助信息请发布到水景一页讨论区的相应版块,谢谢您的理解与合作!请参考本站互助指南
您可以在评论中使用如下的 HTML 标记来辅助表达: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>