互联网首个开放评级系统上线

由 Università degli studi di Milano(米兰大学,Google 翻译的)的 Laboratory for Web Algorithmics 协同 Mannheim 大学 的 Data and Web Science Group 建立的首个互联网开放评级系统(The Common Crawl WWW Ranking)已经上线。

该系统基于应用在主机图谱上的经典的、易于解释的中心化计量方法,并且是开源的 —— 其所使用的数据、软件都是可以公开获取的。目的当然是分析互联网上各个网站的权重,或者说谁更受网民的欢迎。相比较而言,Google 和百度的排名算法都是商业机密。

他们使用调和中心化值(Harmonic Centrality)作为指标,同时提供原始的入度中心化值(Indegree Centrality)、Katz’s index 和 PageRank 作为对比。相关解释可以通过预印本论文来了解。该论文的研究将会在四月份的 World Web Conference 上发表。

他们使用了 Common Crawl 发布于 2012 年的数据,分析了超过 35 亿网页。值得一提的是,根据该分析方法,排在首位的网站是 YouTube,然后是 Wikipedia,Twitter 位列第三。可能是因为他们使用的数据稍显陈旧,分析结果引来了不少网友的吐槽(见 Slashdot.org)。

关于 Harmonic Centrality(调和中心化值),维基百科上有较为专业的解释。不过该项目的网站上有一个简单明了的说明:

假设我们来分析网站 example.com 的 Harmonic Centrality,首先考虑有多少个网站创建到到 example.com 的超链接。这些网站被称为第一距离网站。假设有 50 个,计 50 点。

然后,也有别的网站创建了到这 50 个网站的超链接,但是它们并没有直接指向 example.com 的链接(即,不属于第一距离网站)。我们将这样的网站称为第二距离网站。假设有 80 个这样的网站,因为它们的权重没那么高,我们给每个计 0.5 分,这样, example.com 就又得到 40 点。现在共有 90 点。

依此类推,第三距离网站计分 1/3,假设有 100 个,得 33.333… 点。然后还有更多。最后得分就是 example.com 的 Harmonic Centrality。

该计算可以用软件自动完成。

同时提供用于对比的还有 Indegree、Katz、PageRank 三个指标。Indegree 就是直接计算所有到所测算网站的链接数,链接越多,分数越高。而 Katz 和 PageRank 这两个指标已经比较著名了,基本上都是靠计算从别的网站到所测算网站的途径来计分的。PageRank 算法在关于 Google 的第一篇论文中有介绍。

在 The Common Crawl WWW Ranking 首页可以查询网站的指标,也可以按照上面提到的四个指标进行排序,还可以对比。下图是 cnzhx.net 的查询结果。

水景一页的 Harmonic Centrality 排名

水景一页的 Harmonic Centrality 排名

嗯,提醒一下,看到的数字是排名,而不是具体的测算值。©

本文发表于水景一页。永久链接:<http://cnzhx.net/blog/first-open-ranking-of-internet/>。转载请保留此信息及相应链接。

3 条关于 “互联网首个开放评级系统上线” 的评论

雁过留声,人过留名

您的电子邮箱地址不会被公开。 必填项已用 * 标注

特别提示:与当前文章主题无关的讨论相关但需要较多讨论求助信息请发布到水景一页讨论区的相应版块,谢谢您的理解与合作!请参考本站互助指南
您可以在评论中使用如下的 HTML 标记来辅助表达: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>