由 Università degli studi di Milano(米兰大学,Google 翻译的)的 Laboratory for Web Algorithmics 协同 Mannheim 大学 的 Data and Web Science Group 建立的首个互联网开放评级系统(The Common Crawl WWW Ranking)已经上线。
该系统基于应用在主机图谱上的经典的、易于解释的中心化计量方法,并且是开源的 —— 其所使用的数据、软件都是可以公开获取的。目的当然是分析互联网上各个网站的权重,或者说谁更受网民的欢迎。相比较而言,Google 和百度的排名算法都是商业机密。
他们使用调和中心化值(Harmonic Centrality)作为指标,同时提供原始的入度中心化值(Indegree Centrality)、Katz’s index 和 PageRank 作为对比。相关解释可以通过预印本论文来了解。该论文的研究将会在四月份的 World Web Conference 上发表。
他们使用了 Common Crawl 发布于 2012 年的数据,分析了超过 35 亿网页。值得一提的是,根据该分析方法,排在首位的网站是 YouTube,然后是 Wikipedia,Twitter 位列第三。可能是因为他们使用的数据稍显陈旧,分析结果引来了不少网友的吐槽(见 Slashdot.org)。
关于 Harmonic Centrality(调和中心化值),维基百科上有较为专业的解释。不过该项目的网站上有一个简单明了的说明:
假设我们来分析网站 example.com 的 Harmonic Centrality,首先考虑有多少个网站创建到到 example.com 的超链接。这些网站被称为第一距离网站。假设有 50 个,计 50 点。
然后,也有别的网站创建了到这 50 个网站的超链接,但是它们并没有直接指向 example.com 的链接(即,不属于第一距离网站)。我们将这样的网站称为第二距离网站。假设有 80 个这样的网站,因为它们的权重没那么高,我们给每个计 0.5 分,这样, example.com 就又得到 40 点。现在共有 90 点。
依此类推,第三距离网站计分 1/3,假设有 100 个,得 33.333… 点。然后还有更多。最后得分就是 example.com 的 Harmonic Centrality。
该计算可以用软件自动完成。
同时提供用于对比的还有 Indegree、Katz、PageRank 三个指标。Indegree 就是直接计算所有到所测算网站的链接数,链接越多,分数越高。而 Katz 和 PageRank 这两个指标已经比较著名了,基本上都是靠计算从别的网站到所测算网站的途径来计分的。PageRank 算法在关于 Google 的第一篇论文中有介绍。
在 The Common Crawl WWW Ranking 首页可以查询网站的指标,也可以按照上面提到的四个指标进行排序,还可以对比。下图是 cnzhx.net 的查询结果。
嗯,提醒一下,看到的数字是排名,而不是具体的测算值。©
本文发表于水景一页。永久链接:<https://cnzhx.net/blog/first-open-ranking-of-internet/>。转载请保留此信息及相应链接。
去爬光互联网上的网站 才是难点吧~
是哈,这个的确太难了。他们用了公开的爬抓结果,所以被批数据有些陈旧。
类似PR呀,是不是首个开放很难说,360有个类似的,比他早点