事实证明获得网络的随机样本
Posted: Mon Feb 17, 2025 6:29 am
不幸的是,非常困难。对于 Moz 的大多数人来说,第一直觉就是在索引中随机抽取 URL 样本。当然我们不能——这会使样本偏向我们自己的指数,所以我们放弃了这个想法。下一个想法是:“我们从我们收集的 SERP 中知道所有这些 URL——也许我们可以使用它们。”但我们知道这会偏向于高质量的页面。大多数网址没有任何排名——放弃这个想法。是时候进行更深入的研究了。
我启动了 Google Scholar,看看是否有其他组织尝试 加纳 WhatsApp 数据 过这个过程,结果确实找到了 Google 于 2000 年 6 月发表的一篇论文,名为“关于近乎统一的 URL 采样”。读完摘要的第一句话后,我急忙掏出信用卡购买了这篇论文:“我们考虑从网络上统一采样 URL 的问题。”这正是我所需要的。
为什么不进行普通爬行呢?
许多更具技术性的 SEO 阅读本文可能会问,为什么我们不从像第三方网络索引这样的奇妙的通用爬行数据集中选择随机 URL。我们考虑了几个原因,但选择采用这种方法(尽管它更容易实现)。
我们无法确定 Common Crawl 的长期可用性。前百万个列表(我们在北京流程中使用)可以从多个来源获得,这意味着如果 Quantcast 消失,我们可以使用其他提供商。
我们过去曾向 Common Crawl 贡献过爬行集,并希望确保不存在明显或明显的偏向 Moz 索引的偏见,无论多么轻微。
Common Crawl 数据集非常大,对于许多尝试创建自己的随机 URL 列表的人来说很难使用。我们希望我们的过程是可重复的。
如何获取网络的随机样本。
获得“网络随机样本”的过程非常乏味,但其总体要点如下。首先,我们从一组易于理解的有偏见的 URL 开始。然后,我们尝试消除或平衡这种偏差,尽可能创建最佳的伪随机 URL 列表。最后,我们从这些伪随机 URL 开始对网络进行随机抓取,以生成真正随机的 URL 的最终列表。以下是完整的详细信息。
我启动了 Google Scholar,看看是否有其他组织尝试 加纳 WhatsApp 数据 过这个过程,结果确实找到了 Google 于 2000 年 6 月发表的一篇论文,名为“关于近乎统一的 URL 采样”。读完摘要的第一句话后,我急忙掏出信用卡购买了这篇论文:“我们考虑从网络上统一采样 URL 的问题。”这正是我所需要的。
为什么不进行普通爬行呢?
许多更具技术性的 SEO 阅读本文可能会问,为什么我们不从像第三方网络索引这样的奇妙的通用爬行数据集中选择随机 URL。我们考虑了几个原因,但选择采用这种方法(尽管它更容易实现)。
我们无法确定 Common Crawl 的长期可用性。前百万个列表(我们在北京流程中使用)可以从多个来源获得,这意味着如果 Quantcast 消失,我们可以使用其他提供商。
我们过去曾向 Common Crawl 贡献过爬行集,并希望确保不存在明显或明显的偏向 Moz 索引的偏见,无论多么轻微。
Common Crawl 数据集非常大,对于许多尝试创建自己的随机 URL 列表的人来说很难使用。我们希望我们的过程是可重复的。
如何获取网络的随机样本。
获得“网络随机样本”的过程非常乏味,但其总体要点如下。首先,我们从一组易于理解的有偏见的 URL 开始。然后,我们尝试消除或平衡这种偏差,尽可能创建最佳的伪随机 URL 列表。最后,我们从这些伪随机 URL 开始对网络进行随机抓取,以生成真正随机的 URL 的最终列表。以下是完整的详细信息。