以下是代码的一个版本(我根据实际测试更改了单词): 测试代码 快速浏览一下代码 我们有一个页面标题,其中包含单词“ ”,这也是页面的标记。它有一个基本的元描述,然后是一个新的片段元标记,它设置为感叹号(如文档中所述)。这向 发出信号,表明该页面正在使用 ,因此抓取工具可以发出额外的请求来查看加载了 内容的页面。 以浅黄色突出显示的行是一个条件语句,如果使用参数___ (例如 ?___= )请求页面,则该语句将导致页面正文中出现单词“ ”(以及更多文本)。这是 在重新抓取以获取 内容时传递给页面的参数。
这意味着没有用户会看到 块中的内容(除非他们喜欢在 请求中添加随机参数)。 我想知道的是,我能否让我的页面对这个词进行排名,这个词在使用___参数请求时只出现在页面正文中。 我把这个页面放在了我拥有的域名上,并将 提交 阿根廷数字数据 给 进行抓取(页面没有内部或外部链接)。然后我就忘了这件事。今天我尝试搜索每个单词(和),发现这个页面在这两个词中都有排名。 的 请记住,我已经为这篇博文更改了这些词语,这样我就不会弄乱原始测试(这篇博文将开始排名),所以我已经更改了 来替换我使用的实际词语。
那么这一切意味着什么呢?嗯,这意味着我可以使用 提出的技术轻松创建一个只有爬虫才能看到内容的页面(即隐藏)。我相信您知道这会如何被滥用。它也比某些形式的隐藏(例如基于用户代理的不同内容)更难检测,因为它需要爬虫下载页面并执行 以将其与用户实际看到的内容进行比较。如果爬虫要这样做,那么它还不如在所有页面上执行 。 这里的问题是, 提出的方法(元标记和 ___参数)与 在现实世界中的实现方式并没有什么关联。 您真正需要的是一个爬虫和浏览器都能理解的标准,这样机器人和人类都能看到相同的东西。在此之前,我可以看到混淆、专为机器人定制的代码和试图用它来欺骗搜索引擎的人(不是我,我的白帽子已经牢牢固定住了)的结合。