互联网上充满了故事,很多时候让我们感到困惑,这是一个新故事,因为没有真正的白帽和黑帽机器人。 机器人是为我们做某事的自动化计算机。

但什么是真正好的爬行机器人? 这甚至存在吗? 让我们更深入地了解一下。

爬行机器人是一种用于爬行和抓取在线网站以交换内容的软件。 例如,Google 是一个抓取/抓取机器人,被视为白名单机器人。 为什么? 好问题,我们可能会说它被列入白名单是因为它已经上线了这么多年,而且它提供了一些“好”的内容,因此人们对此感到满意。

但这是否意味着您的机器人是黑帽机器人? 不是真的,这就是为什么我们一开始的意思是没有真正的白帽和黑帽机器人。

让我们来看看互联网社会所认为的“白帽爬虫”。

白帽爬虫

在白帽刮板的世界中,我们可以区分 3 个主要类别:

  • 搜索引擎爬虫
  • 商业机器人
  • 饲料爬虫

搜索引擎爬虫

搜索引擎爬虫或爬虫主要是机器人,其主要目的是聚合内容,以便根据搜索向客户展示。 其中最常见的是谷歌:

搜索引擎机器人
  • Googlebot: 向谷歌提供内容的机器人,谷歌是互联网上最常用的搜索引擎。
  • 雅虎机器人: 一个为雅虎搜索引擎提供 24/7 内容的爬行机器人。
  • 百度蜘蛛: 来自中国百度的领先搜索引擎也有自己的机器人抓取互联网以汇总新鲜内容。
  • 好搜360蜘蛛: 中国第二大用户搜索引擎也拥有自己的机器人。
  • Yandex 机器人: 另一个白标机器人用于为俄罗斯的 Yandex 搜索引擎抓取内容。
  • MSN/必应机器人: 来自 Microsoft 的 Bing 搜索引擎机器人。
  • 谷歌广告机器人: 谷歌通过广告赚钱,因此它有一个机器人可以抓取客户的登陆页面以获得高质量的内容,以便能够显示适当的广告。

商业机器人

我们可以将商业机器人和爬虫归类为来自公司的软件,用于收集与搜索引擎无关的数据,通常是为了提供依赖于这些数据的服务。 一个明显的例子是 Pinterest,它在互联网上爬行以搜索数据以提供服务。

  • Pinterest 机器人: 如前所述,它会在互联网上搜索内容以提供数据库,供用户以照片和收藏的形式共享。
  • SEMrush 机器人: SEMrush 公司运行一个机器人来获取他们的 SEO 工具、关键词研究工具和图表的数据。
  • Ahrefs 机器人: 由 Ahrefs 运行的软件抓取工具,一种营销和 SEO 工具,被数百万用户用作反向链接检查器。
  • 亚历克萨机器人: Alexa 为互联网提供数据和排名,为了获取这些数据,他们通常使用他们的白帽机器人从互联网中提取这些数据。

饲料爬虫

这些通常与商业机器人混淆,因为它们也是商业的,但主要区别在于收集内容并稍后将其提供给您,而不是在该数据上构建服务。 一个明显的例子是 Twitter,它将使用 Twitter 机器人访问您的网站,以获取您的网站数据并将其原样呈现给用户,无需修改。

饲料刮板机器人
  • 推特机器人: 来自 Twitter 的著名 Twitter 机器人将在有人分享链接后访问您的网站,并获取足够的信息以显示小预览。
  • 电报机器人: 每当您在著名的聊天应用程序 Telegram 中分享链接时,Telegram 机器人都会访问您的网站以获取一些元数据以显示在聊天中。
  • Facebook 移动应用程序: 一个小型机器人,用于获取 Facebook 移动应用程序中共享的网站。
  • 饲料燃烧器: 如果您过去使用过 Feedburner 或任何其他 RSS 提要,您就会知道提要获取器需要获取它试图呈现的网站的实际内容。 这就是 Feedburner 的机器人。
  • Android 框架机器人: Android 运行时环境检索移动应用程序的内容,这是负责执行此操作的机器人。

我有白帽或黑帽机器人吗?

因此,在对机器人和抓取脚本进行分类之后,我们再次重申,没有真正的白帽或黑帽,但更多的是人们和其他网站所知道的。

所以我们可以说所有的抓取和机器人都是白帽,这只是网站允许你抓取他们的内容或阻止你这样做的问题,但不要忘记,如果是这样的话, Crawlbase(以前的 ProxyCrawl)随时为您提供帮助.