什么是 Google、Yahoo 和 Bing？

您在搜索框中输入几个词，按下回车键，片刻之间一份排列好的页面列表便出现了。这个简单的操作背后，是互联网上三个最大的工程系统：Google、Bing 和 Yahoo。它们持续读取整个网络，帮您省去这项工作，将数十亿个页面整理成您可以用自然语言查询的内容。

本文将解释搜索引擎究竟是什么、如何运作，从抓取开放网络到排序并呈现搜索结果的完整流程。同时介绍 Google、Bing 和 Yahoo 的区别（以及 Yahoo 为何由 Bing 提供支持）、搜索结果页面的构成，以及这一切对任何采集公共搜索数据用于研究、SEO 或市场分析的人意味着什么。

什么是搜索引擎？

搜索引擎是一种软件，它发现网络上的页面，存储其发现内容的结构化副本，并在用户执行查询时返回最相关的匹配结果。由于不存在涵盖所有页面的总目录，搜索引擎必须自行找到这些页面，理解其内容，并在网络变化时保持信息的及时更新。

三家公司主导着通用搜索市场：Google、微软的 Bing 和 Yahoo。它们都在解决同一个核心问题，但使用的基础设施不同、排序优先级不同，市场份额也各异。它们共同拥有的是底层流水线，理解这条流水线是理解整个主题的关键。

每个引擎都运行的四个阶段。搜索引擎爬取网络以发现页面，对所发现内容建立索引并存储在可搜索的库中，针对您的查询对候选页面排序，然后将有序结果作为 SERP 呈现。Google、Bing 和 Yahoo 都遵循这一流程，差异在于各阶段的实现细节。

搜索引擎如何工作

每个通用搜索引擎都按顺序执行同样的四个阶段：爬取、索引、排序和呈现。Google 将其自身流程描述为爬取、索引和呈现（排序被纳入呈现阶段），但所有引擎的工作本质相同。逐一了解每个阶段，是理解这些系统真正工作原理最清晰的方式。

1. 爬取

爬取是发现阶段。被称为爬虫或蜘蛛的自动化程序抓取页面、读取内容，并跟随页面中的链接发现更多页面。由于网络没有中央注册表，引擎始终处于不断发现新页面和已更新页面的循环中。它通过几种方式了解这些页面：重新访问已知页面、从已知页面跟随链接到新页面，以及读取网站所有者提交的站点地图（sitemap）以指向新增或变更的 URL。Wix 或 Blogger 等托管平台通常在您发布内容时自动通知引擎。

当爬虫到达一个页面时，它会获取 HTML，而且越来越多地像浏览器那样渲染页面，以便查看 JavaScript 在页面加载后动态添加的内容。它会分析文字、图片和整体视觉布局，以理解页面的用途。爬虫对页面的理解越深入，引擎日后就能更准确地将其与正确的查询匹配。如果您的目标页面大量依赖客户端渲染，我们关于爬取 JavaScript 网站的指南介绍了相关技术细节。

2. 索引

页面被抓取后，引擎会尝试弄清楚它讲的是什么，这个过程就是索引。引擎分析文本、对页面中嵌入的图片和视频建立目录、记录标题和元数据等结构性信号，并将所有内容存储在一个称为索引的巨型数据结构中。索引本质上是从词语和概念到包含它们的页面的映射，其组织方式使引擎能在毫秒级别查找匹配项，而不必在每次查询时重新扫描整个网络。

并非每个被爬取的页面都会进入索引。重复内容、被阻止索引或被判定为低价值的页面可能会被丢弃。最终留下来的内容构成可供所有未来查询检索的语料库。

3. 排序

当您执行查询时，索引中通常包含成千上万甚至数百万个与您的词语匹配的候选页面。排序阶段决定哪些页面排在前面。引擎根据多种信号对每个候选页面打分：页面与查询语义的匹配程度、内容的质量和时效性、页面的可用性，以及来源的可信度。关于您的上下文信息同样重要，包括您的位置、语言和设备，这就是为什么搜索"自行车修理店"在巴黎和香港会返回不同结果。

有一点值得明确：主流搜索引擎不允许任何人付费提高自然搜索结果中的排名。付费广告位确实存在，但它们以明确标注的广告形式出现，与算法排序的列表相互独立。

4. 呈现搜索结果（SERP）

最后阶段将排好序的候选页面组装成您实际看到的页面，即搜索引擎结果页面（SERP）。呈现速度很快，因为繁重的工作已在索引阶段完成；引擎主要是查找预先计算好的数据并根据您的查询和上下文进行排序。现代 SERP 远不止是十个蓝色链接，下一节将详细介绍其内容。

SERP 究竟包含什么

搜索结果页面是一个由多个不同组件构成的结构化布局，具体组合因查询而异。您将遇到的主要组成部分包括：

自然搜索结果。经过算法排序的列表，每条包含标题、URL 和摘要描述。这些是 SERP 的核心，也是大多数人所认为的"搜索结果"。
付费广告。显示在自然结果区块上方或下方的赞助列表，标注为广告。这些是购买的广告位，而非排序结果，通常针对具有强烈购买意图的商业查询。
精选摘要和答案框。从某个页面摘取的直接答案，显示在顶部，用户无需点击即可阅读。
相关问题（People Also Ask）。一组可展开的相关问题列表，展示引擎如何围绕某个主题聚合搜索意图。采集这些数据本身就是一门小学问，详见抓取 Google People Also Ask。
知识面板。针对公司、人物或地点等实体的摘要框，来源于结构化数据，显示在侧边或顶部。
本地信息包。针对具有本地意图的查询，显示地图加一小份附近商家列表。

如需深入了解这些功能以及如何大规模采集这些数据，请参阅我们关于如何抓取 Google 搜索页面的综合指南。

Google、Bing 和 Yahoo 的区别

三个引擎运行的是相同的流水线，但它们并不可以互换。以下是它们在最重要维度上的对比。

引擎	运营方	索引来源	特点
Google	Google	自有爬虫和索引	市场份额最大，索引最深，功能迭代最快
Bing	Microsoft	自有爬虫和索引	为 Microsoft 及众多合作伙伴提供搜索支持；图片、视频和地图产品实力强劲
Yahoo	Yahoo	Bing 的搜索索引	以 Bing 网络搜索为基础的门户品牌（新闻、财经、体育、购物）

Google

Google 是全球使用最广泛的搜索引擎，拥有自己的爬虫和索引。它通常对网络的覆盖最为广泛，SERP 新功能的推出也最快，这就是为什么大多数 SEO 和搜索数据工作都以它为中心。如果您的目标是了解更广泛市场的行为，Google 数据通常是基准参照。我们关于Google 如何抓取网站的解析文章对其爬虫有更深入的介绍。

Bing

Bing 是微软构建和运营的网络搜索引擎。它从微软早期产品（MSN Search、Windows Live Search 和 Live Search）发展而来，如今提供网络、图片、视频和地图搜索。Bing 运行自己独立的爬虫和索引，使其成为与 Google 真正独立的数据来源，而不是 Google 的镜像。这种独立性正是 Bing 对任何希望从第二个视角审视搜索格局的人来说不可或缺的原因。

Yahoo

Yahoo 自 1990 年代中期以来一直是网络门户的重要品牌，至今仍是新闻、财经、体育和购物的主要门户。重要的技术事实是：Yahoo 不再运营自己的网络搜索索引。其网络搜索结果由 Bing 提供支持，因此在 Yahoo 和 Bing 上执行相同查询时，结果来自同一个底层索引，尽管 Yahoo 将其包装在自己的界面和门户内容中。对于数据采集而言，这意味着 Yahoo 和 Bing 的结果高度重叠，通常您会直接从源头获取数据，而不会同时采集两者。

Crawlbase Crawling API

采集搜索数据听起来简单，但当引擎轮换布局、抛出 CAPTCHA 或在几百次请求后封锁您的 IP 时，麻烦就来了。Crawling API 将这些难题整合为一次托管请求来处理：它渲染 JavaScript、轮换真实用户 IP、呈现一致的浏览器标头，并吸收 CAPTCHA 挑战，让您只需指向 Google、Bing 或 Yahoo 的 URL，即可获得干净的 HTML，而不是屏蔽页面。从最多 20,000 次免费请求开始，无需信用卡。

免费开始

这对采集搜索数据意味着什么

搜索引擎不只是您用来输入查询的工具；它们也是互联网上最丰富的公共数据集之一。给定查询的排名结果、广告、相关问题和本地商家列表，是该主题的需求、竞争和内容质量的快照，这也是为什么许多团队以程序化方式采集搜索数据。

实际应用场景具体而清晰：

SEO 研究。追踪哪些页面针对哪些关键词排名，观察排名随时间的变化，并研究目标查询中出现的功能（精选摘要、相关问题、本地信息包）。我们关于利用数据提升 SEO 的指南对此有更深入的阐述。
竞争与市场分析。查看哪些网站在商业查询中出现，竞争对手的广告文案是什么，以及格局如何随地区或设备而变化。
价格与产品比较。比价网站直接从搜索和购物结果中获取产品列表和价格，以保持自身数据的及时性。
研究与趋势监测。分析师和研究人员大规模抽样结果，以衡量可见度、舆情以及各主题在不同引擎中的呈现方式。

由于 Bing 和 Yahoo 共享同一个索引，针对同一查询同时从两个引擎采集数据通常是多余的；选择一个来源即可。而 Google 是真正独立的数据集，因此大多数严肃的搜索数据工作会覆盖 Google 和 Bing 以获得更广的视角。除三大主流引擎外，区域性引擎对特定市场也很重要，这就是为什么有专门针对百度搜索结果等目标的指南。

负责任地抓取数据

采集搜索数据是一种常见做法，但应谨慎对待。每个引擎的服务条款通常限制直接抓取 SERP，若存在官方搜索 API 则应优先使用。请遵守 robots.txt 指令，优先获取公开结果而非登录后才能访问的内容，切勿采集您没有处理依据的个人数据。保持合理的请求频率，以免影响真实用户的服务体验；同时缓存结果，避免重复抓取相同页面。搜索引擎运行着成熟的机器人检测系统，正是因为其搜索结果是持续被攻击的目标，因此礼貌地只获取公开数据既是道德之选，也是最不容易被封锁的做法。我们关于搜索引擎如何检测爬虫的指南解释了这些防御手段实际测量的内容。

回顾

核心要点

搜索引擎是从发现到答案的流水线。它发现页面、存储结构化副本、针对查询进行排序并呈现结果，整个过程在不到一秒内完成。
四个阶段无处不在。爬取发现页面，索引使其可被搜索，排序对候选页面排序，呈现将 SERP 组装成您看到的样子。
Yahoo 由 Bing 提供支持。Google 和 Bing 各自运行独立的爬虫和索引；Yahoo 将 Bing 的索引包装在自己的门户中，因此 Yahoo 和 Bing 的网络搜索结果高度重叠。
SERP 远不止十个链接。自然结果、广告、精选摘要、相关问题、知识面板和本地信息包各自携带不同的有价值数据。
搜索数据是公共数据集。SEO、竞争分析和价格比较都依赖于负责任地采集这些数据：公共数据、合理频率、遵守条款和 robots.txt。

常见问题

用简单的话来说，什么是搜索引擎？

搜索引擎是一种读取网络、存储其发现内容的有序副本，并在您执行查询时返回最相关页面的软件。Google、Bing 和 Yahoo 是主要的通用搜索引擎示例。它们都会爬取页面、为其建立索引、根据您的搜索进行排序，并在不到一秒内呈现有序的结果列表。

Google、Bing 和 Yahoo 有什么区别？

Google 和 Bing 各自运行自己的爬虫和索引，因此是具有不同覆盖范围和排序方式的独立数据来源。Google 的市场份额最大，索引也最深。Yahoo 不再运营自己的网络搜索索引；其网络搜索结果由 Bing 提供支持，因此 Yahoo 和 Bing 返回的结果高度重叠，只是界面不同。

Yahoo 搜索和 Bing 一样吗？

底层网络搜索结果本质上相同，因为 Yahoo 的网络搜索由 Bing 的索引提供支持。Yahoo 仍然添加自己的门户内容（新闻、财经、体育、购物），并在自己的界面中呈现结果，但排名的网络列表来自 Bing。对于数据采集而言，这意味着对同一词语查询两个引擎通常是多余的。

搜索引擎工作的四个阶段是什么？

爬取、索引、排序和呈现。爬取通过跟随链接和读取站点地图来发现页面。索引分析每个页面并将其存储在可搜索的结构中。排序根据您的查询和上下文对匹配页面进行评分。呈现将有序结果组装成您看到的 SERP。Google 将排序纳入呈现阶段，但底层工作是相同的。

SERP 包含什么内容？

搜索引擎结果页面通常混合了自然排序（算法排序）列表和付费广告，根据查询不同，还可能包含精选摘要、相关问题、知识面板和带有地图的本地信息包。每个组件携带不同的数据，这就是为什么任何采集搜索结果的人都需要了解页面的完整结构。

您可以向搜索引擎付费以获得更高排名吗？

在自然搜索结果中不行。主流搜索引擎通过算法对自然列表进行排序，不接受付费来提升页面排名。付费广告位确实存在，但它们以明确标注的广告形式出现，与排名列表相互独立，两者永远不会混淆。

Bilal Ahmed

软件工程师 · Crawlbase

软件工程师，在 Crawlbase 博客上撰写了一些阅读量最高的文章，涵盖网页抓取、代理与数据工具。

开始构建

大规模爬取任何站点，无需与基础设施对抗。

Crawlbase 负责处理代理、指纹和 CAPTCHA，让你的团队专注于交付数据流水线，而非维护爬取管道。1,000 次请求免费，无需信用卡。

获取免费 API 密钥 →阅读文档

自助开通 · 无需销售通话 · 提供企业级爬取量