Microsoft Excel 是一种流行的电子表格程序,用于数据分析和可视化任务。 它提供了几个强大的功能和公式来执行各种操作,例如计算、绘图和排序。

除了传统用途外,还可以将网站数据抓取到 Excel 程序中。如果您想在不离开程序的情况下从外部源提取数据并将其集成到您的 Excel 工作环境中,这尤其有用。

无需从网站复制数据并将其粘贴到 Excel 电子表格中,您可以自动化整个过程并提高准确性和生产力。

本文讨论如何自动将网站数据抓取到 Excel 工作表中,并将其转换为结构化格式。我们还将讨论如何使用 Excel 抓取工具,例如 爬虫库,使抓取过程轻松、快速且有益。

让我们首先澄清为什么在将在线信息提取到 Excel 时需要使用 Crawlbase。请注意,您无需成为程序员即可使用 Crawlbase 进行 Excel 网页抓取。

为什么使用 Crawlbase 进行 Excel 网页抓取?

抓取在线数据可能具有挑战性。 大多数现代网站都实施了阻止抓取尝试的反抓取措施。 例如,如果一个站点检测到来自同一 IP 地址的大量重复请求,它可以阻止该 IP 或限制其访问。 这可能会阻碍刮擦过程。

如果您将网站数据抓取到 Excel 中,特别是如果您将其配置为允许自动刷新所获取的数据,您可能会被阻止。我们将在本文后面讨论如何使用自动刷新功能将动态网站抓取到 Excel 中。

的帮助下 网页抓取工具 与 Crawlbase 一样,您可以轻松快速地将网站上的数据转换为 Excel 电子表格。它允许您从网站上抓取数据,以大规模地写入列中,而无需经历通常的抓取挑战。

以下是 Crawlbase 非常适合执行 Excel 网页抓取任务的一些原因:

  • 操作简单 即使没有高级编程技能,也可以轻松启动并运行 Crawlbase。它提供了直观的 API,可让您快速从网站检索信息。您可以将它用于小规模和大规模数据提取任务。
  • 支持高级抓取 有了 Crawlbase,您无需担心使用 Excel 从复杂的网站中提取数据。它支持 JavaScript 渲染,允许您从动态网站检索内容,甚至是使用 React.js 或 Angular 等现代技术创建的网站。
  • 支持匿名爬取 您可以使用 Crawlbase 提取在线数据,而不必担心暴露您的真实身份。它有大量的代理池,您可以使用它来保持匿名。它还在世界各地拥有多个数据中心。
  • 绕过刮擦障碍物 Crawlbase 可让您在抓取数据时规避大多数 Web 应用程序设置的访问限制。您可以使用它来规避任何封锁、验证码或其他可能阻止您快速有效地检索数据的障碍。
  • 免费试用帐户 Crawlbase 提供 1,000 个免费积分用于测试该工具。在选择付费计划之前,您可以使用免费帐户来尝试其功能。

Crawlbase 的工作原理

Crawlbase提供了一个简单的 抓取 API 这使您可以高效、快速地提取在线数据。 使用 API,即使您没有编程背景,也可以轻松地将 Web 内容提取到 Excel 电子表格中。

Crawling API URL 以以下基本部分开头:

https://api.crawlbase.com

您还需要提供以下两个强制性查询字符串参数:

  • 身份验证令牌 这是授权您使用 API 的唯一令牌。
  • 网址 这是您抓取其内容所需的 URL。

当您注册 Crawlbase 帐户时,您将获得以下类型的身份验证令牌:

  • 普通令牌 这是用于发出通用 Web 请求。
  • JavaScript 令牌 这是为了抓取高级的动态网站。 如果网站通过 JavaScript 呈现其内容,那么使用此令牌可以帮助您顺利收集数据。

以下是将身份验证令牌添加到您的 API 请求的方法:

https://api.crawlbase.com/?token=ADD_TOKEN

第二个强制参数是目标网站的 URL。 URL 应以 HTTP 或 HTTPS 开头,并进行完全编码。编码将 URL 字符串转换为普遍接受的格式,并且为所有 Web 浏览器所熟悉。这使得通过 Internet 传输 URL 变得更加容易。

以下是添加要抓取的网站的 URL 的方法:

https://api.crawlbase.com/?token=ADD_TOKEN&url=ADD_URL

这就是开始使用 Crawlbase 将数据从网站抓取到 Excel 所需的全部内容。就这么简单!

如果您将所需的参数信息添加到上述请求并在 Web 浏览器的地址栏上运行它,它将执行 API 并返回完整的目标网页。

接下来,让我们看看如何使用 Excel 来执行上述 API 请求。

使用 Crawlbase 将网站数据抓取到 Excel

Excel 提供了强大的 Web 查询功能,允许您将网站中的数据抓取到 Excel 中的列中。使用 Excel Web 查询功能主要有两种方式:

  • 使用 从网络 命令
  • 使用 新查询 命令

让我们看看如何使用命令通过 Crawlbase 从网站收集数据。

a) 使用来自 Web 命令

使用 从网络 命令,选择 时间 功能区并单击 从网络 选项。

网页命令

接下来,您将看到 新网页查询 对话框,您可以在其中插入要提取其数据的网页的 URL。

网页查询

在这种情况下,我们要从 这个网页。由于我们希望使用 Crawlbase 充分利用抓取过程,例如受益于匿名性并规避任何访问封锁,因此我们必须对 URL 进行一些配置,如前所述。

去我们的 爬网仪表板 并获取 JavaScript 令牌。 请记住,JavaScript 令牌允许我们从动态网站中提取内容。 您可以在注册帐户后获取您的令牌。

让我们也对 URL 进行编码。 您可以使用 这个免费的工具 对 URL 进行编码。

进行配置后,URL 如下所示:

https://api.crawlbase.com/?token=USER_TOKEN&url=https%3A%2F%2Fwww.timeanddate.com%2Fmoon%2Fphases%2F

那就是我们在地址栏中插入的 URL 新网页查询 对话框。 接下来,单击 Go 按钮。

将网页加载到对话框后,Excel 会在它在整个页面中找到的表格或数据旁边插入黄色的小箭头按钮。

免费工具

您只需将鼠标光标放在指向所需数据的箭头上。 然后,选定的表格将以蓝色轮廓显示。

网页查询

接下来,单击箭头。 整个表格的数据将以蓝色突出显示,箭头变为绿色复选标记按钮。

网页查询

然后,点击 进口 按钮将所选数据加载到 Excel 工作表中。

进口

接下来,Excel 会询问您打算将导入的数据放在哪里。 如果要将数据放在现有工作表中,请选择第一个单选按钮; 否则,选择第二个单选按钮以指示 Excel 在新工作表中插入数据。

对于这个 Excel 网页抓取教程,我们将选择第一个单选按钮。 然后,单击 OK 按钮。

导入数据

Excel 可能需要一些时间来下载外部数据。 完成该过程后,输出如下所示:

外部数据

就这么简单!

您现在可以根据您的特定需求来塑造和细化数据。

b) 使用新查询命令

您也可以使用 新查询 命令将网页的数据转换为 Excel 电子表格。 这主要适用于表格格式的数据。

要使用此命令创建新的 Web 查询,请选择 时间 功能区并单击 新查询 选项。

新查询

请注意,此命令提供了几个用于检索外部数据并将其插入 Excel 工作表的选项。 对于本教程,让我们选择 从其他来源从网络 选项​​。

网络其他来源

接下来,您将看到 从网络 对话框,您可以在其中插入要提取其数据的网页的 URL。

从网络

在这种情况下,我们要从 这个网页。正如我们之前所解释的,我们将通过 Crawlbase 传递 URL。

以下是 URL 的外观:

https://api.crawlbase.com/?token=USER_TOKEN&url=https%3A%2F%2Fwww.eia.gov%2Fpetroleum%2F

那就是我们在地址栏中插入的 URL 从网络 对话框。 接下来,单击 OK 按钮。

网页网址

Excel 现在将尝试通过 Crawlbase 与目标网页建立匿名连接。

通过 Crawlbase 的网页

接着,将 航海家 窗口将显示目标网页上可用的表格的左侧列表。

航海家

如果您选择任何表格,其预览将填充在右侧。 让我们选择 批发现货石油价格…表。

整个销售

接下来我们点击 加载 窗口底部的按钮。 请注意,还有其他选项可用于完成其他任务,例如单击 编辑 按钮在下载前编辑数据。

加载

点击后 加载 按钮,外部数据将被下载到 Excel 电子表格中。 输出如下所示:

产品列表

而已!

如何自动刷新 Excel 数据

Excel 允许您自动刷新下载的数据,而不用重新安装抓取过程。这对于保持提取的数据最新非常重要,尤其是在处理目标网页上频繁更改的数据时。

但是,如果您反复请求网站抓取其数据,该网站可能会注意到您的行为不正常,并阻止您访问其内容。这就是为什么您需要使用 Crawlbase。它将帮助您像普通用户和真实用户一样访问网站并规避任何访问限制。

要刷新 Web 查询的数据,您只需单击数据的任意单元格并选择 全部刷新 选项下 时间 丝带。 然后,在下拉选项下,单击 全部刷新 如果您想更新多个数据或 刷新 如果您只想更新单个数据。

全部刷新

您还可以指示 Excel 根据您指定的条件自动刷新数据。 为此,请单击 连接属性... 选项。

连接属性

连接属性 将出现对话框,允许您控制抓取数据的刷新方式。 在下面 用法 选项卡,您可以启用后台刷新,设置特定时间段进行更新,或选择其他选项。

请注意,该对话框还允许您完成其他任务,例如向连接添加描述、定义要获取的最大记录数等等。

指定刷新条件后,单击 OK 按钮。

刷新控制

自动化从网站抓取数据到 Excel

从网站提取数据到 Excel 可能是一项艰巨的任务,尤其是在处理复杂的网页结构或多个页面时。虽然 Excel 的抓取工具可以处理简单的提取,但它们通常无法处理复杂的设计,导致需要手动进行 URL 粘贴、数据检查和清理。
但不要害怕!像 Crawlbase 这样的平台只需点击几下即可简化您的流程。只需上传您的 URL 列表,然后让 Crawlbase 从网站抓取数据并顺利导入到列中。它的工作原理如下:
数据提取: 使用 Crawlbase,将数据从网站抓取到 Excel 工作表中。您可以从任何网页提取数据,包括那些具有复杂 HTML 结构的网页。
数据结构: 不再有凌乱的电子表格! Crawlbase 识别 HTML 结构并整齐地格式化数据,保留表格结构、字体等。
数据清洗: 厌倦了更多的手动修补? Crawlbase 可以使用自动化工作流程快速处理丢失的数据点、格式化日期、替换货币符号等。
数据导出: 选择你的目的地!将清理后的数据导出到 Google Sheets、Excel、CRM 系统或您选择的任何其他数据库。

最好的部分是什么?如果您有特定需求,我们的团队随时为您提供帮助。我们将与您合作建立自动化工作流程,确保您的网络抓取过程的每一步都顺利高效。

那么,当 Crawlbase 可以为您自动化执行手动任务时,为什么要浪费时间呢?消除网络抓取的麻烦,让 Crawlbase 加快您的数据提取速度。

结论

这就是将数据从网站抓取到 Excel 的方法。 借助 Excel 网络查询功能,您可以轻松地从网站下载数据并将其集成到电子表格中。

如果 Excel 与 Crawlbase 等强大的工具相结合,您可以使数据提取任务高效、顺利且令人满意。

Crawlbase 可让您从网站大规模提取信息,同时保持匿名。它是您避免遇到访问封锁所需的工具,尤其是在您自动刷新抓取的 Excel 数据时。

点击这里创建 免费的 Crawlbase 帐户.

刮刮快乐!