Microsoft Excel 是一种流行的电子表格程序,用于数据分析和可视化任务。 它提供了几个强大的功能和公式来执行各种操作,例如计算、绘图和排序。

除了传统用途外,还可以将网站数据抓取到 Excel 程序中。如果您想在不离开程序的情况下从外部源提取数据并将其集成到您的 Excel 工作环境中,这尤其有用。

无需从网站复制数据并将其粘贴到 Excel 电子表格中,您可以自动化整个过程并提高准确性和生产力。

本文讨论如何自动将网站数据抓取到 Excel 工作表中,并将其转换为结构化格式。我们还将讨论如何使用 Excel 抓取工具,例如 Crawlbase,使抓取过程轻松、快速且有益。

首先让我们来解释一下为什么你需要使用 Crawlbase 将在线信息提取到 Excel 时。请注意,您无需成为程序员即可使用 Crawlbase 用于 Excel 网页抓取。

为何使用 Crawlbase 用于 Excel 网页抓取?

抓取在线数据可能具有挑战性。 大多数现代网站都实施了阻止抓取尝试的反抓取措施。 例如,如果一个站点检测到来自同一 IP 地址的大量重复请求,它可以阻止该 IP 或限制其访问。 这可能会阻碍刮擦过程。

如果您将网站数据抓取到 Excel 中,特别是如果您将其配置为允许自动刷新所获取的数据,您可能会被阻止。我们将在本文后面讨论如何使用自动刷新功能将动态网站抓取到 Excel 中。

的帮助下 网页抓取工具 喜欢 Crawlbase,您可以轻松快速地将网站上的数据转换为 Excel 电子表格。它允许您从网站抓取数据并将其大规模地转存到 Excel 表格中,而无需面对常见的数据抓取难题。

这是一些原因 Crawlbase 非常适合您的 Excel 网页抓取任务:

  • 操作简单 很容易上手 Crawlbase即使没有高级编程技能也能轻松上手。它提供直观的 API,让您快速从网站检索信息。您可以将其用于小规模和大规模数据提取任务。
  • 支持高级抓取 通过 Crawlbase,您无需担心使用 Excel 从复杂的网站提取数据。它支持 JavaScript 渲染,允许您从动态网站检索内容,即使是使用 React.js 或 Angular 等现代技术创建的网站。
  • 支持匿名爬取 您可以使用 Crawlbase 无需担心暴露真实身份即可提取在线数据。它拥有大量代理服务器,可帮助您保持匿名。此外,它在全球拥有多个数据中心。
  • 绕过刮擦障碍物 Crawlbase 让您绕过大多数 Web 应用程序在抓取数据时设置的访问限制。您可以使用它来规避任何可能妨碍您快速高效检索数据的封锁、验证码或其他障碍。
  • 免费试用帐户 Crawlbase 提供 1,000 个免费积分用于测试该工具。在购买付费套餐之前,您可以使用免费帐户试用其功能。

创新中心 Crawlbase 方式

Crawlbase 提供了一个简单的 Crawling API 这使您可以高效、快速地提取在线数据。 使用 API,即使您没有编程背景,也可以轻松地将 Web 内容提取到 Excel 电子表格中。

这个 Crawling API URL 以以下基本部分开头:

https://api.crawlbase.com

您还需要提供以下两个强制性查询字符串参数:

  • 身份验证令牌 这是授权您使用 API 的唯一令牌。
  • 网址 这是您抓取其内容所需的 URL。

当您注册一个 Crawlbase 帐户,您将获得以下类型的身份验证令牌:

  • 普通令牌 这是用于发出通用 Web 请求。
  • JavaScript 令牌 这是为了抓取高级的动态网站。 如果网站通过 JavaScript 呈现其内容,那么使用此令牌可以帮助您顺利收集数据。

以下是将身份验证令牌添加到您的 API 请求的方法:

https://api.crawlbase.com/?token=ADD_TOKEN

第二个强制参数是目标网站的 URL。 URL 应以 HTTP 或 HTTPS 开头,并进行完全编码。编码将 URL 字符串转换为普遍接受的格式,并且为所有 Web 浏览器所熟悉。这使得通过 Internet 传输 URL 变得更加容易。

以下是添加要抓取的网站的 URL 的方法:

https://api.crawlbase.com/?token=ADD_TOKEN&url=ADD_URL

这就是你开始使用所需的一切 Crawlbase 将网站数据抓取到 Excel 中。就是这么简单!

如果您将所需的参数信息添加到上述请求并在 Web 浏览器的地址栏上运行它,它将执行 API 并返回完整的目标网页。

接下来,让我们看看如何使用 Excel 来执行上述 API 请求。

运用 Crawlbase 从网站抓取数据到Excel

Excel 提供了强大的 Web 查询功能,允许您将网站中的数据抓取到 Excel 中的列中。使用 Excel Web 查询功能主要有两种方式:

  • 使用 从网络 命令
  • 使用 新查询 命令

让我们看看如何使用命令从网站收集数据 Crawlbase.

a) 使用来自 Web 命令

使用 从网络 命令,选择 时间 功能区并单击 从网络 选项。

网页命令

接下来,您将看到 新网页查询 对话框,您可以在其中插入要提取其数据的网页的 URL。

网页查询

在这种情况下,我们要从 这个网页. 因为我们想使用 Crawlbase 为了充分利用抓取过程,例如受益于匿名性和逃避任何访问封锁,我们必须对 URL 进行一些配置,如前所述。

去我们的 Crawlbase XNUMX月XNUMX日 并获取 JavaScript 令牌。 请记住,JavaScript 令牌允许我们从动态网站中提取内容。 您可以在注册帐户后获取您的令牌。

让我们也对 URL 进行编码。 您可以使用 这个免费的工具 对 URL 进行编码。

进行配置后,URL 如下所示:

https://api.crawlbase.com/?token=USER_TOKEN&url=https%3A%2F%2Fwww.timeanddate.com%2Fmoon%2Fphases%2F

那就是我们在地址栏中插入的 URL 新网页查询 对话框。 接下来,单击 Go 按钮。

将网页加载到对话框后,Excel 会在它在整个页面中找到的表格或数据旁边插入黄色的小箭头按钮。

免费工具

您只需将鼠标光标放在指向所需数据的箭头上。 然后,选定的表格将以蓝色轮廓显示。

网页查询

接下来,单击箭头。 整个表格的数据将以蓝色突出显示,箭头变为绿色复选标记按钮。

网页查询

然后,点击 导入模板 按钮将所选数据加载到 Excel 工作表中。

导入模板

接下来,Excel 会询问您打算将导入的数据放在哪里。 如果要将数据放在现有工作表中,请选择第一个单选按钮; 否则,选择第二个单选按钮以指示 Excel 在新工作表中插入数据。

对于这个 Excel 网页抓取教程,我们将选择第一个单选按钮。 然后,单击 OK 按钮。

导入数据

Excel 可能需要一些时间来下载外部数据。 完成该过程后,输出如下所示:

外部数据

就这么简单!

您现在可以根据您的特定需求来塑造和细化数据。

b) 使用新查询命令

您也可以使用 新查询 命令将网页的数据转换为 Excel 电子表格。 这主要适用于表格格式的数据。

要使用此命令创建新的 Web 查询,请选择 时间 功能区并单击 新查询 选项。

新查询

请注意,此命令提供了几个用于检索外部数据并将其插入 Excel 工作表的选项。 对于本教程,让我们选择 从其他来源从网络 选项​​。

网络其他来源

接下来,您将看到 从网络 对话框,您可以在其中插入要提取其数据的网页的 URL。

从网络

在这种情况下,我们要从 这个网页。正如我们之前解释的那样,我们将通过 Crawlbase.

以下是 URL 的外观:

https://api.crawlbase.com/?token=USER_TOKEN&url=https%3A%2F%2Fwww.eia.gov%2Fpetroleum%2F

那就是我们在地址栏中插入的 URL 从网络 对话框。 接下来,单击 OK 按钮。

网页网址

Excel 现在将尝试通过以下方式与目标网页建立匿名连接 Crawlbase.

网页通过 Crawlbase

接着,将 航海家 窗口将显示目标网页上可用的表格的左侧列表。

航海家

如果您选择任何表格,其预览将填充在右侧。让我们选择**批发现货石油价格……**表格。

整个销售

接下来我们点击 载荷 窗口底部的按钮。 请注意,还有其他选项可用于完成其他任务,例如单击 编辑 按钮在下载前编辑数据。

载荷

点击后 载荷 按钮,外部数据将被下载到 Excel 电子表格中。 输出如下所示:

产品列表

而已!

如何自动刷新 Excel 数据

Excel 允许您自动刷新下载的数据,而不用重新安装抓取过程。这对于保持提取的数据最新非常重要,尤其是在处理目标网页上频繁更改的数据时。

但是,如果你反复请求某个网站抓取其数据,该网站可能会察觉到你的操作异常,并阻止你访问其内容。因此,你需要使用 Crawlbase。它将帮助您像普通真实用户一样访问网站并规避任何访问限制。

要刷新 Web 查询的数据,您只需单击数据的任意单元格并选择 全部刷新 选项下 时间 丝带。 然后,在下拉选项下,单击 全部刷新 如果您想更新多个数据或 刷新 如果您只想更新单个数据。

全部刷新

您还可以指示 Excel 根据您指定的条件自动刷新数据。 为此,请单击 连接属性... 选项。

连接属性

这个 连接属性 将出现对话框,允许您控制抓取数据的刷新方式。 在下面 用法 选项卡,您可以启用后台刷新,设置特定时间段进行更新,或选择其他选项。

请注意,该对话框还允许您完成其他任务,例如向连接添加描述、定义要获取的最大记录数等等。

指定刷新条件后,单击 OK 按钮。

刷新控制

自动化从网站抓取数据到 Excel

从网站提取数据到 Excel 可能是一项艰巨的任务,尤其是在处理复杂的网页结构或多个页面时。虽然 Excel 的抓取工具可以处理简单的提取,但它们通常无法处理复杂的设计,导致需要手动进行 URL 粘贴、数据检查和清理。
但别担心!像 Crawlbase 只需点击几下,即可简化您的流程。只需上传您的 URL 列表,然后 Crawlbase 将网站数据顺利地爬取到 Excel 表格中。操作方法如下:
数据提取: 通过 Crawlbase,将网站数据抓取到 Excel 工作表中。您可以从任何网页中提取数据,包括那些具有复杂 HTML 结构的网页。
数据结构: 不再有杂乱的电子表格! Crawlbase 识别 HTML 结构并整齐地格式化数据,保留表格结构、字体等。
数据清洗: 厌倦了更多的手动修补吗? Crawlbase 可以使用自动化工作流程快速处理缺失的数据点、格式化日期、替换货币符号等。
数据导出: 选择你的目的地!将清理后的数据导出到 Google Sheets、Excel、CRM 系统或您选择的任何其他数据库。

最好的部分是什么?如果您有特定需求,我们的团队随时为您提供帮助。我们将与您合作建立自动化工作流程,确保您的网络抓取过程的每一步都顺利高效。

那么为什么要浪费时间在手动任务上呢? Crawlbase 能帮你自动化吗?省去网页抓取的麻烦,让 Crawlbase 加快数据提取速度。

结语

这就是将数据从网站抓取到 Excel 的方法。 借助 Excel 网络查询功能,您可以轻松地从网站下载数据并将其集成到电子表格中。

如果 Excel 与以下强大的工具结合使用 Crawlbase,可以让您的数据提取任务高效、顺利且充实。

Crawlbase 让您能够从网站大规模提取信息,同时保持匿名。它是您避免访问被封锁的利器,尤其是在自动刷新抓取的 Excel 数据时。

点击这里创建 免费 Crawlbase 帐户.

刮刮快乐!