Microsoft Excel 是一种流行的电子表格程序,用于数据分析和可视化任务。 它提供了几个强大的功能和公式来执行各种操作,例如计算、绘图和排序。
除了传统用途外,还可以使用 Excel 程序从网站上抓取数据。 如果您想在不离开程序的情况下从外部来源提取数据并将它们集成到您的 Excel 工作环境中,这将特别有用。
无需从网站复制数据并将其粘贴到 Excel 电子表格中,您可以自动化整个过程并提高准确性和生产力。
本文讨论如何自动从网站中提取数据并将其转换为 Excel 中的结构化格式。 我们还将讨论如何使用 Crawlbase(以前的 ProxyCrawl) 使抓取过程轻松、快速且有益。
让我们先弄清楚为什么在将在线信息提取到 Excel 时需要使用 Crawlbase(以前称为 ProxyCrawl)。 请注意,在使用 Crawlbase(以前称为 ProxyCrawl)进行 Excel 网络抓取之前,您无需成为程序员。
为什么使用 Crawlbase(以前的 ProxyCrawl)进行 Excel Web Scraping?
抓取在线数据可能具有挑战性。 大多数现代网站都实施了阻止抓取尝试的反抓取措施。 例如,如果一个站点检测到来自同一 IP 地址的大量重复请求,它可以阻止该 IP 或限制其访问。 这可能会阻碍刮擦过程。
如果您使用 Excel 收集在线数据,特别是如果您将其配置为允许自动刷新获取的数据,您可能会被阻止。 我们将在本文后面讨论如何使用 Excel 自动刷新功能。
随着 网络抓取 使用 Crawlbase(以前称为 ProxyCrawl)之类的工具,您可以轻松快速地将网站上的数据转换为 Excel 电子表格。 它允许您将在线数据大规模提取到 Excel 工作表中,而不会遇到通常的抓取挑战。
以下是 Crawlbase(以前的 ProxyCrawl)非常适合您的 Excel 网络抓取任务的一些原因:
- 操作简单 使用 Crawlbase(以前的 ProxyCrawl)很容易启动和运行,即使没有高级编程技能。 它提供了一个直观的 API,可让您快速开始从网站检索信息。 您可以将它用于小规模和大规模的数据提取任务。
- 支持高级抓取 使用 Crawlbase(以前的 ProxyCrawl),您无需担心使用 Excel 从复杂的网站中提取数据。 它支持 JavaScript 渲染,允许您从动态网站检索内容,即使是使用 React.js 或 Angular 等现代技术创建的网站。
- 支持匿名爬取 您可以使用 Crawlbase(以前的 ProxyCrawl)来提取在线数据,而不必担心暴露您的真实身份。 它有大量代理,您可以使用它来保持匿名。 它还在世界各地拥有多个数据中心。
- 绕过刮擦障碍物 Crawlbase(以前的 ProxyCrawl)让您可以规避大多数 Web 应用程序在抓取数据时设置的访问限制。 您可以使用它来规避任何可能阻止您快速有效地检索数据的封锁、验证码或其他障碍。
- 免费试用帐户 Crawlbase(以前的 ProxyCrawl)提供免费的 1,000 积分用于测试该工具。 在承诺付费计划之前,您可以使用免费帐户试用其功能。
Crawlbase(以前的 ProxyCrawl)如何工作
Crawlbase(以前的 ProxyCrawl)提供了一个简单的 抓取 API 这使您可以高效、快速地提取在线数据。 使用 API,即使您没有编程背景,也可以轻松地将 Web 内容提取到 Excel 电子表格中。
Crawling API URL 以以下基本部分开头:
https://api.crawlbase.com
您还需要提供以下两个强制性查询字符串参数:
- 身份验证令牌 这是授权您使用 API 的唯一令牌。
- 网址 这是您抓取其内容所需的 URL。
当您注册 Crawlbase(以前的 ProxyCrawl)帐户时,您将获得以下类型的身份验证令牌:
- 普通令牌 这是用于发出通用 Web 请求。
- JavaScript 令牌 这是为了抓取高级的动态网站。 如果网站通过 JavaScript 呈现其内容,那么使用此令牌可以帮助您顺利收集数据。
以下是将身份验证令牌添加到您的 API 请求的方法:
https://api.crawlbase.com/?token=ADD_TOKEN
第二个强制参数是目标网站的 URL。 URL 应以 HTTP 或 HTTPS 开头,并完全编码。 编码将 URL 字符串转换为所有 Web 浏览器普遍接受和熟悉的格式。 这使得通过 Internet 传输 URL 变得更加容易。
以下是添加要抓取的网站的 URL 的方法:
https://api.crawlbase.com/?token=ADD_TOKEN&url=ADD_URL
这就是您开始使用 Crawlbase(以前的 ProxyCrawl)提取在线数据所需的全部内容。 就是这么简单!
如果您将所需的参数信息添加到上述请求并在 Web 浏览器的地址栏上运行它,它将执行 API 并返回完整的目标网页。
接下来,让我们看看如何使用 Excel 来执行上述 API 请求。
使用 Crawlbase(以前的 ProxyCrawl)将数据从网站抓取到 Excel
Excel 提供了强大的 Web 查询功能,可让您获取外部数据并将其放置在 Excel 工作表中。 使用 Excel 网络查询功能的主要方法有两种:
- 使用 从网络 命令
- 使用 新查询 命令
让我们看看如何使用命令从使用 Crawlbase(以前称为 ProxyCrawl)的网站收集数据。
a) 使用来自 Web 命令
使用 从网络 命令,选择 Data 功能区并单击 从网络 选项。

接下来,您将看到 新网页查询 对话框,您可以在其中插入要提取其数据的网页的 URL。

在这种情况下,我们要从 这个网页. 而且由于我们想使用 Crawlbase(以前的 ProxyCrawl)来充分利用抓取过程,例如从匿名中受益并逃避任何访问封锁,因此我们必须对 URL 进行一些配置,如前所述。
去我们的 Crawlbase(以前的 ProxyCrawl)仪表板 并获取 JavaScript 令牌。 请记住,JavaScript 令牌允许我们从动态网站中提取内容。 您可以在注册帐户后获取您的令牌。
让我们也对 URL 进行编码。 您可以使用 这个免费的工具 对 URL 进行编码。
进行配置后,URL 如下所示:
https://api.crawlbase.com/?token=USER_TOKEN&url=https%3A%2F%2Fwww.timeanddate.com%2Fmoon%2Fphases%2F
那就是我们在地址栏中插入的 URL 新网页查询 对话框。 接下来,单击 Go 按钮。
将网页加载到对话框后,Excel 会在它在整个页面中找到的表格或数据旁边插入黄色的小箭头按钮。

您只需将鼠标光标放在指向所需数据的箭头上。 然后,选定的表格将以蓝色轮廓显示。

接下来,单击箭头。 整个表格的数据将以蓝色突出显示,箭头变为绿色复选标记按钮。

然后,点击 进口 按钮将所选数据加载到 Excel 工作表中。

接下来,Excel 会询问您打算将导入的数据放在哪里。 如果要将数据放在现有工作表中,请选择第一个单选按钮; 否则,选择第二个单选按钮以指示 Excel 在新工作表中插入数据。
对于这个 Excel 网页抓取教程,我们将选择第一个单选按钮。 然后,单击 OK 按钮。

Excel 可能需要一些时间来下载外部数据。 完成该过程后,输出如下所示:

就这么简单!
您现在可以根据您的特定需求来塑造和细化数据。
b) 使用新查询命令
您也可以使用 新查询 命令将网页的数据转换为 Excel 电子表格。 这主要适用于表格格式的数据。
要使用此命令创建新的 Web 查询,请选择 Data 功能区并单击 新查询 选项。

请注意,此命令提供了几个用于检索外部数据并将其插入 Excel 工作表的选项。 对于本教程,让我们选择 从其他来源 和 从网络 选项。

接下来,您将看到 从网络 对话框,您可以在其中插入要提取其数据的网页的 URL。

在这种情况下,我们要从 这个网页. 正如我们之前解释的那样,我们将通过 Crawlbase(以前的 ProxyCrawl)传递 URL。
以下是 URL 的外观:
https://api.crawlbase.com/?token=USER_TOKEN&url=https%3A%2F%2Fwww.eia.gov%2Fpetroleum%2F
那就是我们在地址栏中插入的 URL 从网络 对话框。 接下来,单击 OK 按钮。

Excel 现在将尝试通过 Crawlbase(以前的 ProxyCrawl)与目标网页建立匿名连接。

接着,将 航海家 窗口将显示目标网页上可用的表格的左侧列表。

如果您选择任何表格,其预览将填充在右侧。 让我们选择 批发现货石油价格…表。

接下来我们点击 加载 窗口底部的按钮。 请注意,还有其他选项可用于完成其他任务,例如单击 编辑 按钮在下载前编辑数据。

点击后 加载 按钮,外部数据将被下载到 Excel 电子表格中。 输出如下所示:

而已!
如何自动刷新 Excel 数据
Excel 允许您自动刷新下载的数据,而不是重新设置抓取过程。 这对于使提取的数据保持最新非常重要,尤其是在您处理目标网页上经常更改的数据时。
但是,如果您反复请求网站获取其数据,该网站可能会注意到您的行为不正常并阻止您访问其内容。 这就是您需要使用 Crawlbase(以前称为 ProxyCrawl)的原因。 它将帮助您像普通用户一样访问网站,并规避任何访问限制。
要刷新 Web 查询的数据,您只需单击数据的任意单元格并选择 全部刷新 选项下 Data 丝带。 然后,在下拉选项下,单击 全部刷新 如果您想更新多个数据或 刷新 如果您只想更新单个数据。

您还可以指示 Excel 根据您指定的条件自动刷新数据。 为此,请单击 连接属性... 选项。

连接属性 将出现对话框,允许您控制抓取数据的刷新方式。 在下面 用法 选项卡,您可以启用后台刷新,设置特定时间段进行更新,或选择其他选项。
请注意,该对话框还允许您完成其他任务,例如向连接添加描述、定义要获取的最大记录数等等。
指定刷新条件后,单击 OK 按钮。

结论
这就是将数据从网站抓取到 Excel 的方法。 借助 Excel 网络查询功能,您可以轻松地从网站下载数据并将其集成到电子表格中。
如果 Excel 与 Crawlbase(以前的 ProxyCrawl)等功能强大的工具相结合,您可以使您的数据提取任务富有成效、顺利和充实。
Crawlbase(以前的 ProxyCrawl)允许您从网站大规模提取信息,同时保持匿名。 它是您避免遇到访问阻塞所需的工具,尤其是在您自动刷新抓取的 Excel 数据时。
点击这里创建 一个免费的 Crawlbase(以前的 ProxyCrawl)帐户.
刮刮快乐!