Gumtree 是最受欢迎的在线分类广告网站之一,用户可以在这里购买和出售本地产品或服务。无论您是在寻找汽车、家具、房产、电子产品,甚至是工作,Gumtree 都有数百万个定期更新的列表。Gumtree 每月拥有超过 15 万独立访客,并且随时有超过 1.5 万个活跃广告,因此它提供了大量数据,可用于价格比较、竞争对手分析或跟踪趋势。
在本博客中,我们将向您介绍如何使用 Python 抓取 Gumtree 搜索列表和单个产品页面。我们还将展示如何将数据存储在 CSV 文件中以便于分析。最后,我们将讨论如何使用 爬虫库 Smart Proxy 以避免诸如 IP 阻止之类的问题。
我们潜入吧!
目录
- 安装 Python 和所需的库
- 选择 IDE
- 检查 HTML 中的 CSS 选择器
- 编写搜索列表抓取工具
- 在 Gumtree 中处理分页
- 将数据存储在 CSV 文件中
- 完整代码示例
- 检查 HTML 中的 CSS 选择器
- 编写产品页面抓取工具
- 将数据存储在 CSV 文件中
- 完整代码示例
- Crawlbase 的好处 Smart Proxy
- 整合 Crawlbase Smart Proxy
为什么要抓取 Gumtree 数据?
抓取 Gumtree 数据有很多用处。作为领先的在线分类广告平台,Gumtree 为各种产品连接买家和卖家。以下是抓取 Gumtree 的一些原因:

- 市场趋势分析:查看产品价格和供应情况以跟踪市场。
- 竞争对手研究:监控竞争对手的列表和定价以保持领先。
- 识别热门产品:查找流行商品和高需求产品。
- 明智的业务决策:使用数据做出买卖选择。
- 价格跟踪:跟踪一段时间内的价格变化以发现交易或趋势。
- 用户行为洞察:分析列表以了解用户想要什么。
- 强化营销策略:根据当前趋势优化您的营销。
在以下部分中,我们将向您展示如何有效地抓取 Gumtree 搜索列表和产品页面。
从 Gumtree 中提取的关键数据点
抓取 Gumtree 时,您需要知道要抓取哪些数据。以下是抓取 Gumtree 时需要关注的关键数据点:
- 产品名称:产品标题通常位于列表的主标题中。这是最重要的部分。
- 价格:标价是卖家对产品的要求价格。监控价格将帮助您计算出市场价值。
- 地址:卖家的所在地通常会在列表中显示。这有助于了解区域需求和供应。
- 描述:产品描述包含产品的所有详细信息、状况、特征和规格。
- 图片网址:图片 URL 对于视觉呈现很重要。帮助您了解产品的状况和吸引力。
- 列表网址:需要直接链接到产品页面才能获取更多详细信息或联系卖家。
- 上市日期:发布列表的日期可以帮助您追踪该商品的供应时间并能表明需求。
- 卖家用户名:卖家的名字可以让您了解其可信度和可靠性,尤其是在您比较多个列表时。
设置 Python 环境
在开始抓取 Gumtree 数据之前,您需要设置 Python 环境。这涉及安装 Python 和所需的库。这将为您提供发送请求、提取数据并将其存储以供分析的工具。
安装 Python 和所需的库
首先确保你的机器上安装了 Python。如果你没有安装 Python,你可以从 Python官方网站。安装后,打开终端或命令提示符并使用 pip 安装所需的库。
以下是抓取 Gumtree 所需的关键库的列表:
- 要求:发送 HTTP 请求并接收响应。
- 美丽汤:用于解析HTML并提取数据。
- 熊猫:用于以 CSV 格式组织和保存数据。
运行以下命令来安装这些库:
1 | pip install 请求 beautifulsoup4 pandas |
选择 IDE
集成开发环境 (IDE) 使编码更加轻松、高效。以下是一些流行的 Python IDE:
- PyCharm:功能强大、功能齐全的 IDE,具有智能代码辅助和调试工具。
- Visual Studio代码:一个轻量级的代码编辑器,具有广泛的用于 Python 开发的扩展。
- Jupyter笔记本:非常适合以较小的块运行代码,从而更容易测试和调试。
设置好环境后,我们就开始抓取 Gumtree 列表。接下来,我们将查看 HTML 结构,找到包含我们所需数据的元素的 CSS 选择器。
抓取 Gumtree 搜索列表
在本节中,我们将学习如何从 Gumtree 抓取搜索列表。我们将检查 HTML 结构、编写抓取工具、处理分页并将数据存储在 CSV 文件中。
检查 HTML 中的 CSS 选择器
要从 Gumtree 获取数据,我们首先需要找到包含信息的 HTML 元素。打开浏览器的开发人员工具并检查列表。

以下是一些关键选择器:
- 檔案/文件名称:发现于
<div>
带有属性的标签data-q="tile-title"
. - 价格:位于
<div>
带有属性的标签data-testid="price"
. - 地址:发现于
<div>
带有属性的标签data-q="tile-location"
. - 网址:产品链接位于
<a>
标签的href
属性,由属性标识data-q="search-result-anchor"
.
我们将使用这些 CSS 选择器来提取所需的数据。
编写搜索列表抓取工具
让我们编写一个函数,向 Gumtree 发送请求,提取所需的数据并返回它。
1 | 进口 要求 |
该功能从搜索结果页面中提取标题、价格、位置和 URL。
在 Gumtree 中处理分页
要抓取多个页面,我们需要处理分页。后续页面的 URL 通常包含页面参数,例如 ?page=2
我们可以修改爬虫来从多个页面抓取数据。
1 | DEF scrape_gumtree_multiple_pages(base_url、max_pages): |
此函数遍历指定数量的页面并收集每个页面的列表。
将数据存储在 CSV 文件中
为了存储抓取的数据,我们将使用 pandas 库将结果写入 CSV 文件。
1 | 进口 大熊猫 as pd |
此函数获取列表列表并将其保存到具有指定文件名的 CSV 文件中。
完整代码示例
这是抓取 Gumtree 搜索列表、处理分页并将结果保存到 CSV 文件的完整代码。
1 | 进口 要求 |
该脚本抓取 Gumtree 的产品搜索列表,处理分页,并将数据保存在 CSV 文件中以供进一步分析。
gumtree_listings.csv
快照:

抓取 Gumtree 产品页面
现在我们已经抓取了搜索列表,下一步是抓取单个产品页面以获取更多信息。我们将检查产品页面的 HTML 结构,编写抓取程序,并将数据保存在 CSV 文件中。
检查 HTML 中的 CSS 选择器
首先,检查 Gumtree 产品页面以查找包含数据的 HTML 元素。在浏览器中打开产品页面并使用开发人员工具查找:

- 产品名称:位于
<h1>
带有属性的标签data-q="vip-title"
. - 价格:在
<h3>
带有属性的标签data-q="ad-price"
. - 描述:位于
<p>
带有属性的标签itemprop="description"
. - 卖方名称:在
<h2>
带有类的标签seller-rating-block-name
. - 产品图片网址: 在发现
<img>
标签内的具有属性data-testid="carousel"
,图片网址存储在src
属性。
编写产品页面抓取工具
我们现在将创建一个函数,它接受产品页面 URL、获取页面的 HTML 内容并提取所需的信息。
1 | DEF scrape_gumtree_product_page(网址): |
该函数向产品页面URL发送请求,解析HTML,并提取标题、价格、描述、卖家名称和产品图片URL。
将数据存储在 CSV 文件中
一旦我们抓取了数据,我们就会将其存储在一个 CSV 文件中。我们可以重复使用 save_to_csv
我们之前用于搜索列表的功能。
1 | 进口 大熊猫 as pd |
完整代码示例
这是抓取产品页面、提取所需详细信息并将其存储在 CSV 文件中的完整代码。
1 | 进口 要求 |
此脚本从各个 Gumtree 产品页面抓取产品详细信息,并将提取的信息保存在 CSV 文件中。您可以将更多产品 URL 添加到 product_urls
列表来抓取多个页面。
gumtree_product_data.csv
快照:

使用 Crawlbase 优化爬取 Smart Proxy
在抓取 Gumtree 等网站时,您可能会遇到速率限制或 IP 禁令。要顺利高效地抓取,请使用 爬虫库 Smart Proxy。此服务可帮助您绕过限制并提高您的抓取能力。
Crawlbase 的好处 Smart Proxy
- 避免 IP 封锁:Crawlbase 会轮换 IP 地址,因此您的请求是匿名的,您不会被阻止。
- 验证码处理:它为您处理 CAPTCHA 挑战,以便您可以不间断地进行抓取。
- 更快的抓取:通过使用多个 IP,您可以快速发出请求并更快地收集数据。
- 地理定位:从特定位置选择代理来抓取本地化数据并获取更相关的结果。
整合 Crawlbase Smart Proxy
使用 Crawlbase Smart Proxy 在 Gumtree 抓取工具中,设置请求通过代理进行路由。以下是如何执行此操作的示例:
1 | 进口 要求 |
在此代码片段中,替换 '_USER_TOKEN_'
使用您的实际 Crawlbase 令牌。您可以通过以下方式获取 创建一个帐户 在 Crawlbase 上 proxies
字典通过 Crawlbase 路由你的请求 Smart Proxy,帮助您避免阻塞并保持快速的抓取速度。
通过使用 Crawlbase 优化你的 Gumtree 抓取过程 Smart Proxy,您可以更有效地收集数据并处理大量数据,而无需面对常见的网络抓取问题。
使用 Crawlbase 优化 Gumtree 抓取
抓取 Gumtree 数据对您的项目非常有用。在本博客中,我们展示了如何使用 Python 抓取搜索列表和产品页面。通过检查 HTML 并使用 Requests 库,您可以提取有用的数据,例如标题、价格和描述。
通过使用以下工具确保你的抓取顺利进行 爬虫库 Smart Proxy。它将帮助您避免 IP 阻止并保持快速的抓取速度,以便您可以专注于获取所需的数据。
如果您有兴趣探索从其他电子商务平台进行抓取,请随意探索以下综合指南。
📜 如何抓取亚马逊
📜 如何刮沃尔玛
📜 如何抓取全球速卖通
📜 如何抓取 Houzz 数据
📜 如何抓取 Tokopedia
请联系我们 支持 如果您有任何疑问,祝您抓取愉快。
常见问题
问:从 Gumtree 抓取数据合法吗?
是的,只要您遵守其服务条款,抓取 Gumtree 数据通常是合法的。请务必检查网站的政策,确保您没有违反任何规则。始终以负责任和合乎道德的方式使用抓取的数据。
问:我可以从 Gumtree 抓取什么数据?
您可以从 Gumtree 抓取各种类型的数据,包括产品标题、价格、描述、图片和卖家信息。这些数据可以帮助您分析市场趋势或比较不同商品的价格。
问:如何避免在抓取数据时被阻塞?
为了避免在抓取时被阻止,请考虑使用轮换代理服务,例如 爬虫库 Smart Proxy。这将帮助您管理 IP 地址,使您的抓取看起来像普通用户行为。此外,在请求之间实施延迟以减少被阻止的机会。