在这篇博客中,我们将展示如何使用 Crawlbase 智能 AI 代理提取选定亚马逊产品的 ASIN,我们还将展示如何通过 Crawlbase Crawling APIs 参数传递给智能 AI 代理,以增强抓取效果,并更好地控制数据抓取方式。最终,我们将获得一个结构化的 Amazon 产品页面 JSON 数据,方便使用。我们还将解答一些关于 Amazon 网页抓取和 Amazon 产品页面(又称 ASIN 页面)的常见问题。
您可以使用我们的亚马逊抓取工具从平台提取各种数据。 现在就来试试.
一步步:使用 Crawlbase 智能AI代理
步骤1: 首先创建一个免费的 Crawlbase 帐户来访问您的智能 AI 代理令牌。
步骤2: 导航到 Crawlbase 智能AI代理仪表板 检索“连接详细信息”部分下的免费访问令牌。

步骤3: 选择您要抓取的亚马逊产品。 对于这个例子,让我们抓取这个 OtterBox iPhone 14 Pro Max(仅限)通勤系列保护壳 亚马逊产品。 网址如下:
https://www.amazon.com/OtterBox-COMMUTER-iPhone-Pro-ONLY/dp/B0B7CH8DMR/
步骤4: 要向智能 AI 代理发送请求,请复制以下行并将其粘贴到您的终端中:
1 | 卷曲 -x "http://chingyeel@cchphealthplan.com:8012”-k“https://www.amazon.com/OtterBox-COMMUTER-iPhone-Pro-ONLY/dp/B0B7CH8DMR/” |
这个curl命令也可以在 Crawlbase 智能AI代理文档。 请记住将“USER_TOKEN”替换为您的访问令牌,并插入您要抓取的产品的 URL。
如你所见,curl 命令有两个选项,-x 相当于 —proxy,允许用户发送代理主机:端口以及代理身份验证。 Crawlbase Smart AI Proxy 无需密码进行身份验证,因为代理用户名是唯一且安全的,使用用户名或 USER_TOKEN 进行代理身份验证即可。但是,如果您需要在网页抓取应用程序中添加密码,请添加任何您喜欢的字符串,例如公司名称,或者直接添加 “Crawlbase=.
在 curl 命令,我们还添加了 -k 标志(或 --insecure)代表“不安全”。 当您使用 -k 标记为 curl,它指示命令允许连接到受 SSL/TLS 保护的 (HTTPS) 站点,而无需验证服务器提供的证书的真实性。此选项在 Smart AI Proxy 中是必需的,它允许我们处理转发到 Crawling API 并在将请求发送到原始请求的网站之前绕过验证码和阻止。向智能 AI 代理发送请求时,必须使用 -k 或 —insecure 标志。
步骤5: 如果执行正确,您应该会收到类似于此屏幕截图中所示的 HTML 响应。

在上面的示例中,我们抓取了目标亚马逊页面,我们可以看到我们要查找的 ASIN 存在为 currentAsin:

使用 Python 和智能 AI 代理抓取亚马逊 ASIN
在上一节中,我们使用curl发出一个基本请求,该请求返回我们提取ASIN的产品页面的抓取数据。 为了更高级的用法,我们现在将深入研究使用 Python 自动执行这些请求并解析响应。
对于 Python 代码,我们将使用 requests 仅库并创建一个名为的文件 smartproxy_amazon_scraper.py.
1 | 进口 要求 |
然后你可以简单地在你的程序中运行上面的脚本 terminal - python smartproxy_amazon_scraper.py.

这是您在终端中以 HTML 形式获得的成功响应。 您可以解析此响应并构建数据,然后将其存储在数据库中以便于检索和分析。
使用以下方式自定义请求 Crawling API 参数
让我们更深入地探索如何使用 Crawlbase“ Crawling API 参数。您可以简单地将这些参数作为前缀的标头传递给智能 AI 代理 CrawlbaseAPI-Parameters: ... 例如:
示例#1:
在此 Python 脚本中,我们设置 CrawlbaseAPI-Parameters 至 autoparse=true。此 API 调用指示智能 AI 代理自动解析页面并返回 JSON 响应。然后,您可以根据需要使用这些结构化数据。
1 | # pip 安装请求 |
在终端中运行上述调用后,您将获得 JSON 格式的响应,并且您可以看到数据现在看起来更加结构化。

例#2:
为了实现对来自特定国家/地区的请求的地理定位,只需包含 “国家=”参数,使用两个字符的国家/地区代码,例如 “国家=美国”。 见下文:
1 | # pip 安装请求 |
在终端中运行上述调用后,您将获得 HTML 格式的响应,如下所示:

您可以将输出 HTML 保存为 smartproxy_amazon_scraper.html 在您的本地计算机上。 当您在浏览器中打开 HTML 文件时,您会注意到页面下方显示“United Kingdom” “交付给” 这意味着您对亚马逊的请求是从 GB 路由的,正如我们在上面的代码中指示 API 的那样。

在上面两个例子中,我们向你展示了如何使用 Crawlbase 智能 AI 代理以及如何轻松利用我们的潜力 Crawlbase Crawling API 通过 CrawlbaseAPI参数。 具体来说,我们介绍了 autoparse=true 参数,它提供结构化输出以方便数据处理,以及 country=GB 有助于目标地理定位的参数(或任何有效的两个字母的国家/地区代码)。
Crawlbase 智能 AI 代理使重定向变得简单!
通常,代理不会进行 URL 重定向,但是 Crawlbase Smart AI Proxy 就是这样。这就是我们称之为 Smart AI Proxy 的原因。Smart AI Proxy 使用 Crawling API 通过拦截传入请求、评估用户设置的重定向规则以及向客户端发送适当的 HTTP 状态代码来处理 URL 重定向的功能。它根据指定的重定向类型(例如 301 或 302)有效地将用户从源 URL 路由到目标 URL。
让我们通过定位与之前相同的 URL 来演示一种重定向场景,但这次我们将删除 “万维网” 前缀。修改后的 URL 将触发重定向,展示如何 Crawlbase Smart AI Proxy 可以处理此类重定向。生成的 URL 不带“www”前缀,如下所示:
https://amazon.com/OtterBox-COMMUTER-iPhone-Pro-ONLY/dp/B0B7CH8DMR/
我们将继续使用之前提供的 Python 代码,并且用于设置 URL 重定向的 API 调用将遵循与之前相同的结构。 代码片段如下所示:
1 | # pip 安装请求 |
在终端中执行上述 API 调用后,您将收到 JSON 格式的响应。 在响应中,您可以观察到 “原始状态” 字段有价值 “301。”

使用智能 AI 代理抓取亚马逊 ASIN
大规模抓取亚马逊 ASIN 数据,让开发者能够快速获取重要的产品信息。这些关键数据对于研究市场、制定价格和比较竞争对手至关重要。通过使用 网页抓取工具,用户可以自动从大型产品列表中收集ASIN,节省大量时间和精力。
总而言之, Crawlbase 智能AI代理 作为一个革命性的解决方案,提供自定义地理定位、无限带宽、人工智能驱动的爬行、 轮换IP地址,且成功率高。 其多样化的功能,包括庞大的代理池、匿名爬行和实时监控,使其成为开发人员的必备工具,使他们能够在网络数据采集的动态领域中蓬勃发展。 现在注册 并受益于 5000 个免费请求 - Crawlbase 智能AI代理!
常见问题
问:什么是亚马逊 ASIN?
A: 亚马逊 ASIN(亚马逊标准识别号)是分配给在亚马逊市场上销售的产品的唯一 10 个字符的字母数字代码。 它充当产品标识符,用于区分亚马逊庞大目录中的商品。 它总是开始于 “B0。”
问:抓取亚马逊信息是否合法?
A: 当数据可公开访问时,抓取亚马逊数据是完全合法的。 然而,避免抓取需要登录凭据的数据并确保收集的数据集不包含任何敏感或受版权保护的内容至关重要。
问:什么是SKU?
A: SKU(库存单位)是卖家或零售商分配的唯一代码,用于跟踪和管理其库存。 与 ASIN 不同,SKU 并不特定于亚马逊平台,可以跨多个销售渠道使用
问:为什么抓取亚马逊上列出的产品的 ASIN 很重要?
- 抓取亚马逊上列出的产品的 ASIN 非常重要,因为 ASIN 是亚马逊庞大市场中每件商品的唯一标识符。
- 通过网络抓取检索 ASIN,开发人员可以收集重要的产品详细信息、定价、可用性和客户评论,使他们能够构建自定义应用程序、分析趋势并跨类别比较产品。
- 抓取 ASIN 使开发人员能够将亚马逊的产品数据无缝集成到他们自己的应用程序和网站中。
- 通过跟踪 ASIN 并监控其随时间的表现,企业和开发人员可以优化营销策略、管理库存并在电子商务领域保持竞争力。
问: Crawlbase 智能 AI 代理?
A: 智能 AI 代理的主要功能包括 轮换IP地址 用于在抓取过程中保持匿名。 轮换 IP 地址池包括 140亿住宅 与 数据中心代理智能AI代理在绕过验证码挑战方面也非常有效,并确保爬取和抓取的成功率高达99%。智能AI代理还提供自定义地理位置,方便访问特定区域的数据。









