您有兴趣了解亚马逊庞大的产品数据库中隐藏的见解吗? 如果是这样,那么您来对地方了。 在这个一步一步的亚马逊 数据抓取 指南中,我们将引导您完成抓取亚马逊产品数据并利用其力量促进业务增长的过程。 我们将涵盖从了解产品数据的重要性到处理验证码和反抓取措施的所有内容。 因此,拿起您的工具,准备好进入亚马逊数据抓取的世界吧!
我们使用 爬虫库 Crawling API 结合 JavaScript 来高效抓取亚马逊数据。JavaScript 与网络元素互动的动态功能,加上 API 的反抓取机制,确保了数据收集过程的无缝衔接。最终结果将是丰富的亚马逊产品数据,以 HTML 和 JSON 格式整齐地组织起来。
目录
- 如何免费抓取亚马逊数据
- 使用 Crawlbase Scrapers 抓取关键的亚马逊产品数据内容
- 使用 Crawlbase 的集成刮刀抓取亚马逊产品评论
- 使用 Crawlbase 克服亚马逊数据抓取挑战
- Amazon Data Scraper 的应用
- 使用 Crawlbase 创建 Amazon Scraper
- 常见问题
如何免费抓取亚马逊数据
步骤1: 注册到 爬虫库 并获取您的私人令牌。 您可以从以下位置获取此令牌 Crawlbase 帐户文档 您帐户中的部分。

步骤2: 选择您要抓取的特定亚马逊产品页面。 为此,我们选择了亚马逊产品页面 飞利浦 A4216 无线运动耳机。 选择具有不同元素的产品页面来展示抓取过程的多功能性至关重要。

步骤3: 安装 Crawlbase node.js 库。
首先,确认您的系统上是否安装了Node.js,如果没有安装,您可以从以下位置下载并安装它 点击这里,然后继续安装 Crawlbase Node.js 库 通过 NPM :
npm i crawlbase
步骤4: 使用以下命令创建 amazon-product-page-scraper.js 文件:
touch amazon-product-page-scraper.js
步骤5: 配置Crawlbase Crawling API.这涉及建立必要的 参数 以及 API 运行的端点。 将以下脚本粘贴到您在步骤 4 中创建的 amazon-product-page-scraper.js 文件中。为了运行以下脚本,请粘贴此命令 node amazon-product-page-scraper.js
在终端:
1 | // 导入 Crawling API |
上述脚本展示了如何使用 Crawlbase 的 Crawling API 访问和检索亚马逊产品页面的数据。通过设置 API 令牌、定义目标 URL 并发出 GET 请求。此代码的输出将是指定亚马逊产品页面的原始 HTML 内容 (https://www.amazon.com/dp/B099MPWPRY)
。 它将显示在控制台中,显示页面的未格式化的 HTML 结构。 这 console.log(response.body)
行将此 HTML 内容打印到控制台,如下所示:

使用 Crawlbase Scrapers 抓取关键的亚马逊产品数据内容
在上面的例子中,我们讨论了如何只获取亚马逊产品数据(HTML)的基本结构。但有时,我们不需要这些原始数据,而是想要页面中的重要内容。不用担心!Crawlbase Crawling API 内置 亚马逊刮板 从亚马逊页面抓取重要内容。为了实现这一点,我们需要在使用 Crawling API。这个“scraper”参数帮助我们以 JSON 格式获取页面的好部分。我们正在对同一个文件进行编辑 amazon-product-page-scraper.js
。 让我们看一下下面的示例以获得更好的了解:
1 | // 导入 Crawling API |
上述代码块的输出将是解析后的 JSON 响应,其中包含特定的亚马逊产品详细信息,例如产品名称、描述、价格、货币、 父 ASIN、卖家名称、库存信息等。 该数据将显示在控制台上,展示从指定亚马逊产品页面提取的有组织的信息。

现在,我们将从前面提到的 JSON 响应中检索亚马逊产品的名称、价格、评级和图像。 为此,我们必须将 JSON 响应存储在名为的文件中 "amazon-product-scraper-response.json"
。 为此,请在终端中执行以下脚本:
1 | // 导入需要的模块 |
此代码成功抓取 Amazon 产品页面、检索 JSON 响应并将其保存到文件中。 控制台中的一条消息表明 JSON 响应已保存到 'amazon-product-scraper-response.json'
。 如果这些步骤期间发生任何错误,您将在控制台中看到相应的错误消息。

抓取亚马逊产品名称
1 | // 导入fs模块 |
上面的代码块从名为的 JSON 文件中读取数据 "amazon-product-scraper-response.json"
使用 fs(文件系统)模块 Node.js
。 然后它尝试解析 JSON 数据,提取特定值(在本例中为 "name"
来自的财产 "body"
对象),并将其打印到控制台。 如果出现任何错误,例如 JSON 数据格式不正确或指定的属性不存在,则会显示相应的错误消息。

刮产品价格
1 | // 导入fs模块 |
此代码使用 Node.js fs
模块与文件系统交互并读取名为的 JSON 文件的内容 "amazon-product-scraper-response.json"
。 读取文件后,它会尝试解析其中包含的 JSON 数据。 如果解析成功,会提取出 "price"
来自的财产 "body"
JSON 数据的对象。 然后,提取的价格值将打印到控制台。

抓取亚马逊产品评级
1 | // 导入fs模块 |
该代码读取名为的 JSON 文件的内容 "amazon-product-scraper-response.json"
。 然后它尝试解析 JSON 数据并提取存储在密钥下的值 "customerReview"
来自 "body"
目的。 提取的值似乎代表产品的评级,打印为“Rating:”,后跟该值。

抓取亚马逊产品图片
1 | // 导入fs模块 |
上面的脚本尝试解析 JSON 数据并提取存储在密钥下的值 "mainImage"
字幕可视电话用于 "body"
目的。 提取的值(可能代表产品图像)打印为 "Image:"
接下来是值。 获得的图像值将记录到控制台。

使用 Crawlbase 的集成刮刀抓取亚马逊产品评论
在此示例中,我们将抓取同一亚马逊产品的客户评论。 我们抓取的目标 URL 是 https://www.amazon.com/product-reviews/B099MPWPRY
. Crawlbase 的 Crawling API 有一个专为亚马逊产品评论设计的集成抓取工具。此抓取工具允许我们从亚马逊产品中检索客户评论。要实现这一点,我们需要做的就是将“抓取工具”参数合并到我们对 Crawling API,为其分配值 "amazon-product-reviews"
。 让我们研究下面的示例以获得更清晰的了解:
1 | // 导入 Crawling API |
运行上述脚本将通过 Crawlbase 提取亚马逊产品评论数据 Crawling API。代码执行时,它会获取与指定 Amazon 产品页面相关的评论信息。这些数据将以 JSON 格式显示在控制台上,提供有关客户体验和意见的宝贵见解。结构化输出展示了评论的各个方面,包括评论者姓名、评分、评论日期、评论标题等。

我们通过详细的分步指南揭示了数据提取的潜力。我们使用了 Crawlbase 的 Crawling API 创建亚马逊网络爬虫,提取复杂的产品信息,如描述、价格、卖家和库存情况。此外,该指南还展示了 Crawlbase 如何 Crawling API 无缝地促进客户评论的提取,提供丰富的信息,如评论者姓名、评分、日期和评论文本。
使用 Crawlbase 克服亚马逊数据抓取挑战

爬虫库 Crawling API 旨在解决与网络抓取相关的挑战,特别是在抓取亚马逊产品数据的情况下。随着“亚马逊网红是否获得免费产品”等问题的出现以及对网红营销数据的需求不断增长,Crawlbase 提供了一种提取产品信息以支持市场分析和决策的解决方案。以下是 Crawlbase 的使用方法 Crawling API 可以帮助缓解这些挑战:
- 防刮措施: 爬虫库 Crawling API 利用先进的技术绕过 CAPTCHA、IP 阻止和用户代理检测等反抓取机制。这样可以无缝收集数据而不会触发警报。
- 动态网站结构: 该 API 能够利用智能算法来适应网站结构的变化,自动调整抓取模式以匹配亚马逊页面不断变化的布局。
- 法律和道德问题: Crawlbase 尊重亚马逊等网站的使用条款,确保以负责任和道德的方式进行抓取。 这最大限度地减少了法律诉讼和道德困境的风险。
- 数据量和速度: 该 API 通过在多个服务器之间分配抓取任务来有效管理大量数据,从而实现快速且可扩展的数据提取。
- 产品信息的复杂性: Crawlbase的 Crawling API 采用智能数据提取技术,可以准确捕获复杂的产品信息,例如评论、定价、图像和规格。
- 速率限制和 IP 阻止: API 通过智能限制请求和轮换 IP 地址来管理速率限制和 IP 阻止,确保数据收集保持不间断。
- 验证码挑战: Crawlbase的 Crawling API 可以通过自动解决机制处理 CAPTCHA,从而无需人工干预并加快亚马逊抓取过程。
- 数据质量和完整性: API 提供数据验证和清理功能,以确保抓取的数据准确且最新,从而降低使用过时或不正确信息的风险。
- 抓取脚本的稳健性: API 的稳健架构旨在处理网站结构中的各种场景、错误和变化,从而减少持续监控和调整的需要。
爬虫库 Crawling API 提供全面的解决方案,解决网络抓取 Amazon 数据的复杂性和挑战。通过提供智能抓取技术、强大的架构和遵守道德标准,该 API 使企业能够收集有价值的见解,而不会遇到与网络抓取相关的典型障碍。
Amazon Data Scraper 的应用

- 亚马逊抓取数据的一个关键用途是分析客户评论以改进产品。通过仔细检查反馈,企业可以确定产品可以改进的地方,从而提高客户满意度。
- 抓取数据的另一个有价值的应用是识别市场趋势和需求模式。 通过分析客户行为的模式和趋势,企业可以预测消费者的需求并相应地调整其产品。 这使他们能够在竞争中保持领先地位并提供高需求的产品或服务。
- 监控竞争对手的定价策略是抓取数据的另一个重要用途。 通过仔细研究竞争对手如何为其产品定价,企业可以就其定价调整做出明智的决策。 这确保了他们在市场上保持竞争力,并可以实时调整定价策略。
- 电子商务企业可以使用抓取的产品数据来生成网站内容,例如产品描述、功能和规格。 这可以改善搜索引擎优化 (SEO) 并增强在线购物体验。
- 品牌可以通过抓取产品数据并将其与正品进行比较来监控亚马逊是否存在未经授权或假冒产品。
使用 Crawlbase 构建 Amazon Scraper
总之,亚马逊数据抓取领域为企业提供了释放隐藏见解和战略优势的宝贵机会。 这份分步亚马逊数据抓取指南阐明了亚马逊产品数据的重要性及其推动业务增长的潜力。 通过有效提取和分析这些数据,公司可以在各个运营方面做出明智的决策。
亚马逊是一座数据金矿。我们的免费电子书《自动化亚马逊数据抓取》教你如何像专业人士一样抓取世界上最大的电子商务平台上各种数据源。
免费下载 亚马逊爬取指南 并将您的网络抓取技能提升到新的水平!
常见问题
问: 有可能抓取亚马逊数据吗?
由于内容的开放性,可以从亚马逊抓取公共数据,例如产品列表、价格、描述和客户评论。 网站用户可以访问这些数据,并且可以通过网络抓取技术收集这些数据。
然而,需要注意的是,亚马逊的使用条款禁止某些类型的自动数据收集,因此任何有兴趣抓取亚马逊数据的人都应查看并遵守其条款,以避免任何法律或道德问题。
问:亚马逊商品数据有哪些不同类型?
销售排名和类别信息:提供有关亚马逊上产品的受欢迎程度和竞争力的宝贵见解。 通过分析销售排名数据,您可以识别高需求商品并战略性地定位您自己的产品。 此外,了解产品的类别可以让您了解市场趋势并相应地调整您的营销策略。
产品描述和特点:在吸引潜在客户方面发挥着至关重要的作用。 详细的产品描述和引人注目的语言可以帮助消费者了解特定产品的优点和独特的卖点。 同样,突出关键功能可以清楚地说明该产品与同类产品的区别。
客户问题与解答:为潜在买家提供有价值的社会证明。 通过抓取这些数据,您可以获取已购买或正在考虑购买该产品的客户的实时反馈。 这种洞察力使您能够解决常见问题或误解,提高客户满意度,同时提高销售转化率。
问:什么是亚马逊 ASIN?
亚马逊标准识别码 (ASIN) 是分配给亚马逊平台上列出的每个产品的唯一标识符。 这些字母数字代码对于产品编目和区分至关重要,这使得它们对于各种数据分析和抓取任务至关重要。
了解更多: 大规模抓取亚马逊 ASIN:Crawlbase 的强大功能 Smart Proxy
问:抓取亚马逊数据合法吗?
从亚马逊抓取信息是合法的。抓取产品描述、详细信息、评级、价格或对某一产品的反应数量等信息是绝对合法的。但要小心个人信息和版权保护。
例如,在抓取产品评论时,您必须考虑潜在的个人数据,例如评论者的姓名和头像,这些数据需要仔细处理。 此外,在某些情况下,评论文本可能受到版权保护。 建议在处理此类数据时格外小心并可能寻求法律建议。
问:是否可以检测网络抓取活动?
是的,反机器人软件可以通过检查您的 IP 地址、浏览器设置、用户代理和其他特征来检测抓取。 网站被发现后会显示验证码; 如果不解决,您的IP地址将被列入黑名单。
问:如何在抓取亚马逊数据时绕过 CAPTCHA?
验证码是收集公共数据时最具挑战性的障碍之一,为了克服验证码,您应该尽可能避免遇到它们。 当然,重要的是要避免它们可能很困难。 以下是一些可以帮助您实现目标的提示:
- 使用无头浏览器。
- 使用值得信赖的代理并轮换您的 IP 地址。
- 通过在请求之间插入随机中断来降低抓取速度。