凭借在美国电子商务市场超过 45% 的份额,抓取亚马逊评论可以成为您从客户评论中提取有价值信息的过程。 产品开发、市场研究和竞争分析可以从这些数据中受益。 亚马逊以其技术创新颠覆了成熟的行业。 我们还可以收集有用的信息,因为它是世界上最大的在线零售商。
您可以通过多种方式从不同的网站获取数据。 您可以浏览任何网站,将您想要的信息复制并保存到本地硬盘,以后就可以访问了。 这听起来很简单,但如果您需要浏览数百甚至数千页才能找到所需信息怎么办? 手动执行任务不再可行。 正如他们所说,现代问题需要现代解决方案。
从网站获取数据的一种简单有效的方法是抓取数据。 使用这种技术,您可以从网页中提取数据并将其存储在本地存储或数据库中。 本文旨在说明为什么应该抓取亚马逊评论、使用 Node 抓取亚马逊客户评论的好处以及使用 Node.js 代码抓取亚马逊评论。
为什么要抓取亚马逊?
毫无疑问,亚马逊是全球领先的电子商务平台。 尽管如此,由于他们提供的产品数量庞大且种类繁多,他们继续为在线销售的任何人提供最有价值的数据和分析。

像亚马逊这样的电子商务平台包含对在线零售至关重要的大量数据。 许多企业都受益于抓取亚马逊数据,因为它很容易访问,而且任何人都可以访问。 您可以通过收集竞争产品的数据来制定准确的业务战略并做出决策。 此外,您可以分析您的产品或竞争对手的产品评论,以评估其性能并确定改善客户体验的方法。
在大多数情况下,消费者评论在评估各种电子商务业务决策时提供了不同的观点。 因此,抓取亚马逊评论可以提供丰富的灵感、见解和数据。
网页抓取如何工作?
抓取网站是使用机器人并使用网络抓取程序从网站中提取内容和数据。 与屏幕抓取不同,Web 通过提取底层 HTML 代码将广告数据抓取到数据库中。 然后,爬虫可以在其他地方复制整个网站内容。
抓取亚马逊评论的好处
随着电子商务的发展,智能和有针对性的营销变得越来越重要。 大多数购物者现在在线购物,通过亚马逊、Flipkart、eBay、阿里巴巴等平台建立投资组合的卖家也是如此。225,000 年约有 100 名卖家的销售额达到 2019 万美元。自 12 年以来增长了 2018%。

亚马逊卖家机器学习和人工智能显着预测下一个大购物趋势并影响消费者偏好。
电子商务经销商必须使用数据分析来优化他们的产品,将典型的在线消费者转化为客户。 您可以通过以下方式从亚马逊评论中获益:
- 分析竞争对手
竞争分析是商业决策最重要的方面之一。 通过比较和监控竞争对手的同类产品,您可以将您的产品与竞争对手的产品进行比较。
亚马逊经销商可以通过抓取亚马逊的竞争产品数据来制定适当的营销策略。 在线经销商可以利用网络数据进行竞争性定价分析、重新定价、成本管理和季节性跟踪。
- 管理客户满意度
您企业的成功取决于让您的客户满意。 毫无疑问,跟上您的所有评论是一项具有挑战性的任务,尤其是当您是一个相当大的品牌时。
但是,您可以使用评论抓取工具更有效地管理您的评论。 使用正确的抓取工具,您将能够识别产品中需要改进的任何特定方面,并评估客户对您产品的总体满意度。
鉴于市场上亚马逊价格追踪器的数量,很明显这是一个市场 每个人都检查价格. 设计、合身性或价格可能是个问题。 例如,鞋类供应商可以抓取他的评论,以确定对某些产品功能的反复投诉。 利用这些见解,他可以为客户提供更令人满意的用户体验。
- 了解客户的需求
卖家判断即将到来的市场趋势的能力可能很棘手,即使对于最有经验的卖家也是如此。 但是,客户的产品评论可以帮助确定新的增长领域。 客户评论通常包括产品请求和建议。 聪明的卖家会迅速满足这些需求,并获得超越竞争对手的优势。
- 确定评分最高的评论
电子商务企业有其利基市场,抓取客户资料是产生潜在客户的绝佳方式。 然而,在保护客户个人信息方面,亚马逊的网络抓取政策非常严格。
亚马逊上的卖家改变策略以获得消费者数据库。 通过观察他们的购物模式来增加销售额。 另一种选择是抓取顶级亚马逊评论者列表。
如果您推出新产品,您可以请这些人对其进行审查。 我们可以使用网络抓取通过抓取顶级评论者列表来获取我们需要的数据。
- 监控您的在线声誉
小型零售商和在线产品销售商的声誉对其业务的成功至关重要。 使用亚马逊评论的网络抓取可以为小型零售商提供有关其产品在客户眼中的声誉的相关数据,从而使他们能够监控其产品的声誉。 通过抓取亚马逊数据,可以将亚马逊数据纳入关键决策过程。
抓取亚马逊评论的最佳工具
爬虫库 是 最好的网页抓取工具 用于自动化功能、用户界面设计、成本和自动化功能。 关于亚马逊评论抓取工具,Crawlbase 是一个完美的选择,因为它的起始价格为每月 29 美元,并且是基于云的,这意味着您无需将任何内容下载到计算机上即可使用。
重要的是要注意 Crawlbase 是最大的网站之一 亚马逊刮刀 在市场上,借助它的工具,您将能够访问的不仅仅是亚马逊产品评论。 作为数据抓取提供商,他们拥有种类繁多的产品,专为希望从网络上抓取内容并希望确保其数据安全和受到保护的企业量身定制。 您可以使用 Node.js 和 Crawlbase 轻松抓取亚马逊产品评论。
凭借其功能,您还可以访问有关亚马逊上特定产品的所有公开可用数据。 由于它非常易于使用,我们认为对于刚开始需要网络抓取并寻找快速、简单、可靠的选择的任何人来说,这将是一个很好的选择。
为什么使用 Crawlbase 来抓取亚马逊评论?
开始获得亚马逊评论之前的第一步是构建一个抓取工具,有多种方法可以做到这一点。 但是,如果您不是程序员,请不要担心。 您有一个产品可以满足您对网络抓取的任何需求。 使用 Node.js 的亚马逊评论抓取非常简单,您可以轻松地使用 Crawlbase 的 API 作为抓取工具的基础。
使用 抓取 API 并帮助保护网络爬虫免受阻塞请求、代理故障、验证码等的影响。高效。 上千的 数据中心和住宅代理 全球范围也被集成到 Crawlbase 的产品中,确保市场上最好的数据结果。
使用 Crawlbase 和 Node.js 抓取亚马逊产品评论
本文将演示如何使用 Node.js 构建一个爬虫,以利用 Crawlbase 基于 API 的结构。 该项目有效地从亚马逊 URL 列表中抓取产品评论,并将它们直接保存到 CSV 文件中。
这里列出了我们需要完成的事情,而不是使这个过程复杂化。
- 爬网帐户
要使用 API,我们需要这个。 您的前 1,000 次 API 调用是免费的。 这将允许您测试服务并查看它是否满足您的期望。 在这种情况下,您可以使用普通令牌而不是 Javascript 令牌。
- 要抓取的亚马逊 URL 列表
创建一个文本文件,每行亚马逊产品评论链接包含一个 URL。 本指南将此文件称为“amazon-products.txt”。

- Crawlbase 的 NodeJS 库
Crawlbase 的网站提供对其图书馆的免费访问。 登录后,您可以在库部分下找到 Nodejs。
- Github 节点 Cheerio 库
在 Github 上寻找 cheeriojs/cheerio
使用 Node.js Cheerio+Crawlbase
有了这个项目所需的一切,让我们开始吧。 启动您最喜欢的代码编辑器。 使用 Visual Studio Code,它是 Microsoft 最受欢迎的免费源代码编辑器之一,您可以在大多数平台上使用它。
首先,我们需要安装 Crawlbase 的无依赖模块和 Cheerio Nodejs 库。 在终端中输入以下行:
npm i cheerio
npm i proxycrawl
安装库后,在其中创建一个项目文件夹和一个文件 AmazonScraper.js。 请记住包含您之前创建的 amazon-products.txt 文件。 这是我们项目结构的示例:

在函数作用域中识别常量使我们的代码更清晰、更易于理解。 让我们使用 Crawling API 将 Crawlbase 节点库用作我们的爬虫的主干。 我们还必须使用 Node Cheerio 库从我们的 URL 的完整 HTML 代码中提取评论。
1 | 常量 FS = 要求('fs'); |
此外,让我们加载包含 URL 的文本文件和允许我们插入您的 Crawlbase 令牌的行。
1 | 常量 文件 = fs。读取文件同步('亚马逊产品.txt'); |
现在,我们必须为抓取器插入更多行以自动将评论直接发送到 CSV 文件中,因为我们不希望它在控制台中显示结果。 Fs.createWriteStream() 是一个创建可写流的函数,其参数中包含文件路径。
1 | 常量 写流 = fs.创建写入流(“评论.CSV'); |
有一个出色、快速且灵活的 jQuery 实现,称为 cheerio,您可以使用它来找出亚马逊网页上用户评论的部分,以便您可以将这些评论写入 CSV 文件。 此函数将解析返回的 HTML 代码。
1 | 功能 解析HTML(HTML){ |
在我们的最后一段代码中,我们将使用调度计时器 setInterval(callback[, delay[, ...args])
方法。 Node.js 使用此构造在一段时间后调用函数。 用于亚马逊评论抓取的 Node.js 脚本非常简单易懂。 使用这种方法,我们的抓取工具可以抓取列表中的 URL 并抓取它们。 这样,我们每秒可以抓取 API 10 次。
1 | 常量 每秒请求数 = 10; |
根据您是关闭还是终止程序,代码将循环运行一段时间,因此将任意数量的 URL 添加到 amazon-products.txt 文件中,爬虫将遍历每个 URL 并添加它可以在您的 CSV 文件中找到的所有用户评论。
需要注意的是,每次请求特定 URL 时,Crawling API 都会向爬虫返回响应或状态代码。 对于 pc_status 和 original_status,成功的请求将在成功响应的情况下返回值 200。
控制台日志应该显示我们的代码遇到的任何错误。 Crawlbase 的失败请求不收取任何费用,这意味着您只需为 API 消费的成功请求付费。
如果一切按计划进行,您将得到如下所示的结果:

总结
代码已准备就绪,运行后,您可以轻松地同时抓取 10 条亚马逊评论。 对于这篇文章,我们将结果记录在控制台中,但您可以将 console.log 替换为您想要的任何内容。 您可以将其保存在数据库、文件等中。这取决于您。
万维网使数据可以随时随地访问。 Crawlbase 使构建网络爬虫变得容易,这是最好的数据农场工具之一。 此抓取工具可与任何包含产品评论的亚马逊 URL 一起使用,并将其保存到您的 CSV 文件中。 或者,您可以从 Cheerio 库中提取产品价格和可用性。
您可以在任何网站上使用抓取工具,而不仅仅是亚马逊。 凭借 Crawlbase 的灵活性,用户可以使其与当今最流行的编程语言一起使用。 API 结构使集成变得容易。
我们希望您喜欢这个用于亚马逊评论抓取的 Node.js 教程,并了解如何使用 Node.js 抓取亚马逊评论。 期待很快在我们的酒店见到您 爬虫库 社区。 玩得开心! 😄