你不再需要成为一名程序员才能实现真正的工作自动化。抓取网站数据、处理数据并将其转化为可读摘要,过去意味着编写脚本或雇人代劳。借助合适的工具,你完全可以在可视化画布上自行将整个流程串联起来。

本指南将向你展示如何使用 n8n 和 Crawlbase 构建 Amazon AI 智能体:一个接受商品关键词、通过 Crawlbase 拉取 Amazon 公开搜索结果、交由 AI 模型分析,并将洞察结论发送至你邮箱的工作流。表单收集关键词,Crawling API 通过真实浏览器和可信 IP 获取商品列表,AI 对价格趋势进行总结,结果最终送达收件箱。整个自动化闭环无需你守着爬虫或代理池。

这个智能体能做什么、面向谁

每个节点只负责一件事。表单触发器收集关键词和收件人信息,Crawlbase 以整洁的结构化数据形式获取 Amazon 商品列表,switch 节点在请求失败时进行重试,AI 模型撰写分析报告,邮件节点负责送达。将它们串联起来,整个工作流就能在几秒内将"这个关键词下什么在热卖"转化为收件箱里的摘要。

这对于评估细分市场的商品研究人员、追踪竞争对手的电商团队、验证品类的代理商,或任何倾向于阅读简短报告而非手动翻阅商品列表的人来说都非常实用。自动化电商商品研究一文所介绍的模式同样适用;本文是针对 Amazon 的具体实现。

负责任地抓取 Amazon

在讨论任何代码之前,先明确边界。本工作流的范围限定于公开的 Amazon 商品数据:任何人无需登录即可在搜索结果页面看到的标题、价格、评分、评论数量和 Prime 状态。在将该智能体用于生产环境规模的抓取之前,请先阅读本节内容。

Amazon 的服务条款限制自动化访问,因此无论你的工具多么谨慎,爬取行为都可能违反这些条款。本指南中的任何设置都不会改变这一点,只是让技术层面得以运作。以下几条底线值得坚守:只收集公开商品数据,遵守 Amazon 的 robots.txt 及其明示的请求频率期望,将请求量控制在不会给任何服务器造成压力的水平。如果你计划将数据用于商业目的,请获取许可或签订官方数据协议,而非将沉默视为默许。

本指南有意不涉及以下内容:任何登录墙后的内容、账户或订单数据、与可识别买家或评论者相关的个人数据、任何绕过身份验证的操作,以及任何购买或账户操作。如果你的项目需要超出公开商品列表范围的数据,正确的选择是官方 Amazon API 或数据协议,而非更复杂的爬虫。

Public data only

保持合规的底线是登录墙。该智能体读取的所有内容,对搜索页面上的任何匿名访客都是可见的。一旦任务需要账户、订单历史或买家个人信息,就超出了本文的范围,应通过官方 API 或数据协议处理。

开始前你需要准备什么

先准备好以下内容,后续的构建过程将会顺畅许多:

  • Crawlbase 账户和令牌。用于获取 Amazon 搜索结果。注册后,从控制台复制你的普通令牌。Crawlbase 不对失败请求计费,这是重试逻辑的前提。
  • n8n 实例。自托管或 n8n Cloud 均可,这是你串联节点的地方。
  • AI 提供商密钥。分析步骤需要一个模型,任何提供聊天或消息接口的提供商均可;本指南使用 OpenAI。
  • 邮件发送账户。用于发送摘要,SendGrid 的免费套餐已经足够。
  • n8n 基础知识。只要你能在画布上拖拽节点并填写字段,就足够了。

数据如何在工作流中流转

无需手动编写带有请求头、解析逻辑和重试机制的 HTTP 集成,每个节点各司其职:

  • Form Trigger 收集商品关键词以及收件人姓名和邮箱。
  • HTTP Request 节点将关键词发送至 Crawling API,获取已解析的 Amazon 商品列表。
  • Switch 节点检查响应状态,在失败时循环重试。
  • AI 模型节点读取商品列表并撰写分析报告。
  • 邮件节点将摘要发送至表单中填写的地址。

由于 Crawlbase 返回的 Amazon 搜索结果已被解析为整洁的 JSON,AI 步骤读取的是结构化字段,而非与原始 HTML 搏斗。这与 Crawling API 背后的引擎相同,在这里以 Crawling API 调用中的 scraper 参数形式呈现。

第 1 步:从表单触发器开始

在 n8n 中新建一个工作流,点击添加第一步,从触发器列表中选择On form submission。这会为你提供一个托管表单,当有人提交后即触发工作流。按以下配置该触发器:

  • Authentication:None
  • Form Title:Amazon SERP AI Agent with n8n and Crawlbase
  • Form Description:Enter a product keyword to analyze on Amazon. n8n uses Crawlbase to extract titles, prices, and ratings, then an AI agent summarizes the results.
  • Respond When:Workflow Finishes

添加三个表单元素,为工作流提供搜索关键词和结果发送地址:

text
Product Keyword   | Text  | placeholder: wireless earbuds     | required
Your Name         | Text  | placeholder: John Doe             | required
Email             | Email | placeholder: [email protected]  | required

向下滚动至Options,在Form Response下将Respond With设置为"Form Submitted Text",并将Text to Show设置为类似"Please check your email."的提示语。这是访客提交后看到的文字,而工作流在后台运行。

第 2 步:用 Crawling API 获取 Amazon 结果

点击表单触发器后的加号(+)按钮,搜索HTTP,添加一个HTTP Request节点。它将关键词发送至 Crawlbase,并以解析后的 JSON 格式获取 Amazon 搜索结果。将其配置为向 Crawling API 端点发送 GET 请求,查询参数从下方字段中获取:

text
Method:                    GET
URL:                       https://api.crawlbase.com
Send Query Parameters:     Yes
Specify Query Parameters:  Using Fields Below

然后切换到Query Parameters标签页,添加三个参数。scraper参数告知 Crawlbase 返回已解析的 Amazon SERP 数据而非原始 HTML,从而使 AI 步骤获得整洁的字段:

text
token    | YOUR_CRAWLBASE_NORMAL_TOKEN
url      | https://www.amazon.com/s?k={{ $json['Product Keyword'] }}
scraper  | amazon-serp

对于url值,可以手动输入表达式,或从左侧面板将Product Keyword字段拖入输入框,n8n 会自动插入。这样便根据访客填写的关键词构建了一个 Amazon 搜索 URL。

Why the scraper parameter

Amazon 以客户端方式渲染结果,并对自动化流量采取强力拦截,因此普通请求只会返回一个空壳。Crawling API 通过真实浏览器和可信 IP 渲染页面,amazon-serp scraper 会将商品列表解析为包含名称、价格、评分和 Prime 状态的 products 数组。这意味着 AI 无需解析 HTML,你的选择器也不会失效。

第 3 步:用 switch 节点重试失败的请求

在 HTTP Request 节点后点击加号(+)按钮,搜索Switch。逻辑很简单:如果 Crawlbase 返回的不是正常成功响应,则循环重试。由于 Crawlbase 不对失败请求计费,只有在获得有效结果后才会继续后续流程。

将节点的Mode设置为Rules,然后添加两条基于响应状态的路由规则:

text
{{ $json.original_status }}  | is equal to     | 200 | output: success
{{ $json.original_status }}  | is not equal to | 200 | output: failed

将比较类型设置为 Number。这一点很重要:若保持字符串类型,相等性检查可能出现异常,从而导致重试逻辑失效。然后将failed输出连接回 HTTP Request 节点的起点,使错误响应自动触发重试。success输出则继续流向 AI 步骤。

Crawlbase Amazon Scraper

Amazon 需要通过可信 IP 渲染页面,最好还能将商品列表直接解析好。Crawling API 通过一次调用完成这两件事:传入你的令牌加上 scraper=amazon-serp,它便会在真实浏览器中渲染搜索页面,在服务端轮换住宅 IP,并返回整洁的 JSON,让你的 n8n 智能体无需无头浏览器集群或代理池即可读取结构化商品数据。失败请求不计费,这也是重试循环零成本的原因。从免费套餐开始,指向一个公开搜索即可上手。

第 4 步:用 AI 模型分析数据

重试循环就绪后,点击 switch 节点success输出上的加号(+)按钮。搜索你的 AI 提供商(例如 OpenAI),选择Message a model。该节点将 Crawlbase 返回的已解析商品数据传给模型,让其总结价格趋势、常见品牌、评论均值等你需要的洞察。

如果你尚未在 n8n 中添加提供商凭证,节点会提示你配置。将其设置为向当前聊天模型发送单条用户消息:

text
Credential:  your configured AI provider key
Resource:    Text
Operation:   Message a Model
Model:       a current chat model (for example gpt-4o)
Role:        User

在消息框中粘贴一段提示词,将 Crawlbase 的 products 数组映射为可读列表,并要求模型进行针对性分析。该表达式从表单中提取关键词,并从 HTTP Request 输出中获取商品字段:

text
You are a product research analyst. Here is the data from an Amazon
search for "{{ $('On form submission').item.json['Product Keyword'] }}":

{{ $('HTTP Request').item.json.body.products.map((item, index) =>
  "\n" + (index + 1) + ". " + item.name + " | " + item.price + " | " +
  (item.isPrime ? "Amazon Prime" : "Not Amazon Prime") + " | " +
  item.customerReview + " | " + item.boughtInfo) }}

Analyze this data and summarize the key insights:
- Top 3 popular brands
- Average price range
- Notable deals or trends
- Short market summary (3 to 4 sentences)

这段提示词有几个有意为之的设计:设定角色以使模型保持简洁,明确列出所需洞察以确保每次输出一致,并向模型提供已解析字段的整洁列表而非原始 HTML。

第 5 步:通过电子邮件发送摘要

分析完成后,最后一步是发送结果。点击 AI 节点后的加号(+)按钮,搜索你的邮件服务(例如 SendGrid),在Mail Actions下选择Send an email。它将摘要发送至表单中填写的地址,确保你的邮件凭证已配置好。

通过引用前面步骤的值来填充节点。收件人和发件人姓名来自表单,主题复用关键词,正文是模型的输出:

text
Credential:       your configured email-service key
Resource:         Mail
Operation:        Send
Sender Email:     the verified sender you set up with the service
Sender Name:      {{ $('On form submission').item.json['Your Name'] }}
Recipient Email:  {{ $('On form submission').item.json.Email }}
Subject:          Amazon analysis for '{{ $('On form submission').item.json['Product Keyword'] }}'
Mime Type:        Plain Text
Message Body:     {{ $json.output[0].content[0].text }}

一切串联完毕后,整个工作流运转流畅:表单收集关键词,Crawlbase 抓取并解析商品列表,switch 处理重试,AI 进行总结,邮件节点完成发送。

端到端测试工作流

激活工作流,从On form submission节点打开生产 URL,你会看到一个带有三个字段的托管表单。输入一个关键词(如"wireless earbuds"),填写姓名和邮箱后提交。

稍等片刻。关键词发送至 Crawlbase,解析后的商品数据返回,switch 确认响应正常,模型撰写分析报告,邮件节点发送邮件。你应该会收到一份简短报告:该关键词下的主要品牌、平均价格区间、值得关注的优惠,以及几句市场概述。如果没有收到邮件,请打开执行日志,查看哪个节点停止运行以及返回了什么内容。

下一步可以怎么走

你已经构建了一个可以自动运行的商品研究助手。接下来由你决定如何扩展:按计划定期运行以追踪竞品定价变化;将输出发送至 Slack 频道或数据库而非邮件;将表单触发器替换为关键词列表,一次性分析整个品类。

Crawlbase 不仅适用于 Amazon。相同的 scraper 参数支持其他主流网站,对于没有专属解析器的网站,Crawling API 可返回渲染后的 HTML 或适合 LLM 读取的 Markdown,供 AI 步骤直接使用。如果你希望智能体自主调用抓取工具,将 n8n 与 Crawlbase Web MCP 连接一文展示了使用 Web MCP 服务器的智能体驱动版本,而使用 Crawlbase Web MCP 构建 AI 智能体工作流则深入探讨了多步骤智能体。对于 n8n 之外的自定义构建,Crawling APISmart AI Proxy 可提供同样的底层引擎供直接调用。

这一方案的吸引力在于无需编写代码:n8n 驱动自动化,Crawlbase 负责抓取与解析,AI 负责读取分析。Crawlbase 已获得超过 70,000 名开发者的信赖,你工作流底层的抓取层正是驱动生产规模爬虫的同款引擎。

回顾

核心要点

  • Five nodes, one loop. 表单触发器、发送至 Crawlbase 的 HTTP Request、用于重试的 switch、AI 模型、邮件节点。每个节点各司其职,数据顺畅流转。
  • Let Crawlbase parse Amazon. 传入 scraper=amazon-serp,商品列表将以整洁的 JSON 格式返回;AI 读取结构化字段而非原始 HTML,选择器永不失效。
  • Retries are free. Crawlbase 不对失败请求计费,因此 switch 节点可在收到非 200 状态时循环重试,直至获得有效结果。
  • The AI does the analysis. 一段明确列出所需洞察的提示词,能在每次运行时产出一致的简报。
  • Stay on public data. 遵守 Amazon 的服务条款和 robots.txt;不涉及账户、订单或个人数据,不绕过身份验证,不执行购买操作。

常见问题

搭建这个 Amazon AI 智能体需要写代码吗?

不需要。整个工作流在 n8n 中以可视化方式构建,只需在画布上拖拽节点并填写字段即可。唯一涉及"代码"的是 AI 提示词中一段将 Crawlbase 商品数组映射为可读列表的短表达式,你可以直接粘贴使用。Crawlbase 处理抓取和解析,AI 模型处理分析,n8n 将两者连接起来。

为什么用 Crawlbase 而不是向 Amazon 发起普通 HTTP 请求?

Amazon 以客户端方式渲染结果,并对自动化流量采取强力拦截,因此裸请求通常返回 200 但没有任何商品数据。Crawling API 通过真实浏览器和可信住宅 IP 渲染页面,amazon-serp scraper 将商品列表解析为 JSON 格式返回。你无需自行运行无头浏览器或代理池,即可获得整洁的字段。

这个智能体能采集哪些 Amazon 数据?

仅限公开搜索结果数据:商品标题、价格、评分、评论数量、Prime 状态,以及任何无需登录即可看到的类似字段。不收集账户数据、订单历史、与买家或评论者相关的个人信息,也不抓取任何登录墙后的内容。请将智能体限定于公开商品列表,并遵守 Amazon 的服务条款和 robots.txt。

switch 节点为什么会重试失败的请求?

偶尔会有请求返回非 200 状态。switch 节点检查 original_status,将任何非 200 的响应路由回 HTTP Request 节点重试,确保工作流只有在获得有效结果后才继续推进。由于 Crawlbase 不对失败请求计费,这个重试循环零成本。请确保比较类型设置为 Number,否则相等性检查可能出现异常。

我可以使用 OpenAI 以外的 AI 服务商吗?

可以。分析步骤适用于任何 n8n 通过聊天或消息节点支持的模型。将 OpenAI 节点替换为你所用提供商的节点,添加凭证,保持相同提示词即可。工作流的其余部分(包括 Crawlbase 抓取和邮件发送)完全不变。

如何把结果发送到电子邮件以外的地方?

将邮件节点替换为你想要的目标节点即可。n8n 提供了 Slack、Google Sheets、数据库、Webhook 等众多节点。将 AI 模型的输出指向该节点,即可将摘要发布到频道、追加到表格或存储备用。表单、Crawlbase 抓取、switch 和 AI 步骤无需任何改动。

开始构建

大规模爬取任何站点,无需与基础设施对抗。

Crawlbase 负责处理代理、指纹和 CAPTCHA,让你的团队专注于交付数据流水线,而非维护爬取管道。1,000 次请求免费,无需信用卡。

自助开通 · 无需销售通话 · 提供企业级爬取量