构建 AI 代理工作流程 Crawlbase Web MCP连接你的AI代理(例如 n8n)连接到 Web MCP 服务器,该服务器可自动处理网页抓取,绕过 JavaScript 渲染、机器人检测和繁琐的 HTML 代码。这种设置使您的代理能够获取实时网站数据、进行分析并返回结构化答案,而无需编写自定义抓取代码。
如果你曾经使用过人工智能代理,那么当它们需要真实的网页数据时,你很可能遇到过瓶颈:网站屏蔽请求、内容通过 JavaScript 加载,或者 HTML 代码过于复杂。 Crawlbase Web MCP 服务器通过按需向您的代理提供清晰、结构化的数据来解决这些问题。在本指南中,我们将逐步完成整个设置过程。

创新中心 Crawlbase Web MCP 处理网络爬虫
在高水平上, Crawlbase Web MCP 使 AI 代理能够自主决定何时以及如何抓取网页。
工作流程如下所示:
- AI代理接收到一个包含URL的任务。
- 它决定是否需要刮除。
- Crawlbase 通过 MCP 调用以获取实际页面内容
- 代理分析提取的数据
- 返回一个清晰、结构化的结果。
与传统网络爬虫工作流程的主要区别在于: 是否抓取数据是由人工智能代理决定的,而不是由你手动定义的。.
如何使用人工智能代理搭建网页抓取系统 Crawlbase Web MCP
构建人工智能代理网络爬虫工作流程 Crawlbase Web MCP 需要四个核心组件:
- 人工智能代理平台(例如,n8n)
- 此 Crawlbase Web MCP 服务器
- 语言模型(例如 GPT-4)
- 一个连接一切的MCP客户端
当收到包含 URL 的任务时,代理会自动调用 Crawlbase 检索页面内容,包括 JavaScript 渲染的元素和受机器人保护的页面,并分析响应以生成结构化输出。 无需编写自定义抓取逻辑、请求参数或解析规则.
n8n 自动化代理工作流程结构
在 n8n 中,工作流程是通过五个相互连接的节点来实现的:
- A 手动触发 开始工作流程
- A 配置节点 存储目标 URL 和指令
- 此 AI代理节点 用于决策
- 此 OpenAI聊天模型 用于推理
- 此 MCP 客户端工具 连接到 Crawlbase的抓取基础设施
配置完成后,该工作流具有很高的可复用性。大多数情况下,您只需更改 URL 并重新运行工作流即可;无需更改请求设置或提取逻辑。
逐步构建 AI 数据抓取工作流程
如果您是 n8n 的新手,或者想快速回顾一下工作流和节点的工作原理,那么 n8n 文档 这是一个不错的起点。否则,让我们一步一步地构建我们的人工智能驱动的网络爬虫工作流程。
步骤 1:创建基础工作流程
首先在 n8n 中创建一个新的自动化代理工作流程,包含以下节点:
- 手动扳机 - 这将按需启动工作流程。
- 工作流配置(编辑字段) - 集中参数
- 人工智能代理 - 我们行动的大脑
- OpenAI聊天模型 - 为人工智能代理提供动力
- MCP客户端工具 - 连接到 Crawlbase
最终应该得到这样的配置:

步骤 2:将输入集中在配置节点中
在这个节点中,您可以定义代理所需的一切。
打开你的 工作流配置节点 并添加以下字段:
websiteUrl(字符串):要抓取的 URL。(e.g., https://www.amazon.com/product-page)scrapeDepth(数字):爬取深度(默认值:2)userPrompt(字符串):人工智能代理的指令
示例提示:
1 | 抓取亚马逊产品页面并提取关键产品信息。 |
确保 添加其他字段 已启用,数据可以正常流动。

步骤 3:连接 MCP 客户端工具
打开 MCP 客户端节点并进行如下配置:
- 端点 URL: 您的 MCP 服务器 URL(例如,
https://your-ngrok-url.ngrok-free.app/mcp) - 交通:
httpStreamable - 验证:
none(或根据您的设置进行配置) - 包括:
all(为了展示所有可用工具)
这就是代理人获得访问权限的原因。 Crawlbase.

步骤 4:建立语言模型
现在,打开你的 OpenAI聊天模型节点 并设置以下内容:
- 型号:
gpt-4o-mini(速度和性能的良好平衡) - 证书: 添加你的 OpenAI API 密钥

步骤 5:配置 AI 代理节点
这是您工作流程的核心部分,因为 AI 代理会处理整个抓取和分析过程。所以,请打开该节点并添加以下内容:
文本字段(用户提示):
1 | ={{ $json。用户提示.全部替换(' ',$json。网站网址)}} |
此表达式会将 URL 动态插入到提示符中。
系统消息:
1 | 您是一名网络研究助理,可以使用网络爬虫工具。 |
此系统消息消除了歧义。它指示代理使用抓取工具,遵循预期流程,并以一致的格式返回结果。

至此,工作流程已准备就绪,可以运行。
步骤 6:执行您的工作流程
运行此工作流程时,会发生以下情况:

- 触发发射: 手动触发启动工作流程
- 配置加载: 然后,工作流配置节点准备所有参数。
- AI代理收到提示: 代理程序会收到包含嵌入式 URL 的用户提示。
- 工具选择: 然后分析提示信息,决定使用 MCP 客户端工具。
- Crawlbase 擦伤: MCP客户端调用 Crawlbase使用 API 抓取网站
- 返回数据: Crawlbase 返回清晰、结构化的 Markdown 内容
- 人工智能分析: 代理程序处理抓取的内容
- 摘要生成: 它会根据您的要求生成结构化的摘要。

目前,该工作流程足够灵活,可以应用于多种不同的场景。您可以利用它不时查看竞争对手的页面,从电商网站提取产品详情,从多个来源收集研究资料,或者追踪您关注的话题新闻。根据您的需求,它还可以利用公开数据进行基本的潜在客户信息完善。
如果您想重用或查看此处所示的具体工作流程,完整的设置和 JSON 文件可在以下位置获取: GitHub上 可以直接导入到 n8n 中。
为何使用 Crawlbase MCP 代替 n8n 的 HTTP 请求节点
理论上可以,但实际上很少奏效。
大多数现代网站都严重依赖 JavaScript、严格的机器人检测和动态渲染。直接获取原始 HTML 通常会得到不完整或具有误导性的内容。因此,最终需要在此基础上叠加重试机制、代理和自定义解析逻辑。
Crawlbase Web MCP 消除了这一层复杂性,因为它允许 AI 代理与……进行交互。 Crawling API 负责处理:
- JavaScript 渲染
- 代理轮换
- 反机器人措施
- 重试和失败
- 清晰、结构化的输出
更重要的是,这种设置并不局限于单个站点或请求模式。因为代理已经与……合作 Crawlbase 直接来说,你可以将它指向不同的网站,而无需每次都重新配置 API 调用。
AI代理网络爬虫的最佳实践
尽早设置一些简单的检查机制是个好主意。例如,在 AI 代理之后添加基本的错误处理,可以更容易地发现抓取失败的情况,而不是完全忽略它。如果您正在处理多个 URL,请使用以下方法稍微拉开请求的间隔: 超时时间 这有助于避免出现问题。将输出结果保存到数据库甚至电子表格等位置,在日后需要回顾或进行进一步分析时也十分方便。
还有一点很有帮助,那就是根据需要针对每个网站调整提示信息。试图在所有截然不同的网站上强制使用同一个通用提示信息通常会导致效果不佳。
解决常见问题
如果您看到类似“未使用任何工具”的消息,通常意味着代理程序不确定是否应该抓取任何内容。将系统消息写得更明确,并确保清楚地包含 URL,几乎总能解决此问题。
如果遇到 MCP 连接问题,首先要检查基本情况。确认 MCP 服务器是否正在运行,确认端点是否可达,并使用简单的命令直接进行测试。 卷曲请求 在深入挖掘之前。
后续步骤:部署您的 AI 代理工作流程
与其维护脆弱的、特定于网站的爬虫,不如构建一个系统:人工智能决定需要做什么,工具处理网页上繁杂的部分,输出结果保持清晰易读。当网站布局发生变化时,整个工作流程不会立即中断。这才是真正的长远优势。
在此基础上,您可以继续扩展相同的模式。添加更多 MCP 工具,在 n8n 中安排运行,尝试使用多个代理处理不同的任务,或者将结果直接发送到您现有的系统中。
将 n8n AI 代理与 Crawlbase Web MCP 为您提供了一种便捷的方式来处理实时网络数据,无需不断应对抓取问题。一旦您构建好此工作流程,您很可能会反复使用相同的结构。
如果你想尝试一下,接下来的步骤很简单: 报名参加 Crawlbase克隆 MCP 服务器存储库,将工作流导入 n8n,然后开始试验。
常见问题解答:AI代理工作流程 Crawlbase Web MCP
问:这种工作流程可以抓取大量使用 JavaScript 的网站吗?
A: 是的。 Crawlbase Web MCP 可自动处理 JavaScript 渲染,因此 AI 代理无需 Puppeteer 或 Selenium 即可接收完全渲染的内容。
问:怎么做 Crawlbase Web MCP 可以避免被机器人检测吗?
A: Crawlbase 它利用代理轮换、浏览器指纹识别和 CAPTCHA 破解来绕过会阻止标准 HTTP 请求的反机器人措施。
问:哪些人工智能模型适用于这种设置?
A: 您可以通过 n8n 的 AI Agent 节点连接 Claude、Cursor、Windsurf 和其他支持工具调用的 MCP 兼容 AI Agent。











