大型语言模型擅长对文本进行推理,却无法得知五分钟前发生了什么。它们的知识在训练时就已固化,在没有出站网络访问权限的沙盒环境中运行,也不是浏览器。一旦你的问题涉及实时页面、当前价格或今晨爆发的新闻,模型只能凭空猜测,而对过时数据的自信回答不过是措辞精美的幻觉。
Crawlbase Web MCP 服务器正是为了弥补这一缺口而生。它是一款面向 AI 抓取的 MCP 服务器,为 LLM 客户端提供一套工具,用于爬取和读取实时网页,并将干净的结构化数据返回给模型,使其能够在同一轮对话中即时推理。本指南将介绍 Model Context Protocol 的概念、Crawlbase Web MCP 对外暴露的能力、如何将其接入支持 MCP 的客户端,以及实时网络访问为什么会从根本上改变智能体的实际能力。
问题所在:LLM 与实时网络脱节
每一个通用模型,从 Claude 到其他模型,都建立在大规模静态训练集之上。这些训练赋予了模型推理、总结和预测的能力,但无法让它主动观察。以下几个约束让这一点变得具体可感:
- 知识已经固化。训练截止日期之后发生的一切,在下次重新训练之前都是不可见的。
- 运行时处于沙盒中。出于设计原因,模型在限制出站网络访问的环境中执行,因此它们无法自行访问页面。
- 模型不是浏览器。即便手头有 URL,原始模型也没有引擎来渲染 JavaScript、跟随重定向,或突破反爬防护。
开发者不得不依赖的变通方法各有缺陷:手动将爬取结果粘贴到提示词中、在缺乏上下文时接受幻觉输出,或构建一旦底层数据更新就崩溃的智能体。这些做法都无法扩展,而且根因相同,那就是模型与实时网络之间没有活跃连接。
什么是 Model Context Protocol (MCP)
Model Context Protocol 是一项开放标准,定义了 AI 模型与外部工具及数据源进行通信的一致方式。它不再让每个集成都成为定制的一次性工作,而是为模型提供了统一接口:模型可以列出服务器提供的工具、携带参数调用某个工具,并将结构化结果直接获取到上下文窗口中。
可以将其理解为 AI 领域的 USB 接口。USB 使任何设备都能通过一个标准端口接入任何计算机;MCP 使任何工具或数据源都能通过一个标准协议接入任何支持 MCP 的客户端。MCP 客户端(Claude Desktop、Cursor、Windsurf 以及不断增加的其他产品)使用该协议;MCP 服务器通过它暴露能力。Crawlbase Web MCP 正是这样一台服务器,它暴露的能力就是实时网络。
在 MCP 的术语中,客户端是你已在使用的 AI 应用(桌面助手或 IDE),服务器是它连接以获取额外能力的组件。你无需编写客户端,只需运行一个 MCP 服务器,将现有客户端指向它,模型就会自动获得该服务器的工具。
Crawlbase Web MCP 服务器暴露了什么
Crawlbase MCP 服务器是 LLM 客户端与实时网络之间的连接组织。它构建在已为大量开发者提供服务的爬取基础设施之上,因此智能体通过它访问时,可以透明地获得 JavaScript 渲染、服务端代理轮换和反爬处理,而无需了解这些细节。对模型而言,它只是几个能将 URL 转化为数据的工具。
服务器暴露的工具负责抓取和清理,让模型收到真正可用的内容:
- crawl 抓取 URL 并返回页面 HTML,当页面需要 JavaScript 来填充内容时,会先完成渲染再返回。
- crawl_markdown 抓取 URL 并返回干净的 Markdown,剥去导航框架和样板内容,这是模型读取最可靠的格式。
- crawl_screenshot 捕获页面的可视截图,适用于布局或图片比文字更重要的场景。
在底层,每项操作都等同于 Crawling API 执行的同款强化爬取:真实浏览器在可信住宅 IP 后渲染页面,因此客户端渲染的网站能够完整返回,请求也被视为真实访客而非被标记的爬虫。模型永远看不到这些机制,它只需提供 URL 便能获取完整的结构化内容。
crawl_markdown 工具存在的原因是:原始 HTML 会在标签和布局上浪费 token,而这些对模型毫无用处,Markdown 则保留了模型真正需要的结构(标题、列表、链接)。关于为何干净的 Markdown 是更优的输入形式,请参阅 面向 LLM 的 Markdown 网络抓取。
如何将 Crawlbase Web MCP 接入客户端
在任何 MCP 客户端中接入服务器都是相同的三步操作:获取令牌、将一小段 JSON 配置写入客户端配置文件,然后重启。以下是完整步骤。
第一步:获取 Crawlbase 令牌
创建 Crawlbase 账户,默认包含 1,000 次免费请求,绑定信用卡后可获得更多请求额度。在控制台中打开账户文档,复制两个令牌:用于静态页面的普通令牌和用于客户端渲染页面的 JavaScript 令牌。MCP 服务器会同时使用两者,并根据每次请求自动选择合适的令牌。
第二步:将服务器添加到客户端配置
MCP 客户端读取一个 JSON 配置,其中列出需要启动的服务器。Crawlbase 的配置条目告诉客户端通过 stdio 方式使用 npx 运行服务器,并以环境变量形式传入令牌。同一段配置适用于 Claude Desktop、Cursor 和 Windsurf,区别仅在于各客户端使用的配置文件路径不同。
{ "mcpServers": { "crawlbase": { "type": "stdio", "command": "npx", "args": ["@crawlbase/mcp@latest"], "env": { "CRAWLBASE_TOKEN": "your_token_here", "CRAWLBASE_JS_TOKEN": "your_js_token_here" } } } }
将 your_token_here 和 your_js_token_here 替换为你实际的普通令牌和 JavaScript 令牌。配置文件的存放位置取决于所使用的客户端:
-
Claude Desktop:依次进入文件、设置、开发者、编辑配置,将打开
claude_desktop_config.json。 -
Cursor:进入 Cursor 设置,然后选择工具与集成,点击添加自定义 MCP,即可编辑
mcp.json。 -
Windsurf:进入 Windsurf 设置,然后选择 MCP Servers,点击 Manage MCPs,再点击 View raw config,即可编辑
mcp_config.json。
第三步:重启并验证
保存配置并重启(或刷新)客户端。Crawlbase 现在应出现在客户端已连接 MCP 服务器列表中,其工具也应处于可用状态。如果未出现,请再重启一次,因为某些客户端只在全量启动时才会加载新的服务器配置。
第四步:通过提示词使用工具
你可以用自然语言驱动这些工具。模型会决定调用哪个工具以及传入什么 URL。以下示例是一个确认配置是否正确的初始提示词;客户端通常会在第一次使用时询问你是否授权该工具调用,请在提示时授予权限。
Crawl https://www.nytimes.com and return the page as markdown
在这句话的背后,客户端调用了以 URL 为参数的 crawl_markdown 工具。从概念上讲,客户端发出的调用如下所示:
{ "tool": "crawl_markdown", "arguments": { "url": "https://www.nytimes.com" } }
服务器渲染页面,完成清理,并将 Markdown 返回到模型的上下文中,模型由此根据实时内容而非记忆作出回答。在 Cursor 或 Windsurf 等 IDE 中,同样的流程还可以直接将结果写入文件,因此一条抓取页面并保存为 Markdown 的提示词,就能在磁盘上生成一个包含实时内容的 Markdown 文件。
只需三行配置,即可为你的 AI 客户端提供实时网络访问能力。Web MCP 服务器暴露了 crawl、Markdown 和截图工具,背后由真实浏览器渲染、住宅 IP 轮换和反爬处理提供支撑,让模型获得干净数据而不是被拦截的请求。从免费版开始,将其指向任意公开页面即可。
实时网络访问对智能体的意义
能够读取实时网络的智能体,与不能读取的智能体,是完全不同类别的工具。一旦任务依赖于模型无法记住的信息,差距就会立刻显现:
- 真正即时的研究。模型可以获取今天的文章、定价页面或发布说明并进行推理,而不是从可能已过时一年的训练数据中近似推断。
- 具备运行时感知的编程助手。IDE 智能体可以读取当前版本库的最新文档,而不是建议使用两个版本前已被移除的 API。
- 不会在更新后崩溃的智能体。由于数据在每次运行时都会重新获取,工作流在源页面发生变化后依然可以正常运行,不会静默地提供缓存快照。
- 结构化输入,而非屏幕抓取。干净的 Markdown 和 HTML 意味着模型将上下文用于内容本身,而非解析布局噪声。
这与托管代理比原始 IP 列表对智能体更有价值的逻辑相同。如果你想更全面地了解 AI 工具如何消费网络,什么是 AI 代理和 AI 代理的使用场景涵盖了访问层,而 AI 数据提取的工作原理则介绍了数据到达后的处理流程。
MCP 如何与 Crawlbase 其他产品协同
Web MCP 并不是独立的爬取引擎,它是通向同一套基础设施的 MCP 形态入口,你也可以直接访问这套基础设施。MCP 工具所使用的渲染和解封能力,同样可以通过 Crawling API 用于代码驱动的爬取,通过 Smart AI Proxy 在需要路由普通请求的 AI 代理端点时使用,以及通过 Crawling API 在需要自动解析常见页面类型字段时使用。
实际结论是:当消费方是 LLM 客户端、且希望模型以对话方式获取实时数据时,使用 Web MCP;当消费方是你自己的代码时,则使用 API 或代理产品。它们共享同一个后端,因此跨产品的行为是一致的。
核心要点
- LLM 无法看到实时网络。它们的知识已固化,运行时处于沙盒中,也不是浏览器,因此没有外部工具的话,任何当前信息都只是猜测。
- MCP 是 AI 领域的 USB。Model Context Protocol 是一种标准接口,让任何 MCP 客户端都能调用任何 MCP 服务器的工具,并将结构化结果获取到模型的上下文中。
-
Crawlbase Web MCP 暴露爬取工具。
crawl、crawl_markdown和crawl_screenshot将 URL 转化为渲染后的 HTML、干净的 Markdown 或图像,渲染和反爬处理均在服务端完成。 - 配置只需三步。获取令牌,将一段 JSON 配置粘贴到客户端配置文件,重启,模型即可获得实时网络工具。
- 实时访问改变了智能体的能力边界。即时研究、具备运行时感知的编程辅助,以及在源页面更新后不会中断的工作流,都依赖于新鲜数据。
常见问题
什么是 Crawlbase Web MCP 服务器?
它是一款面向 AI 抓取的 MCP 服务器,为 LLM 客户端提供爬取和读取实时网页的工具。它通过 Model Context Protocol 暴露 crawl、crawl_markdown 和 crawl_screenshot,使模型可以获取 URL 并直接在上下文中收到渲染后的 HTML、干净的 Markdown 或截图。爬取、渲染和解封均在 Crawlbase 的基础设施上完成,模型只会看到处理好的数据。
什么是 Model Context Protocol (MCP)?
MCP 是一项开放标准,定义了 AI 模型与外部工具及数据源进行通信的一致方式。MCP 客户端(如 Claude Desktop、Cursor 或 Windsurf)连接到 MCP 服务器,列出其工具,携带参数调用这些工具,并获取结构化结果。它通常被比作 AI 领域的 USB,因为一种协议就能让任何兼容的工具插入任何兼容的客户端。
哪些客户端可以连接 Crawlbase Web MCP?
任何支持 MCP 的客户端均可。本指南中的配置步骤覆盖了 Claude Desktop、Cursor 和 Windsurf,它们读取一个通过 stdio 方式启动服务器的 JSON 配置。同一个配置块在这些客户端中均适用,区别仅在于配置文件的路径因客户端而异。随着更多工具采用 MCP,同一台服务器也将与它们一同工作。
我需要普通令牌还是 JavaScript 令牌?
两者都需要在配置中提供。服务器对静态页面使用普通令牌,对需要真实浏览器才能完整渲染的客户端渲染页面使用 JavaScript 令牌。同时提供两者,服务器可以在每次请求时自动选择合适的令牌,从而确保客户端渲染页面返回完整内容,而不是空壳。
Web MCP 与 Crawling API 有何区别?
它们共享同一个后端,区别在于调用方。Web MCP 面向 LLM 客户端,让模型通过 MCP 工具以对话方式获取实时数据。Crawling API 面向你自己的代码,直接通过 HTTP 调用。当 AI 客户端是消费方时使用 MCP,当你的应用是消费方时使用 API。
为什么 AI 智能体需要实时网络访问?
因为模型的训练数据已固化,其运行时也无法自行访问网络,所以任何依赖当前信息(今天的新闻、实时价格、最新文档)的任务,在没有工具的情况下都只是猜测。实时访问使智能体能够获取新鲜的结构化内容并在同一轮对话中进行推理,这正是保持研究内容即时更新、防止工作流在源页面变化后中断的关键。
大规模爬取任何站点,无需与基础设施对抗。
Crawlbase 负责处理代理、指纹和 CAPTCHA,让你的团队专注于交付数据流水线,而非维护爬取管道。1,000 次请求免费,无需信用卡。

