MCP Server · Crawlbase Documentation

什么是 MCP？

Model Context Protocol 是一个用于将 AI 助手连接到外部工具的开放标准。Crawlbase MCP 服务器使用 MCP 协议，因此任何兼容的客户端 - Claude Desktop、Cursor、Zed、Continue、OpenAI Agents SDK - 都可以将 Crawlbase 作为原生能力使用。

结果就是：您的 AI 可以在对话过程中获取页面、解析产品、截取屏幕或搜索网络。无需胶水代码，无需在窗口之间复制粘贴，无需代理服务器。

相同的 API，对话式接口

MCP 服务器是对 AI & MCP 中所记录的相同 API 的轻量封装。您的 token、您的并发限制、您的用量。唯一改变的是调用者 - 您的代码，或者您的 AI。

安装

该服务器以一个小型 Node 进程运行。大多数客户端通过 npx 按需启动它：无需全局安装。

# No install - let your client launch it
npx @crawlbase/mcp@latest
# Or install globally if you prefer
npm install -g @crawlbase/mcp
crawlbase-mcp
docker run -i --rm \
  -e CRAWLBASE_TOKEN=YOUR_TOKEN \
  -e CRAWLBASE_JS_TOKEN=YOUR_JS_TOKEN \
  crawlbase/mcp

源代码位于 GitHub。如需直接运行需要 Node 18+。

配置您的客户端

每个 MCP 客户端都使用相同的配置结构 - 服务器名称、运行命令、环境变量。将其加入您客户端的配置文件中即可。

{
  "mcpServers": {
    "crawlbase": {
      "type": "stdio",
      "command": "npx",
      "args": ["@crawlbase/mcp@latest"],
      "env": {
        "CRAWLBASE_TOKEN": "YOUR_TOKEN",
        "CRAWLBASE_JS_TOKEN": "YOUR_JS_TOKEN"
      }
    }
  }
}

各客户端配置指南：

Claude Desktop 与 Claude Code - 配置位于 claude_desktop_config.json / claude.json
Cursor - 设置 → Tools and Integrations → Add Custom MCP
VS Code 与 Windsurf - 通过 Continue、Cline 或 Windsurf 内置的 MCP 支持
Codex 插件 - 将此服务器封装为原生 Codex 插件

暴露的工具

服务器注册了三个抓取工具和六个存储工具。您的 AI 将每一个视为可调用的函数。

抓取工具

crawl

工具

获取任意 URL 并返回原始 HTML。映射到 Crawling API。接受 store: true 将结果推送到 Cloud Storage。

crawl_markdown

工具

抓取一个 URL 并返回干净的 Markdown - 内容从 HTML 中提取，针对 LLM 消费进行了优化。

crawl_screenshot

工具

将 URL 渲染为 PNG。作为图像内容返回，模型可以直接查看。接受 store: true 以将底层 HTML 页面持久化到 Cloud Storage（截图图像本身不会被存储 - 仅存储渲染后的 HTML）。

存储工具

用于检索和管理通过 store: true 存储的页面的六个工具：

storage_get

工具

通过 rid 或 url 获取一个已存储的页面。使用 as: "json" | "html" | "markdown" 选择响应格式。

storage_bulk_get

工具

一次调用最多获取 100 个 RID。传入 as: "metadata_only"（默认）以保持上下文精简 - 仅返回 RID/URL/时间戳 - 或传入 as: "json" | "html" | "markdown" 以包含正文。可选 auto_delete: true，用于读取时即清空 silo 的即发即弃管道。

storage_list

工具

通过滚动分页枚举已存储的 RID，每次调用最多 1,000 个。

storage_count

工具

您存储仓库中的文档总数。

storage_delete

工具

通过 RID 删除一个已存储的页面。

storage_bulk_delete

工具

在一次调用中通过 RID 删除最多 100 个已存储的页面。适用于在管道结束时清空仓库。

按 token 划分的存储仓库

存储按 token 进行分区。使用 CRAWLBASE_TOKEN 抓取的页面与使用 CRAWLBASE_JS_TOKEN 抓取的页面位于不同的仓库中。抓取响应中的 token_type 字段（"normal" 或 "js"）告诉您是哪一种。从 JS 仓库检索条目时，向存储工具传入 use_js_token: true。

示例会话

配置完成后，您的 AI 在对话中会自然地调用这些工具。一次典型的对话如下：

# You
What's the current price of "Web Scraping with Python" (3rd ed.) on Amazon US, UK, and DE?

# AI (calls crawl_markdown three times in parallel)
tool_use: crawl_markdown(
  url="https://www.amazon.com/dp/1098145356"
)
tool_use: crawl_markdown(
  url="https://www.amazon.co.uk/dp/1098145356"
)
tool_use: crawl_markdown(
  url="https://www.amazon.de/dp/1098145356"
)

# AI
"Web Scraping with Python" (3rd ed.) prices right now:
- US: $59.99 (in stock)
- UK: £52.99 (in stock)
- DE: €57.99 (in stock)
The US price is the lowest after currency conversion (~£47).

环境变量

CRAWLBASE_TOKEN

必需

您的 Normal token。默认用于 crawl、crawl_markdown 和存储工具。

CRAWLBASE_JS_TOKEN

安全说明

token 永远不会离开服务器进程。MCP 客户端只能看到工具定义和结果，看不到您的凭证。
模型可以请求任意 URL。如果您担心提示注入会驱动外发请求，请将 CRAWLBASE_ALLOWED_DOMAINS 设置为白名单后再运行。
本地运行。该服务器是为本地 stdio 传输设计的。在没有鉴权层的情况下，请勿通过网络对外暴露。