登录

什么是 MCP?

Model Context Protocol 是一个用于将 AI 助手连接到外部工具的开放标准。Crawlbase MCP 服务器使用 MCP 协议,因此任何兼容的客户端 - Claude Desktop、Cursor、Zed、Continue、OpenAI Agents SDK - 都可以将 Crawlbase 作为原生能力使用。

结果就是:您的 AI 可以在对话过程中获取页面、解析产品、截取屏幕或搜索网络。无需胶水代码,无需在窗口之间复制粘贴,无需代理服务器。

相同的 API,对话式接口

MCP 服务器是对 AI & MCP 中所记录的相同 API 的轻量封装。您的 token、您的并发限制、您的用量。唯一改变的是调用者 - 您的代码,或者您的 AI。

安装

该服务器以一个小型 Node 进程运行。大多数客户端通过 npx 按需启动它:无需全局安装。

# No install - let your client launch it
npx @crawlbase/mcp@latest
# Or install globally if you prefer
npm install -g @crawlbase/mcp
crawlbase-mcp
docker run -i --rm \
  -e CRAWLBASE_TOKEN=YOUR_TOKEN \
  -e CRAWLBASE_JS_TOKEN=YOUR_JS_TOKEN \
  crawlbase/mcp

源代码位于 GitHub。如需直接运行需要 Node 18+。

配置您的客户端

每个 MCP 客户端都使用相同的配置结构 - 服务器名称、运行命令、环境变量。将其加入您客户端的配置文件中即可。

{
  "mcpServers": {
    "crawlbase": {
      "type": "stdio",
      "command": "npx",
      "args": ["@crawlbase/mcp@latest"],
      "env": {
        "CRAWLBASE_TOKEN": "YOUR_TOKEN",
        "CRAWLBASE_JS_TOKEN": "YOUR_JS_TOKEN"
      }
    }
  }
}

各客户端配置指南:

  • Claude Desktop 与 Claude Code - 配置位于 claude_desktop_config.json / claude.json
  • Cursor - 设置 → Tools and Integrations → Add Custom MCP
  • VS Code 与 Windsurf - 通过 Continue、Cline 或 Windsurf 内置的 MCP 支持
  • Codex 插件 - 将此服务器封装为原生 Codex 插件

暴露的工具

服务器注册了三个抓取工具和六个存储工具。您的 AI 将每一个视为可调用的函数。

抓取工具

crawl
工具
获取任意 URL 并返回原始 HTML。映射到 Crawling API。接受 store: true 将结果推送到 Cloud Storage
crawl_markdown
工具
抓取一个 URL 并返回干净的 Markdown - 内容从 HTML 中提取,针对 LLM 消费进行了优化。
crawl_screenshot
工具
将 URL 渲染为 PNG。作为图像内容返回,模型可以直接查看。接受 store: true 以将底层 HTML 页面持久化到 Cloud Storage(截图图像本身不会被存储 - 仅存储渲染后的 HTML)。

存储工具

用于检索和管理通过 store: true 存储的页面的六个工具:

storage_get
工具
通过 ridurl 获取一个已存储的页面。使用 as: "json" | "html" | "markdown" 选择响应格式。
storage_bulk_get
工具
一次调用最多获取 100 个 RID。传入 as: "metadata_only"(默认)以保持上下文精简 - 仅返回 RID/URL/时间戳 - 或传入 as: "json" | "html" | "markdown" 以包含正文。可选 auto_delete: true,用于读取时即清空 silo 的即发即弃管道。
storage_list
工具
通过滚动分页枚举已存储的 RID,每次调用最多 1,000 个。
storage_count
工具
您存储仓库中的文档总数。
storage_delete
工具
通过 RID 删除一个已存储的页面。
storage_bulk_delete
工具
在一次调用中通过 RID 删除最多 100 个已存储的页面。适用于在管道结束时清空仓库。
按 token 划分的存储仓库

存储按 token 进行分区。使用 CRAWLBASE_TOKEN 抓取的页面与使用 CRAWLBASE_JS_TOKEN 抓取的页面位于不同的仓库中。抓取响应中的 token_type 字段("normal""js")告诉您是哪一种。从 JS 仓库检索条目时,向存储工具传入 use_js_token: true

示例会话

配置完成后,您的 AI 在对话中会自然地调用这些工具。一次典型的对话如下:

# You
What's the current price of "Web Scraping with Python" (3rd ed.) on Amazon US, UK, and DE?

# AI (calls crawl_markdown three times in parallel)
tool_use: crawl_markdown(
  url="https://www.amazon.com/dp/1098145356"
)
tool_use: crawl_markdown(
  url="https://www.amazon.co.uk/dp/1098145356"
)
tool_use: crawl_markdown(
  url="https://www.amazon.de/dp/1098145356"
)

# AI
"Web Scraping with Python" (3rd ed.) prices right now:
- US: $59.99 (in stock)
- UK: £52.99 (in stock)
- DE: €57.99 (in stock)
The US price is the lowest after currency conversion (~£47).

环境变量

CRAWLBASE_TOKEN
必需
您的 Normal token。默认用于 crawlcrawl_markdown 和存储工具。
CRAWLBASE_JS_TOKEN
推荐
您的 JavaScript token。用于 crawl_screenshot 以及任何需要 JS 渲染的工具调用(SPA、客户端渲染页面)。
CRAWLBASE_DEFAULT_COUNTRY
可选
用于地理路由的默认国家(ISO 代码)。工具可在每次调用时覆盖。
CRAWLBASE_LOG_LEVEL
信息
errorwarninfodebug 之一。日志输出到 stderr,因此不会干扰 MCP stdio。

安全说明

  • token 永远不会离开服务器进程。MCP 客户端只能看到工具定义和结果,看不到您的凭证。
  • 模型可以请求任意 URL。如果您担心提示注入会驱动外发请求,请将 CRAWLBASE_ALLOWED_DOMAINS 设置为白名单后再运行。
  • 本地运行。该服务器是为本地 stdio 传输设计的。在没有鉴权层的情况下,请勿通过网络对外暴露。