Crawlbase 文档 - 用于爬取、抓取和 AI 代理的 APIs

网络，
为构建者而结构化。

通过单一 API 大规模爬取、抓取和解析任何网站。生产就绪的端点、原生 SDKs，以及可直接接入 Claude、Cursor 和您的代理栈的 MCP 服务器。

最多 20,000 次免费请求195 个国家/地区每个 token 每月 5100 万次请求无需信用卡

~/crawlbase

$ curl'https://api.crawlbase.com/?' \'token=YOUR_TOKEN'\'&url=https://github.com/crawlbase' → 200 OK // 4.2s · cb_status: 200 · 14.8 KB# JS 渲染、地理路由、反爬绕过 <!doctype html><html>…</html>

$ curl'https://api.crawlbase.com/?' \'token=YOUR_TOKEN&format=json'\'&url=https://github.com/crawlbase' → { "original_status": 200, "cb_status": 200, "url": "https://github.com/crawlbase", "body": "<!doctype html>…"}

$ curl'https://api.crawlbase.com/?' \'token=YOUR_TOKEN&format=md'\'&url=https://github.com/crawlbase' → # Crawlbase网页爬取与抓取 API - 提供 Python、Node.js、Ruby、PHP、Go SDKs。 # 或通过 MCP 服务器(相同结果，原生面向代理)> tool_use:crawl_markdown(url="https://github.com/crawlbase")

APIs

选择适合您技术栈的接口

浏览所有 APIs

Crawling API

通用爬取，具备完整的无头浏览器渲染、住宅代理和内置的反爬绕过能力。瑞士军刀般的存在。

JSONHTMLMarkdown

Enterprise Crawler

以高并发推送数百万 URL，结果通过 webhook 流式返回。我们负责处理队列、重试和存储。

WebhooksAsync队列

Smart AI Proxy

支持轮换的住宅和数据中心代理。单一端点自动选择合适的出口节点，自动重试失败请求，兼容任意 HTTP 客户端。

HTTPSOCKS5粘性 IP

Cloud Storage

存储、管理并提供抓取的数据。持久化爬取的 HTML 和解析后的 JSON - 后续通过 url 或 rid 获取，无需运维任何基础设施。

S3 兼容CDN

应用场景

我可以构建什么？

浏览抓取工具

价格 & 库存监控

按计划轮询 Amazon、Walmart、Best Buy 或任意零售商的产品页面。将价格、库存和评分字段快照到数据库中 - 在它们发生变化时发出告警。

电商抓取工具Crawler 队列

SEO & 排名追踪

为目标关键词提供每日 SERP 快照。追踪域名在自然搜索中的排名，监控 People-Also-Ask 覆盖情况，构建 SERP 特性展示仪表盘。

Google SERPBing SERP

AI 代理 & 训练数据

为 Claude、Cursor 以及任何 MCP 兼容代理提供实时网页访问能力。或批量爬取语料库，将 Markdown 导入检索索引，为 LLM 提供有据可依的回答。

MCP 服务器Markdown 导出

线索丰富 & 客户开发

遍历公司域名列表，使用 email-extractor 抓取工具提取所有可见邮箱地址，再通过 LinkedIn 公司／个人资料数据进行丰富。线索列表即可导入 CRM。

email-extractorLinkedIn 抓取工具

竞品 & 品牌监控

追踪竞品的产品发布、社交互动以及评论情绪变化。按周对比抓取的 JSON，标记定价、文案或功能的变化。

社交抓取工具通用提取器

快速开始

60 秒内完成首次爬取

获取您的 token

免费注册，无需信用卡。您将获得一个 Normal token（TCP）和一个 JavaScript token。

发送您的第一个请求

对 URL 进行编码，使用 curl 或 SDK 调用端点。响应包含已爬取的页面以及元数据。

扩展规模

切换到 async 模式，推送到 Crawler 队列，或将 MCP 服务器接入您的 AI 代理。

GEThttps://api.crawlbase.com/

curl 'https://api.crawlbase.com/?token=YOUR_TOKEN&url=https%3A%2F%2Fgithub.com%2Fcrawlbase'
from crawlbase import CrawlingAPI

api = CrawlingAPI({'token': 'YOUR_TOKEN'})
response = api.get('https://github.com/crawlbase')

if response['status_code'] == 200:
    print(response['body'])
const { CrawlingAPI } = require('crawlbase');
const api = new CrawlingAPI({ token: 'YOUR_TOKEN' });

api.get('https://github.com/crawlbase')
   .then(res => console.log(res.statusCode, res.body))
   .catch(err => console.error(err));
require 'crawlbase'

api = Crawlbase::API.new(token: 'YOUR_TOKEN')
response = api.get('https://github.com/crawlbase')

puts response.status_code
puts response.body
<?php
use Crawlbase\CrawlingAPI;

$api = new CrawlingAPI(['token' => 'YOUR_TOKEN']);
$response = $api->get('https://github.com/crawlbase');

echo $response->statusCode;
echo $response->body;
package main

import (
    "fmt"
    "github.com/crawlbase/crawlbase-go"
)

func main() {
    api := crawlbase.NewCrawlingAPI("YOUR_TOKEN")
    res, _ := api.Get("https://github.com/crawlbase")
    fmt.Println(res.StatusCode, res.Body)
}

AI & MCP