快速开始 · Crawlbase 文档

前置条件

您只需要两样东西：

一个免费的 Crawlbase 账号：为您提供最多 20,000 次免费请求，无需信用卡。
在您的终端里使用 curl，或在您的项目中使用我们的官方 SDKs 之一。

两个 token，一个账号

每个账号都有一个 Normal token（TCP，最快）和一个 JavaScript token（完整 Chrome 渲染）。根据目标站点选择：大多数 APIs 和静态页面使用 Normal token 即可。

您的第一个请求

Crawling API 只需要一个必填参数 url：完全 URL 编码。填入您的 token，即可开始爬取。

GEThttps://api.crawlbase.com/?token=YOUR_TOKEN&url=ENCODED_URL

curl 'https://api.crawlbase.com/?token=YOUR_TOKEN&url=https%3A%2F%2Fhttpbin.org%2Fheaders'
from crawlbase import CrawlingAPI

api = CrawlingAPI({'token': 'YOUR_TOKEN'})
res = api.get('https://httpbin.org/headers')

print(res['status_code'])
print(res['body'])
const { CrawlingAPI } = require('crawlbase');
const api = new CrawlingAPI({ token: 'YOUR_TOKEN' });

const res = await api.get('https://httpbin.org/headers');
console.log(res.statusCode, res.body);
require 'crawlbase'

api = Crawlbase::API.new(token: 'YOUR_TOKEN')
res = api.get('https://httpbin.org/headers')

puts res.status_code
puts res.body
<?php
use Crawlbase\CrawlingAPI;

$api = new CrawlingAPI(['token' => 'YOUR_TOKEN']);
$res = $api->get('https://httpbin.org/headers');

echo $res->statusCode . PHP_EOL;
echo $res->body;
package main

import (
    "fmt"
    "github.com/crawlbase/crawlbase-go"
)

func main() {
    api := crawlbase.NewCrawlingAPI("YOUR_TOKEN")
    res, _ := api.Get("https://httpbin.org/headers")
    fmt.Println(res.StatusCode)
    fmt.Println(res.Body)
}

Windows 命令提示符

在 Windows 命令提示符（cmd.exe）中，请将 URL 两侧的单引号替换为双引号：curl "https://api.crawlbase.com/?token=YOUR_TOKEN&url=ENCODED_URL"。单引号是 Unix shell 的惯例；cmd.exe 会将其原样传递，导致请求失败。PowerShell、macOS 和 Linux shell 均可接受上面的单引号形式。

您将收到页面的 HTML，以及若干描述上游响应情况的 headers。其中最重要的几个：

original_status

int

目标网站返回给我们的 HTTP 状态码。可用于区分「网站返回 404」和「我们无法访问该网站」。

cb_status

int

Crawlbase 状态码。200 表示成功。完整列表请参阅 status codes。

url

string

经过所有重定向后的最终 URL。当您想知道实际落在哪个页面时非常有用。

rid

string可选

使用 &async=true 或 &store=true 时返回的请求标识符。可用它在 Cloud Storage 中查找页面。

需要 JavaScript 渲染？

使用 React、Vue、Angular 或任何只输出空 HTML 外壳的站点，都需要真实浏览器。请切换到您的 JavaScript token：相同的 endpoint，不同的 token。

curl 'https://api.crawlbase.com/?token=YOUR_JS_TOKEN&url=https%3A%2F%2Freact-app.example.com&page_wait=2000'
from crawlbase import CrawlingAPI

api = CrawlingAPI({'token': 'YOUR_JS_TOKEN'})
res = api.get('https://react-app.example.com', {
    'page_wait': 2000,
    'ajax_wait': True,
})
print(res['body'])

常用的 JS 渲染参数：

page_wait：在页面加载后等待 N 毫秒（默认为 0）。
ajax_wait：等待网络空闲。
css_click_selector：在抓取前点击某个元素。

完整列表请参阅 Crawling API 参数。

下一步

您已经开始爬取了。现在选择一条路径：

精通 Crawling API

每一个参数、每一个 header、每一个状态码。

使用现成的 scraper

跳过解析步骤。Scrapers 直接返回干净的 JSON。

扩展到百万级

将 URL 推送到 Enterprise Crawler 队列。

接入您的 AI 智能体

MCP 服务器、Claude 集成、提示词模式。