登录

前置条件

您只需要两样东西:

  • 一个免费的 Crawlbase 账号:为您提供 1,000 次免费请求,无需信用卡。
  • 在您的终端里使用 curl,或在您的项目中使用我们的 官方 SDKs 之一。
两个 token,一个账号

每个账号都有一个 Normal token(TCP,最快)和一个 JavaScript token(完整 Chrome 渲染)。根据目标站点选择:大多数 APIs 和静态页面使用 Normal token 即可。

您的第一个请求

Crawling API 只需要一个必填参数 url:完全 URL 编码。填入您的 token,即可开始爬取。

GEThttps://api.crawlbase.com/?token=YOUR_TOKEN&url=ENCODED_URL
curl 'https://api.crawlbase.com/?token=YOUR_TOKEN&url=https%3A%2F%2Fhttpbin.org%2Fheaders'
from crawlbase import CrawlingAPI

api = CrawlingAPI({'token': 'YOUR_TOKEN'})
res = api.get('https://httpbin.org/headers')

print(res['status_code'])
print(res['body'])
const { CrawlingAPI } = require('crawlbase');
const api = new CrawlingAPI({ token: 'YOUR_TOKEN' });

const res = await api.get('https://httpbin.org/headers');
console.log(res.statusCode, res.body);
require 'crawlbase'

api = Crawlbase::API.new(token: 'YOUR_TOKEN')
res = api.get('https://httpbin.org/headers')

puts res.status_code
puts res.body
<?php
use Crawlbase\CrawlingAPI;

$api = new CrawlingAPI(['token' => 'YOUR_TOKEN']);
$res = $api->get('https://httpbin.org/headers');

echo $res->statusCode . PHP_EOL;
echo $res->body;
package main

import (
    "fmt"
    "github.com/crawlbase/crawlbase-go"
)

func main() {
    api := crawlbase.NewCrawlingAPI("YOUR_TOKEN")
    res, _ := api.Get("https://httpbin.org/headers")
    fmt.Println(res.StatusCode)
    fmt.Println(res.Body)
}
Windows 命令提示符

在 Windows 命令提示符(cmd.exe)中,请将 URL 两侧的单引号替换为双引号:curl "https://api.crawlbase.com/?token=YOUR_TOKEN&url=ENCODED_URL"。单引号是 Unix shell 的惯例;cmd.exe 会将其原样传递,导致请求失败。PowerShell、macOS 和 Linux shell 均可接受上面的单引号形式。

您将收到页面的 HTML,以及若干描述上游响应情况的 headers。其中最重要的几个:

original_status
int
目标网站返回给我们的 HTTP 状态码。可用于区分「网站返回 404」和「我们无法访问该网站」。
pc_status
int
Crawlbase 状态码。200 表示成功。完整列表请参阅 status codes
url
string
经过所有重定向后的最终 URL。当您想知道实际落在哪个页面时非常有用。
rid
string可选
使用 &async=true&store=true 时返回的请求标识符。可用它在 Cloud Storage 中查找页面。

需要 JavaScript 渲染?

使用 React、Vue、Angular 或任何只输出空 HTML 外壳的站点,都需要真实浏览器。请切换到您的 JavaScript token:相同的 endpoint,不同的 token。

curl 'https://api.crawlbase.com/?token=YOUR_JS_TOKEN&url=https%3A%2F%2Freact-app.example.com&page_wait=2000'
from crawlbase import CrawlingAPI

api = CrawlingAPI({'token': 'YOUR_JS_TOKEN'})
res = api.get('https://react-app.example.com', {
    'page_wait': 2000,
    'ajax_wait': True,
})
print(res['body'])

常用的 JS 渲染参数:

  • page_wait:在页面加载后等待 N 毫秒(默认为 0)。
  • ajax_wait:等待网络空闲。
  • css_click_selector:在抓取前点击某个元素。

完整列表请参阅 Crawling API 参数

下一步

您已经开始爬取了。现在选择一条路径:

每一个参数、每一个 header、每一个状态码。
跳过解析步骤。Scrapers 直接返回干净的 JSON。
将 URL 推送到 Enterprise Crawler 队列。
MCP 服务器、Claude 集成、提示词模式。