快速开始
注册账号,获取 token,发送您的第一个请求。从零到开始爬取,比冲一杯咖啡的时间还短。
前置条件
您只需要两样东西:
- 一个免费的 Crawlbase 账号:为您提供 1,000 次免费请求,无需信用卡。
- 在您的终端里使用
curl,或在您的项目中使用我们的 官方 SDKs 之一。
每个账号都有一个 Normal token(TCP,最快)和一个 JavaScript token(完整 Chrome 渲染)。根据目标站点选择:大多数 APIs 和静态页面使用 Normal token 即可。
您的第一个请求
Crawling API 只需要一个必填参数 url:完全 URL 编码。填入您的 token,即可开始爬取。
curl 'https://api.crawlbase.com/?token=YOUR_TOKEN&url=https%3A%2F%2Fhttpbin.org%2Fheaders'from crawlbase import CrawlingAPI
api = CrawlingAPI({'token': 'YOUR_TOKEN'})
res = api.get('https://httpbin.org/headers')
print(res['status_code'])
print(res['body'])const { CrawlingAPI } = require('crawlbase');
const api = new CrawlingAPI({ token: 'YOUR_TOKEN' });
const res = await api.get('https://httpbin.org/headers');
console.log(res.statusCode, res.body);require 'crawlbase'
api = Crawlbase::API.new(token: 'YOUR_TOKEN')
res = api.get('https://httpbin.org/headers')
puts res.status_code
puts res.body<?php
use Crawlbase\CrawlingAPI;
$api = new CrawlingAPI(['token' => 'YOUR_TOKEN']);
$res = $api->get('https://httpbin.org/headers');
echo $res->statusCode . PHP_EOL;
echo $res->body;package main
import (
"fmt"
"github.com/crawlbase/crawlbase-go"
)
func main() {
api := crawlbase.NewCrawlingAPI("YOUR_TOKEN")
res, _ := api.Get("https://httpbin.org/headers")
fmt.Println(res.StatusCode)
fmt.Println(res.Body)
}在 Windows 命令提示符(cmd.exe)中,请将 URL 两侧的单引号替换为双引号:curl "https://api.crawlbase.com/?token=YOUR_TOKEN&url=ENCODED_URL"。单引号是 Unix shell 的惯例;cmd.exe 会将其原样传递,导致请求失败。PowerShell、macOS 和 Linux shell 均可接受上面的单引号形式。
您将收到页面的 HTML,以及若干描述上游响应情况的 headers。其中最重要的几个:
200 表示成功。完整列表请参阅 status codes。需要 JavaScript 渲染?
使用 React、Vue、Angular 或任何只输出空 HTML 外壳的站点,都需要真实浏览器。请切换到您的 JavaScript token:相同的 endpoint,不同的 token。
curl 'https://api.crawlbase.com/?token=YOUR_JS_TOKEN&url=https%3A%2F%2Freact-app.example.com&page_wait=2000'from crawlbase import CrawlingAPI
api = CrawlingAPI({'token': 'YOUR_JS_TOKEN'})
res = api.get('https://react-app.example.com', {
'page_wait': 2000,
'ajax_wait': True,
})
print(res['body'])常用的 JS 渲染参数:
page_wait:在页面加载后等待 N 毫秒(默认为 0)。ajax_wait:等待网络空闲。css_click_selector:在抓取前点击某个元素。
完整列表请参阅 Crawling API 参数。
下一步
您已经开始爬取了。现在选择一条路径: