Crawlbase 开发者文档
网络,
为构建者而结构化。
通过单一 API 大规模爬取、抓取和解析任何网站。生产就绪的端点、原生 SDKs,以及可直接接入 Claude、Cursor 和您的代理栈的 MCP 服务器。
选择适合您技术栈的接口
通用爬取,具备完整的无头浏览器渲染、住宅代理和内置的反爬绕过能力。瑞士军刀般的存在。
以高并发推送数百万 URL,结果通过 webhook 流式返回。我们负责处理队列、重试和存储。
支持轮换的住宅和数据中心代理。单一端点自动选择合适的出口节点,自动重试失败请求,兼容任意 HTTP 客户端。
存储、管理并提供抓取的数据。持久化爬取的 HTML 和解析后的 JSON - 后续通过 url 或 rid 获取,无需运维任何基础设施。
我可以构建什么?
按计划轮询 Amazon、Walmart、Best Buy 或任意零售商的产品页面。将价格、库存和评分字段快照到数据库中 - 在它们发生变化时发出告警。
为目标关键词提供每日 SERP 快照。追踪域名在自然搜索中的排名,监控 People-Also-Ask 覆盖情况,构建 SERP 特性展示仪表盘。
为 Claude、Cursor 以及任何 MCP 兼容代理提供实时网页访问能力。或批量爬取语料库,将 Markdown 导入检索索引,为 LLM 提供有据可依的回答。
遍历公司域名列表,使用 email-extractor 抓取工具提取所有可见邮箱地址,再通过 LinkedIn 公司/个人资料数据进行丰富。线索列表即可导入 CRM。
追踪竞品的产品发布、社交互动以及评论情绪变化。按周对比抓取的 JSON,标记定价、文案或功能的变化。
60 秒内完成首次爬取
curl 'https://api.crawlbase.com/?token=YOUR_TOKEN&url=https%3A%2F%2Fgithub.com%2Fcrawlbase'from crawlbase import CrawlingAPI
api = CrawlingAPI({'token': 'YOUR_TOKEN'})
response = api.get('https://github.com/crawlbase')
if response['status_code'] == 200:
print(response['body'])const { CrawlingAPI } = require('crawlbase');
const api = new CrawlingAPI({ token: 'YOUR_TOKEN' });
api.get('https://github.com/crawlbase')
.then(res => console.log(res.statusCode, res.body))
.catch(err => console.error(err));require 'crawlbase'
api = Crawlbase::API.new(token: 'YOUR_TOKEN')
response = api.get('https://github.com/crawlbase')
puts response.status_code
puts response.body<?php
use Crawlbase\CrawlingAPI;
$api = new CrawlingAPI(['token' => 'YOUR_TOKEN']);
$response = $api->get('https://github.com/crawlbase');
echo $response->statusCode;
echo $response->body;package main
import (
"fmt"
"github.com/crawlbase/crawlbase-go"
)
func main() {
api := crawlbase.NewCrawlingAPI("YOUR_TOKEN")
res, _ := api.Get("https://github.com/crawlbase")
fmt.Println(res.StatusCode, res.Body)
}






