Crawlbase 开发者文档
网络,
为构建者而结构化。
通过单一 API 大规模爬取、抓取和解析任何网站。生产就绪的端点、原生 SDKs,以及可直接接入 Claude、Cursor 和您的代理栈的 MCP 服务器。
$ curl'https://api.crawlbase.com/?' \'token=YOUR_TOKEN'\'&url=https://github.com/crawlbase' → 200 OK // 4.2s · pc_status: 200 · 14.8 KB# JS 渲染、地理路由、反爬绕过 <!doctype html><html>…</html>
$ curl'https://api.crawlbase.com/?' \'token=YOUR_TOKEN&format=json'\'&url=https://github.com/crawlbase' → { "original_status": 200, "pc_status": 200, "url": "https://github.com/crawlbase", "body": "<!doctype html>…"}
$ curl'https://api.crawlbase.com/?' \'token=YOUR_TOKEN&format=md'\'&url=https://github.com/crawlbase' → # Crawlbase网页爬取与抓取 API - 提供 Python、Node.js、Ruby、PHP、Go SDKs。 # 或通过 MCP 服务器(相同结果,原生面向代理)> tool_use:crawl_markdown(url="https://github.com/crawlbase")
APIs
选择适合您技术栈的接口
Crawling API
通用爬取,具备完整的无头浏览器渲染、住宅代理和内置的反爬绕过能力。瑞士军刀般的存在。
JSONHTMLMarkdown
Enterprise Crawler
以高并发推送数百万 URL,结果通过 webhook 流式返回。我们负责处理队列、重试和存储。
WebhooksAsync队列
Smart AI Proxy
支持轮换的住宅和数据中心代理。单一端点自动选择合适的出口节点,自动重试失败请求,兼容任意 HTTP 客户端。
HTTPSOCKS5粘性 IP
Cloud Storage
存储、管理并提供抓取的数据。持久化爬取的 HTML 和解析后的 JSON - 后续通过 url 或 rid 获取,无需运维任何基础设施。
S3 兼容CDN
应用场景
我可以构建什么?
价格 & 库存监控
按计划轮询 Amazon、Walmart、Best Buy 或任意零售商的产品页面。将价格、库存和评分字段快照到数据库中 - 在它们发生变化时发出告警。
电商抓取工具Crawler 队列
SEO & 排名追踪
为目标关键词提供每日 SERP 快照。追踪域名在自然搜索中的排名,监控 People-Also-Ask 覆盖情况,构建 SERP 特性展示仪表盘。
Google SERPBing SERP
AI 代理 & 训练数据
为 Claude、Cursor 以及任何 MCP 兼容代理提供实时网页访问能力。或批量爬取语料库,将 Markdown 导入检索索引,为 LLM 提供有据可依的回答。
MCP 服务器Markdown 导出
线索丰富 & 客户开发
遍历公司域名列表,使用 email-extractor 抓取工具提取所有可见邮箱地址,再通过 LinkedIn 公司/个人资料数据进行丰富。线索列表即可导入 CRM。
email-extractorLinkedIn 抓取工具
竞品 & 品牌监控
追踪竞品的产品发布、社交互动以及评论情绪变化。按周对比抓取的 JSON,标记定价、文案或功能的变化。
社交抓取工具通用提取器
快速开始
60 秒内完成首次爬取
1
获取您的 token
免费注册,无需信用卡。您将获得一个 Normal token(TCP)和一个 JavaScript token。
2
发送您的第一个请求
对 URL 进行编码,使用 curl 或 SDK 调用端点。响应包含已爬取的页面以及元数据。
3
扩展规模
切换到 async 模式,推送到 Crawler 队列,或将 MCP 服务器接入您的 AI 代理。
GEThttps://api.crawlbase.com/
curl 'https://api.crawlbase.com/?token=YOUR_TOKEN&url=https%3A%2F%2Fgithub.com%2Fcrawlbase'from crawlbase import CrawlingAPI
api = CrawlingAPI({'token': 'YOUR_TOKEN'})
response = api.get('https://github.com/crawlbase')
if response['status_code'] == 200:
print(response['body'])const { CrawlingAPI } = require('crawlbase');
const api = new CrawlingAPI({ token: 'YOUR_TOKEN' });
api.get('https://github.com/crawlbase')
.then(res => console.log(res.statusCode, res.body))
.catch(err => console.error(err));require 'crawlbase'
api = Crawlbase::API.new(token: 'YOUR_TOKEN')
response = api.get('https://github.com/crawlbase')
puts response.status_code
puts response.body<?php
use Crawlbase\CrawlingAPI;
$api = new CrawlingAPI(['token' => 'YOUR_TOKEN']);
$response = $api->get('https://github.com/crawlbase');
echo $response->statusCode;
echo $response->body;package main
import (
"fmt"
"github.com/crawlbase/crawlbase-go"
)
func main() {
api := crawlbase.NewCrawlingAPI("YOUR_TOKEN")
res, _ := api.Get("https://github.com/crawlbase")
fmt.Println(res.StatusCode, res.Body)
}AI & MCP
为 AI 代理打造的原生管道
SDKs & 集成





