What is the Crawlbase Crawler?

An asynchronous crawler built on the Crawling API. You push URLs to a managed push/pull queue and Crawlbase renders each page, retries failures and delivers the result to your webhook or to cloud storage, so you never manage queues, retries or proxies.

How is it different from the Crawling API?

The Crawling API is synchronous, you get the response on the same call. The Crawler is asynchronous, you push URLs and the data is delivered later to your webhook or storage. It keeps every Crawling API feature, including JavaScript rendering, residential proxies and parameters.

How do I start using it?

Create a named crawler in the dashboard, then add two parameters to your Crawling API call, callback=true and crawler=YourCrawlerName. That is the only change needed to switch synchronous calls to the async push/pull system.

How do I receive the data?

Two ways. Point the crawler at your webhook endpoint and Crawlbase posts each result to it, or store results in Crawlbase cloud storage and pull them when you are ready. Webhook URLs are monitored so delivery stays reliable.

Can I monitor and control my crawls?

Yes. The dashboard shows live stats for each crawler, and the Crawler API lets you check stats and manage crawls programmatically. You can pause and resume crawling to match your budget and needs.

Yes. Every page is crawled live from the internet at request time. Nothing is cached or served from an earlier crawl, so the data you receive is current.

产品 / Crawler

Crawler。
推送 URL，拉取数据，大规模异步处理。

将数百万个 URL 推送到基于 Crawling API 构建的托管推送/拉取队列，并在您的 webhook 或云存储中接收渲染后的数据。
无需运行队列、重试或代理。

免费开始阅读文档

99% 成功率异步推送与拉取Webhook 或云存储

实时爬虫队列1.24M req/min流式传输

200indeed.com/jobs?q=engineer&start=20GB150ms

200glassdoor.com/Reviews/company-reviews.htmCA194ms

200amazon.com/s?k=laptops&page=1JP110ms

200amazon.com/s?k=laptops&page=3CA80ms

301crunchbase.com/discover/organization.companiesGB162ms

200indeed.com/jobs?q=engineer&start=20ES86ms

200amazon.com/s?k=laptops&page=2SG215ms

200amazon.com/s?k=laptops&page=2BR211ms

200etsy.com/c/jewelry?page=4US99ms

200indeed.com/jobs?q=engineer&start=20JP56ms

200zillow.com/homes/for_sale/2_p/ES214ms

200booking.com/searchresults.html?offset=25FR138ms

200glassdoor.com/Reviews/company-reviews.htmES42ms

404booking.com/searchresults.html?offset=25US58ms

200aliexpress.com/category/100003070/men.htmlCA42ms

200crunchbase.com/discover/organization.companiesNL163ms

301zillow.com/homes/for_sale/2_p/US207ms

200crunchbase.com/discover/organization.companiesUS172ms

200indeed.com/jobs?q=engineer&start=20US183ms

404aliexpress.com/category/100003070/men.htmlCA48ms

200booking.com/searchresults.html?offset=25FR152ms

404yelp.com/search?find_desc=cafe&start=30JP118ms

200target.com/c/electronics/-/N-5xtg6AU164ms

200crunchbase.com/discover/organization.companiesSG158ms

200bestbuy.com/site/searchpage.jsp?st=tvGB92ms

200tripadvisor.com/Hotels-g60763-oa30DE75ms

200indeed.com/jobs?q=engineer&start=20GB150ms

200glassdoor.com/Reviews/company-reviews.htmCA194ms

200amazon.com/s?k=laptops&page=1JP110ms

200amazon.com/s?k=laptops&page=3CA80ms

301crunchbase.com/discover/organization.companiesGB162ms

200indeed.com/jobs?q=engineer&start=20ES86ms

200amazon.com/s?k=laptops&page=2SG215ms

200amazon.com/s?k=laptops&page=2BR211ms

200etsy.com/c/jewelry?page=4US99ms

200indeed.com/jobs?q=engineer&start=20JP56ms

200zillow.com/homes/for_sale/2_p/ES214ms

200booking.com/searchresults.html?offset=25FR138ms

200glassdoor.com/Reviews/company-reviews.htmES42ms

404booking.com/searchresults.html?offset=25US58ms

200aliexpress.com/category/100003070/men.htmlCA42ms

200crunchbase.com/discover/organization.companiesNL163ms

301zillow.com/homes/for_sale/2_p/US207ms

200crunchbase.com/discover/organization.companiesUS172ms

200indeed.com/jobs?q=engineer&start=20US183ms

404aliexpress.com/category/100003070/men.htmlCA48ms

200booking.com/searchresults.html?offset=25FR152ms

404yelp.com/search?find_desc=cafe&start=30JP118ms

200target.com/c/electronics/-/N-5xtg6AU164ms

200crunchbase.com/discover/organization.companiesSG158ms

200bestbuy.com/site/searchpage.jsp?st=tvGB92ms

200tripadvisor.com/Hotels-g60763-oa30DE75ms

01 实时演示

推送一个 URL，即可交付。

Crawler 实时演示。将一个 URL 推送到队列，然后在您的 webhook 上接收渲染后的结果。将鼠标悬停可暂停并阅读。

就绪

按键 1-2 切换 · 点击暂停运行您自己的 URL

几分钟内运行您的第一个请求。最多 20,000 次免费请求，无需信用卡。免费开始

02 功能

大规模爬取，队列已内置。

让大规模爬取变得困难的一切，都由我们为您运行：异步队列、重试、交付和监控，全部构建于 Crawling API 之上。

async

异步推送与拉取

想推送多少 URL 就推送多少，并持续进行。Crawlbase 在后台对它们排队、调度和渲染，因此您的客户端永不阻塞。

built-on

构建于 Crawling API 之上

保留 Crawling API 的每一项功能：JavaScript 渲染、住宅代理、地理定位、参数以及每次请求上的反爬虫处理。

deliver

Webhook 交付

将爬虫指向您的端点，每个结果都会发布到该端点。Crawlbase 会监控您的 webhook，让交付保持准确可靠。

storage

云存储

更喜欢拉取？将每个爬取的页面保留在 Crawlbase 云存储中，并按您自己的计划获取。查看 Cloud Storage.

monitor

自定义爬虫，实时统计

为每个工作负载命名一个爬虫并实时观察它。通过 API 查看统计数据，并可暂停或恢复以匹配您的预算。

fresh

新鲜数据，更少重试

每个页面都实时爬取，无缓存。推送/拉取系统将成功率推向接近 100%，因此客户端重试几乎消失。

03 工作原理

多加两个参数即可迁移。

保留您的 Crawling API 调用。添加一个回调和一个爬虫名称，您就实现了异步。

创建一个爬虫

打开 Crawler 控制台，创建一个命名的爬虫，并将其指向您的 webhook 或云存储。

推送 URL

调用 Crawling API，使用 callback=true 和 crawler=YourCrawlerName，无论是一个 URL 还是数百万个。

我们排队并渲染

Crawlbase 调度每个请求，轮换一个住宅代理，渲染页面并重试任何失败。

交付结果

每个渲染后的页面都会以 HTML 或结构化 JSON 的形式发布到您的 webhook 或写入云存储。

拉取并监控

就绪时从存储中拉取，并实时跟踪每个爬虫，可按需暂停和恢复。

04 使用场景

团队用 Crawler 构建什么。

USE / 01规模

数百万个页面

推送整个目录或站点地图，让队列逐一处理，无需客户端调度。

USE / 02数据管道

数据进入您的技术栈

将渲染后的页面直接交付到 webhook 或存储，可供您的数据仓库、索引或模型使用。

USE / 03电商

持续监控

按计划重新爬取价格、库存和商品列表，每次都能获得新鲜数据。

USE / 04AI

训练和 RAG 语料库

构建大型、干净的页面集用于训练和检索，可从存储中批量拉取。

USE / 05迁移

摆脱您自己的爬虫

用两个参数将您的推送/拉取系统换成我们的，并舍弃代理、队列和重试。

USE / 06覆盖范围

数百万个网站

用一个爬虫和一个令牌爬取数百万个受支持的网站。

05 定价

添加您要爬取的网站，即可查看价格。

添加您要爬取的网站及其月度用量和请求类型。我们按难度和类型对它们分组，然后根据每组的合并用量定价，因此您爬取得越多，价格越便宜。

100k / mo

还没有网站。在上方添加一个即可开始估算。

预估月度成本

$0/ 月

≈ $0.00 每 1,000 次请求的混合价格

最多 20,000 次请求免费。无需信用卡。

免费开始每月爬取超过 1B？联系我们 →

06 须知

值得了解。

免费试用

最多 20,000 次请求免费，无需信用卡。同一个令牌可在 Crawler、Crawling API 和每个抓取器中通用。

按用量定价

按您爬取的用量付费，无长期合同，可随时取消。可暂停和恢复以匹配您的预算。在定价页面查看完整明细。

文档齐全

创建爬虫、回调和交付均在 Crawler 文档中涵盖，附有可复制粘贴的示例。

符合 GDPR 和 CCPA

Crawlbase 在全球范围内应用消费者保护标准，将公平性和透明度融入数据处理方式。

07 为什么选择 Crawlbase

为大规模爬取网络而生。

Crawler 运行在同一个网络上，该网络服务于 70,000+ 名开发者以及全球最苛刻的爬取工作负载。无队列需运行，无代理需购买，网站变化时无需修补。

99%

平均请求成功率

70K+

网络上的客户

异步

推送与拉取，队列已处理

99.99%

网络正常运行时间

一个令牌通用于 Crawler、Crawling API 和每个抓取器，可交付到您的 webhook 或存储。

08 FAQ

Crawler 问题。

一个基于 Crawling API 构建的异步爬虫。您将 URL 推送到托管的推送/拉取队列，Crawlbase 会渲染每个页面、重试失败，并将结果交付到您的 webhook 或云存储，因此您永远无需管理队列、重试或代理。

Crawling API 是同步的，您在同一次调用中获得响应。Crawler 是异步的，您推送 URL，数据稍后交付到您的 webhook 或存储。它保留了 Crawling API 的每一项功能，包括 JavaScript 渲染和住宅代理。

在控制台中创建一个命名的爬虫，然后向您的 Crawling API 调用添加两个参数，callback=true 和 crawler=YourCrawlerName。这是将同步调用切换到异步推送/拉取系统所需的唯一更改。

有两种方式。将爬虫指向您的 webhook 端点，Crawlbase 会将每个结果发布到该端点；或将结果存储在云存储中，在您准备好时拉取。webhook URL 会被监控，让交付保持可靠。

可以。控制台显示每个爬虫的实时统计数据，Crawler API 让您查看统计数据并管理爬取。您可以暂停和恢复爬取，以匹配您的预算和需求。

是的。每个页面都在请求时从互联网实时爬取。不会缓存任何内容，也不会提供来自早前爬取的内容，因此您接收的数据是最新的。

异步爬取网络。
推送 URL，我们交付数据。

免费开始，含最多 20,000 次请求。一个令牌通用于 Crawler、Crawling API 和每个抓取器。