产品 / Crawler

Crawler。
推送 URL,拉取数据,大规模异步处理。

将数百万个 URL 推送到基于 Crawling API 构建的托管推送/拉取队列,并在您的 webhook 或云存储中接收渲染后的数据。
无需运行队列、重试或代理。

99% 成功率异步推送与拉取Webhook 或云存储
推送 URL拉取数据推送:任意 URLcallback=trueCrawler队列渲染重试Webhook云存储实时监控your-server.com/hookstorage.crawlbase.com实时统计已入队 · 大规模抓取 · 200
实时爬虫队列1.24M req/min流式传输
200booking.com/searchresults.html?offset=25NL197ms
404bestbuy.com/site/searchpage.jsp?st=tvJP199ms
301bestbuy.com/site/searchpage.jsp?st=tvNL64ms
200booking.com/searchresults.html?offset=25GB129ms
200yelp.com/search?find_desc=cafe&start=30AU185ms
301etsy.com/c/jewelry?page=4SG181ms
200amazon.com/s?k=laptops&page=1ES109ms
200tripadvisor.com/Hotels-g60763-oa30AU207ms
200amazon.com/s?k=laptops&page=3ES58ms
200etsy.com/c/jewelry?page=4NL190ms
200bestbuy.com/site/searchpage.jsp?st=tvNL44ms
200ebay.com/sch/i.html?_nkw=gpu&_pgn=1ES58ms
200bestbuy.com/site/searchpage.jsp?st=tvJP134ms
200bestbuy.com/site/searchpage.jsp?st=tvDE107ms
200etsy.com/c/jewelry?page=4US122ms
200indeed.com/jobs?q=engineer&start=20IN218ms
404indeed.com/jobs?q=engineer&start=20GB141ms
200tripadvisor.com/Hotels-g60763-oa30SG197ms
200glassdoor.com/Reviews/company-reviews.htmIN92ms
200zillow.com/homes/for_sale/2_p/AU122ms
200ebay.com/sch/i.html?_nkw=gpu&_pgn=1AU99ms
200indeed.com/jobs?q=engineer&start=20IN93ms
200ebay.com/sch/i.html?_nkw=gpu&_pgn=1JP69ms
301glassdoor.com/Reviews/company-reviews.htmCA90ms
301bestbuy.com/site/searchpage.jsp?st=tvDE131ms
200amazon.com/s?k=laptops&page=3ES200ms
200booking.com/searchresults.html?offset=25NL197ms
404bestbuy.com/site/searchpage.jsp?st=tvJP199ms
301bestbuy.com/site/searchpage.jsp?st=tvNL64ms
200booking.com/searchresults.html?offset=25GB129ms
200yelp.com/search?find_desc=cafe&start=30AU185ms
301etsy.com/c/jewelry?page=4SG181ms
200amazon.com/s?k=laptops&page=1ES109ms
200tripadvisor.com/Hotels-g60763-oa30AU207ms
200amazon.com/s?k=laptops&page=3ES58ms
200etsy.com/c/jewelry?page=4NL190ms
200bestbuy.com/site/searchpage.jsp?st=tvNL44ms
200ebay.com/sch/i.html?_nkw=gpu&_pgn=1ES58ms
200bestbuy.com/site/searchpage.jsp?st=tvJP134ms
200bestbuy.com/site/searchpage.jsp?st=tvDE107ms
200etsy.com/c/jewelry?page=4US122ms
200indeed.com/jobs?q=engineer&start=20IN218ms
404indeed.com/jobs?q=engineer&start=20GB141ms
200tripadvisor.com/Hotels-g60763-oa30SG197ms
200glassdoor.com/Reviews/company-reviews.htmIN92ms
200zillow.com/homes/for_sale/2_p/AU122ms
200ebay.com/sch/i.html?_nkw=gpu&_pgn=1AU99ms
200indeed.com/jobs?q=engineer&start=20IN93ms
200ebay.com/sch/i.html?_nkw=gpu&_pgn=1JP69ms
301glassdoor.com/Reviews/company-reviews.htmCA90ms
301bestbuy.com/site/searchpage.jsp?st=tvDE131ms
200amazon.com/s?k=laptops&page=3ES200ms
01 实时演示

推送一个 URL,即可交付。

Crawler 实时演示。将一个 URL 推送到队列,然后在您的 webhook 上接收渲染后的结果。将鼠标悬停可暂停并阅读。

就绪
按键 1-2 切换 · 点击暂停运行您自己的 URL
几分钟内运行您的第一个请求。最多 10,000 次免费请求,无需信用卡。免费开始
02 功能

大规模爬取,队列已内置。

让大规模爬取变得困难的一切,都由我们为您运行:异步队列、重试、交付和监控,全部构建于 Crawling API 之上。

async

异步推送与拉取

想推送多少 URL 就推送多少,并持续进行。Crawlbase 在后台对它们排队、调度和渲染,因此您的客户端永不阻塞。

built-on

构建于 Crawling API 之上

保留 Crawling API 的每一项功能:JavaScript 渲染、住宅代理、地理定位、参数以及每次请求上的反爬虫处理。

deliver

Webhook 交付

将爬虫指向您的端点,每个结果都会发布到该端点。Crawlbase 会监控您的 webhook,让交付保持准确可靠。

storage

云存储

更喜欢拉取?将每个爬取的页面保留在 Crawlbase 云存储中,并按您自己的计划获取。 查看 Cloud Storage.

monitor

自定义爬虫,实时统计

为每个工作负载命名一个爬虫并实时观察它。通过 API 查看统计数据,并可暂停或恢复以匹配您的预算。

fresh

新鲜数据,更少重试

每个页面都实时爬取,无缓存。推送/拉取系统将成功率推向接近 100%,因此客户端重试几乎消失。

03 工作原理

多加两个参数即可迁移。

保留您的 Crawling API 调用。添加一个回调和一个爬虫名称,您就实现了异步。

01

创建一个爬虫

打开 Crawler 控制台,创建一个命名的爬虫,并将其指向您的 webhook 或云存储。

02

推送 URL

调用 Crawling API,使用 callback=truecrawler=YourCrawlerName,无论是一个 URL 还是数百万个。

03

我们排队并渲染

Crawlbase 调度每个请求,轮换一个住宅代理,渲染页面并重试任何失败。

04

交付结果

每个渲染后的页面都会以 HTML 或结构化 JSON 的形式发布到您的 webhook 或写入云存储。

05

拉取并监控

就绪时从存储中拉取,并实时跟踪每个爬虫,可按需暂停和恢复。

04 使用场景

团队用 Crawler 构建什么。

USE / 01规模

数百万个页面

推送整个目录或站点地图,让队列逐一处理,无需客户端调度。

USE / 02数据管道

数据进入您的技术栈

将渲染后的页面直接交付到 webhook 或存储,可供您的数据仓库、索引或模型使用。

USE / 03电商

持续监控

按计划重新爬取价格、库存和商品列表,每次都能获得新鲜数据。

USE / 04AI

训练和 RAG 语料库

构建大型、干净的页面集用于训练和检索,可从存储中批量拉取。

USE / 05迁移

摆脱您自己的爬虫

用两个参数将您的推送/拉取系统换成我们的,并舍弃代理、队列和重试。

USE / 06覆盖范围

数百万个网站

用一个爬虫和一个令牌爬取数百万个受支持的网站。

05 定价

添加您要爬取的网站,即可查看价格。

添加您要爬取的网站及其月度用量和请求类型。我们按难度和类型对它们分组,然后根据每组的合并用量定价,因此您爬取得越多,价格越便宜。

100k / mo

还没有网站。在上方添加一个即可开始估算。

预估月度成本
$0/ 月
≈ $0.00 每 1,000 次请求的混合价格

最多 10,000 次请求免费。无需信用卡。

免费开始每月爬取超过 1B?联系我们 →
06 须知

值得了解。

免费试用

最多 10,000 次请求免费,无需信用卡。同一个令牌可在 Crawler、Crawling API 和每个抓取器中通用。

按用量定价

按您爬取的用量付费,无长期合同,可随时取消。可暂停和恢复以匹配您的预算。在定价页面查看完整明细。

文档齐全

创建爬虫、回调和交付均在 Crawler 文档中涵盖,附有可复制粘贴的示例。

符合 GDPR 和 CCPA

Crawlbase 在全球范围内应用消费者保护标准,将公平性和透明度融入数据处理方式。

07 为什么选择 Crawlbase

为大规模爬取网络而生。

Crawler 运行在同一个网络上,该网络服务于 70,000+ 名开发者以及全球最苛刻的爬取工作负载。无队列需运行,无代理需购买,网站变化时无需修补。

99%
平均请求成功率
70K+
网络上的客户
异步
推送与拉取,队列已处理
99.99%
网络正常运行时间

一个令牌通用于 Crawler、Crawling API 和每个抓取器,可交付到您的 webhook 或存储。

08 FAQ

Crawler 问题。

一个基于 Crawling API 构建的异步爬虫。您将 URL 推送到托管的推送/拉取队列,Crawlbase 会渲染每个页面、重试失败,并将结果交付到您的 webhook 或云存储,因此您永远无需管理队列、重试或代理。
Crawling API 是同步的,您在同一次调用中获得响应。Crawler 是异步的,您推送 URL,数据稍后交付到您的 webhook 或存储。它保留了 Crawling API 的每一项功能,包括 JavaScript 渲染和住宅代理。
在控制台中创建一个命名的爬虫,然后向您的 Crawling API 调用添加两个参数,callback=truecrawler=YourCrawlerName。这是将同步调用切换到异步推送/拉取系统所需的唯一更改。
有两种方式。将爬虫指向您的 webhook 端点,Crawlbase 会将每个结果发布到该端点;或将结果存储在云存储中,在您准备好时拉取。webhook URL 会被监控,让交付保持可靠。
可以。控制台显示每个爬虫的实时统计数据,Crawler API 让您查看统计数据并管理爬取。您可以暂停和恢复爬取,以匹配您的预算和需求。
是的。每个页面都在请求时从互联网实时爬取。不会缓存任何内容,也不会提供来自早前爬取的内容,因此您接收的数据是最新的。

异步爬取网络。
推送 URL,我们交付数据。

免费开始,含最多 10,000 次请求。一个令牌通用于 Crawler、Crawling API 和每个抓取器。