用一个标志存储。按 RID 拉取。
Cloud Storage,实时演示。用一个参数存储一次抓取,之后再按其 RID 取回。悬停以暂停并阅读。
专为抓取而建的存储。
无需自建存储,即可保留、查找并拉取你抓取的数据。
用一个标志存储
添加 store=true 到任意 Crawling API 调用,或将 Crawler 指向云存储,渲染后的页面便会自动保留。
按 RID 取回
每一次存储的抓取都会获得一个 RID。带上它发送一个 GET 请求,页面便会直接返回,无需重新抓取。
全文搜索
在你抓取过的所有内容中搜索,找到你需要的确切页面,而无需扫描自己的数据库。
页面和截图
将渲染后的 HTML、结构化 JSON 和整页截图一同保留,全部可按同一个 RID 取回。
扩展已处理
Crawlbase 负责管理你空间的扩展、备份和清理,让你可以停用 S3 存储桶及其维护。
一个标志存储,一次调用拉取。
保持你的抓取原样。添加一个参数即可存储,一个 GET 即可取回。
添加 store=true
用 store=true 抓取任意 URL,或将云存储设为你的 Crawler webhook 目标。
我们存储并建立索引
渲染后的页面、JSON 和截图会被存储并建立索引以供全文搜索,扩展由我们处理。
保存 RID
响应会返回一个存储 RID,唯一标识你刚刚保留的页面。
取回或搜索
带上 RID 向存储端点发送一个 GET,在你的抓取中搜索,或从仪表板拉取。
团队在 Cloud Storage 中保留什么。
你技术栈的缓冲区
将抓取的页面落地到存储中,按你自己的节奏拉取到数据仓库、索引或模型中。
随时间推移的快照
保留每一次抓取,这样你就能跨日期对比一个页面,而无需再次抓取它。
在你的抓取中查找
对存储的所有内容运行全文搜索,定位你需要的确切页面和字段。
停用你自己的存储
放弃 S3 存储桶和数据库。存储会为你自动扩展、备份和清理。
用于训练和 RAG 的语料库
直接从存储中构建并重新拉取大型、干净的页面集,用于训练和检索。
Crawler 投递
将存储与 Crawler 搭配,让大批量异步抓取到达即可取回。
免费起步,低价扩展。
Cloud Storage 对开发者免费,对公司也很便宜。你为抓取量付费,而非为运行一个数据库付费。
无需你自己运行的存储。
Cloud Storage 运行在为 70,000+ 开发者提供服务的同一网络上。无需预置 S3,无需备份数据库,存满时也无需清理。
添加 store=true 一次,每一次抓取都会被保留、建立索引并可随时拉取。