# 整体
这款 /bulk
端点允许客户端使用请求 ID (RID) 列表批量检索数据。此操作支持对大型数据集进行高效的数据检索,并提供在检索后自动从存储中删除所获取的项目的选项。
# 参数
发送具有以下属性的 JSON 对象:
rids
(必需):您要检索的数据的 RID 数组。auto_delete
(可选):一个布尔参数,当设置为true
,检索到的项目在检索后会自动从存储中删除。默认值为false
,这意味着除非明确要求,否则项目不会被删除。
# 请求
要检索并自动删除三个 RID 的数据:
curl -X POST 'https://api.crawlbase.com/storage/bulk?token=_USER_TOKEN_' \
-H 'Content-Type: application/json' \
-d '{ "rids": ["RID1","RID2","RID3"], "auto_delete": true }'
# 响应
响应是一个 JSON 对象数组,每个对象代表一个 RID 的数据。请注意, body
字段是 base64 编码和 gzip 压缩的。您需要对其进行 Base64 解码,然后进行 gzip 解压缩以检索原始内容。
[
{
"stored_at": "2021-03-01T14:22:58+02:00",
"original_status": 200,
"pc_status": 200,
"rid": "RID1",
"url": "URL1",
"body": "BODY1"
},
{
"stored_at": "2021-03-01T14:30:51+02:00",
"original_status": 200,
"pc_status": 200,
"rid": "RID2",
"url": "URL2",
"body": "BODY2"
}
]
# 笔记
为了有效利用 /bulk
API请注意以下事项:
每个请求可处理的最大 RID 数量为 100。如果发送的 RID 超过 100 个,则仅处理前 100 个。
这款
auto_delete
该功能对于维护存储效率和管理数据生命周期特别有用,而无需单独的删除请求。明智地使用此功能以避免意外的数据丢失。