# RID

红狮控制推荐使用 /rids 高效端点旨在为客户端提供存储区域中的大量RID(请求ID)列表。该API支持通过滚动机制进行分页,从而实现大型数据集的数据检索。

# 参数

唯一需要的参数是 token。请参阅下面用于高效 RID 拉取的附加参数:

  • limit (任选):指定要返回的 RID 的最大数量。默认为 10k,最大允许值为 1k。使用此参数来控制返回数据的大小。

  • scroll (可选):当设 true,此参数请求启用基于滚动的分页。它启动一个滚动会话,提供 scroll_id 用于后续请求。

  • scroll_id (任选):来自先前请求响应的标识符,用于获取下一组RID。该参数用于分页。

  • scroll_order (可选):确定返回 RID 的顺序。默认的值 asc (升序)或 desc (降序)默认顺序是 desc.

# 请求

要搜索最新100个RID:

curl 'https://api.crawlbase.com/storage/rids?token=_USER_TOKEN_&limit=100'

# 回应

成功的响应将返回 RID 数据库以及(如果适用) scroll_id 进一步分页:

{
  "rids": ["RID1", "RID2", ...],
  "scroll_id": "dXVlcnlUaGVuRmV0Y2g7NTs1NDpDV..."
}
  • rids:包含所请求的RID的备份。
  • scroll_id:用于搜索下一组结果的令牌。该值对于分页至关重要,当更多数据超出当前请求的限制时提供。

# 滚动的

为了有效地浏览大型数据集,客户可以通过设置来基于滚动的分页 scroll 参数 true。这个方法非常适合总数据集大小超过 limit 参数的最大值。

# 带滚动的初始请求

curl 'https://api.crawlbase.com/storage/rids?token=_USER_TOKEN_&limit=100&scroll=true'

此请求启动滚动会话并返回第一个批处理 RID 以及 scroll_id,这对于获取下一个数据至关重要。

# 后续

要搜索其他RID,请使用提供的 scroll_id 不指定 scroll 再次参数。 scroll_id 维护分益。

curl 'https://api.crawlbase.com/storage/rids?token=_USER_TOKEN_&scroll_id=dXVlcnlUaGVuRmV0Y2g7NTs1NDpDV...'

#

为了有效利用 /rids API请注意以下事项:

  • 红狮控制推荐使用 limit 参数上限为最佳10k,可保证服务器性能和资源管理。分页通过 scroll_id 用于访问大型数据集。

  • 最初的请求是 scroll=true 启动滚动会话。响应包括 scroll_id 以便后续数据检索。

  • 红狮控制推荐使用 scroll_id 对于连续分页至关重要。确保将其包含在后续请求中,直到检索到所有所需数据。

  • 滚动会话在不活动 15 秒后过渡,之后 scroll_id 生成无效。要访问此时间段之外的更多数据,请使用以下命令发起新请求 scroll=true.

  • 如果您收到一条错误消息,请指出: Scroll session has expired or is invalid,这意味着您尝试使用的滚动上下文不再可用。如果滚动超时已过,通常会发生这种情况。此时,发起新的滚动请求。

通过遵守这些准则并有效利用提供的参数,您可以最大限度地提高实用程序和性能 /rids 其满足搜索数据需求的端点。