# 爬虫API

如果您需要通过 API 监控爬虫的统计信息/历史、清除爬虫或从特定的爬虫中删除作业,请按照以下说明操作:

请注意: 您需要在您的 JS 上执行以下 API 调用,如果需要调用 TCP 的令牌替换为 JS 令牌。

# 统计API

要查看抓取工具的摘要,以及成功尝试、等待和重选,以及抓取历史记录成功的细分:

curl 'https://api.crawlbase.com/crawler/_USER_TOKEN_/stats'

要按日期间隔过过滤历史统计信息,请发出以下GET请求:

curl 'https://api.crawlbase.com/crawler/_USER_TOKEN_/stats?history_from=yyyy-mm-dd&history_to=yyyy-mm-dd'

# 清除API

要清除爬虫,请发出 POST 请求,发送下面的爬虫名称和正确令牌(JS/TCP):

curl -X POST 'https://api.crawlbase.com/crawler/_USER_TOKEN_/YourCrawlerName/purge'

请注意: 所有页面 在给定的爬虫中将被立即删除。

# 删除作业API

要从给定的爬虫中删除作业,请发出以下 POST 请求,正确的请求 RID、发送 (JS/TCP) 和爬虫名称:

curl -X POST 'https://api.crawlbase.com/crawler/_USER_TOKEN_/YourCrawlerName/delete_job?rid=RID'

# 寻找工作API

要在爬虫程序中按 RID 查找请求,请发出以下 GET 请求,发送正确的请求 RID、令牌(/TCP)和名称:

curl 'https://api.crawlbase.com/crawler/_USER_TOKEN_/YourCrawlerName/find_by_rid/RID'

如果在中: 如果请求在中,等待重试重试,那么你会得到一个响应 status: QUEUED.

{
  "status": "QUEUED",
  "request_info": {
    "rid": "YOUR_RID",
    "url": "YOUR_URL",
    "retry": 3,
    "created_at": 1600494969.189415
  }
}

如果不在: 如果请求已经被抓住或不在其中,你会得到 status: NOT_QUEUED.

{
  "status": "NOT_QUEUED",
  "request_info": {
    "rid": "YOUR_RID"
  }
}