# 回应

当执行请求时 Crawlbase 你会得到回复。

此响应将是 JSON 对象或页面的使用代码,具体说明您的使用代码 格式 参数(默认为html)。

# HTML 响应

如果您选择了 html 响应格式(这是默认格式),您将接收到页面的 html 作响应。

响应参数 将添加到响应标头中。

GET 'https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=html'
Response:
  Headers:
    url: https://github.com/crawlbase?tab=repositories
    original_status: 200
    pc_status: 200
    'X-Domain-Complexity': standard

  Body:
    <!doctype html><html class="a-no-js" data-19ax5a9jf="dingo"><!-- sp:feature:head-start -->
    <head><script>var aPageStart = (new Date()).getTime();</script><meta charset="utf-8">
    ... (all the html of the page)

# JSON 响应

如果您选择了 json 请求格式,您将收到一个可以解析的 JSON 对象。

这个对象包含您需要的所有信息。 响应参数 所有信息。

GET 'https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json'
Response:
{
  "original_status": "200",
  "pc_status": 200,
  "url": "https://github.com/crawlbase?tab=repositories",
  "domain_complexity": "standard",
  "body": "\u003C!doctype html\u003E\u003Chtml class=\"a-no-js\" data-19ax5a9jf\n... (all the html of the page)"
}

#

如您在上面的示例中看到的,响应,json 或 html 将返回 json 的参数html的标题请求,这就是你知道发生的请求。

# 网址

请求中发送的原始URL 或重定向的URL Crawlbase 紧随其后。

# 原始状态

我们(的状态响应)Crawlbase) 在抓取请求中发送的 URL 时接收。

它可以是有效的http状态码。

请注意: Crawlbase 仅需支付以下请求的费用 original_status 成功(200, 201, 204),永久控制(301),如果控制(302)指挥结果(410, 404)。什么时候 pc_status 是200。任何其他 original_status 收到的代码将不收费。

# 电脑状态

此 Crawlbase (pc) 状态代码是任何状态代码,并且它可以是最终有效的代码。
例如,一个网站可能会返回 original_status 200个下验证码,在这种情况下, pc_status 将是503。

任何非标准代码(如 601、999 等)均是内部工程团队,仅用于在联系支持时帮助您调试问题。

请注意: 方向 Crawlbase 最终以失败告终 pc_status 代码(与200不同)不会收费。

# X域复杂性

复杂度级别表示抽取或爬取给定范围内的消耗,也反映了相关的资源需求和定价:

  • standard – 易于抓取或爬取的域名,且有保护措施。这些域名通常价格最低。
  • moderate – 具有中等反机器人保护措施的域名,需要专门处理。这些域名通常具有中等定价等级,并且处理起来需要更多资源。
  • complex – 拥有高级防护系统的域名,难以抓取或夺取。此类域名需要先进的技术和专业资源,价格也较高。

了解不同的域名复杂程度有助于概述任务的潜在价格和技术考虑因素。有关基于我们域名复杂程度的具体价格信息,请参阅您的订阅计划或通过以下方式联系团队的销售: 联系页面.

# 身体

此参数只在json中可用 格式, 在 html 中 format 将是本身的主体。

页面内容 Crawlbase 发现这是代理抽取请求中发送的URL的结果。