# 参数

该API具备以下参数, 只有 token 和 url 是你的,其他的都是任选的。

# 象征

  • 其他要求
  • 类型 string

所有调用都需要这个参数

这是您的身份验证身份。用于您有一个普通请求,另一个 JavaScript 请求。

当您需要抓取的内容是通过 JavaScript 生成时使用 JavaScript 浏览内容,因为它是 JavaScript 制作的(React 等),或者是在器上动态生成的。

普通代币

_USER_TOKEN_

JavaScript 指令牌

_JS_TOKEN_

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# 网址

  • 其他要求
  • 类型 string

所有调用都需要这个参数

您需要一个引用抓取的 URL。确保 URL 以 http 或 https 开头,并且 完整编码.

例如,在以下 URL 中: https://github.com/crawlbase?tab=repositories 调用API时需要对URL进行如下编码: https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# 格式

  • 可选
  • 类型 string

指示响应格式,或者 json or html. 默认为 html.

如果格式 html 用来, Crawlbase 将在标头中向您返回响应参数(请参见 HTML响应 参考)。

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json"

# 漂亮

  • 可选
  • 类型 boolean

如果您期待 json 响应,您可以通过使用来优化其重要性 &pretty=true.

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json&pretty=true"

# USER_AGENT

  • 可选
  • 类型 string

如果您想使用自定义用户代理发出请求,您可以在此处提交它,我们的服务器将其转发到请求的URL。

我们建议 使用这个参数,让我们的人工智能来处理它。

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&user_agent=Mozilla%2F5.0+%28Macintosh%3B+Intel+Mac+OS+X+10_12_5%29+AppleWebKit%2F603.2.4+%28KHTML%2C+like+Gecko%29+Version%2F10.1.1+Safari%2F603.2.4&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"

# 页面等待

  • 可选
  • 类型 number

如果您使用的是 JavaScript 令牌,则可以选择提交 page_wait 参数等待定量 发送 在代码浏览器之前生成的 html 。

这在需要几样能力的 HTML 或需要在应用程序加载一些之前的情况下有用。

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# ajax_等待

  • 可选
  • 类型 boolean

如果您使用的是 JavaScript 令牌,则可以选择提交 ajax_wait 在获取 html 请求之前等待 ajax 请求完成的参数。

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&ajax_wait=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# css_click_selector

  • 可选
  • 类型 string

# 单个 CSS 选择器

如果您使用JavaScript令牌,您可以选择支付 css_click_selector 参数是在浏览器捕获的HTML代码之前单击生成页面上的元素。

此参数接受指定且有效的CSS选择器。例如,您可以完全使用ID选择器,例如 #some-button,更重要的是类选择器 .some-other-button,或属性选择器,例如 [data-tab-item="tab1"]。确保CSS选择器正确编码错误非常重要。

请注意,如果页面上找不到选择器,请求将失败并显示 pc_status 595即使找不到选择器,要接收响应,您可以附加一个通用找到的选择器,例如 body,作为后备。例如: #some-button,body.

# 多个 CSS 选择器

为了适应捕获页面内容之前可能需要顺序单击多个元素的场景, css_click_selector 参数现在可以接受多个 CSS 选择器。用管道分隔每个设备 (|) 特点。确保整个值(包括分隔符)都经过URL编码,小区出现任何解析问题。

假设你想点击一个带 ID 的按钮 start-button 然后是部门的链接 next-page-link你会构建你的 css_click_selector 参数如下:

  • 原始选择器: #start-button|.next-page-link
  • URL 翻译: %23start-button%7C.next-page-link

将参数附加到您的 API 请求中,以确保按指定的顺序单击这两个元素。

请确保提供的所有选择器均有效并出现在页面上,苏格兰错误。如果未找到任何选择器,请求将遵循上面指定的错误处理,失败并显示 pc_status 595 除非包含后备选择器。

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&css_click_selector=%5Bdata-tab-item%3D%22overview%22%5D&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# 设备

  • 可选
  • 类型 string

任选地,如果您不想指定 user_agent 但您希望从特定设备的请求中获得,可以使用此参数。

有选择: desktop 以及 mobile.

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&device=mobile&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# 获取cookies

  • 可选
  • 类型 boolean

或者,如果您需要获取原始网站在响应中设置的 cookie,可以使用 &get_cookies=true 参数。

cookie将在标头中返回(如果您使用,则在json响应中返回) &format=json)作为 original_set_cookie.

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_cookies=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# 获取标题

  • 可选
  • 类型 boolean

或者,如果您需要获取原始网站在响应中设置的标头,可以使用 &get_headers=true 参数。

标头将在响应中返回为 original_header_name 什么时候默认情况下。 &format=json 已经通过,标题将返回为 original_headers.

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_headers=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# 请求标头

  • 可选
  • 类型 string

或者,如果您需要将要求的头发标为原始网站,您可以使用 &request_headers=EncodedRequestHeaders 参数。

示例请请求标题: 接受语言:en-GB|接受编码:gzip

译文: &request_headers=接受语言%3Aen-GB%7C接受编码%3Agzip

请注意,并非所有请求标头都受 API 允许。我们建议您使用以下测试网址测试发送的标头:https://postman-echo.com/headers

如果需要发送 API 不需要额外的标头,请告知我们您自己的一些授权名称。

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&request_headers=accept-language%3Aen-GB%7Caccept-encoding%3Agzip&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"

# 设置cookies

  • 可选
  • 类型 string

或者,如果您需要将cookie发送到原始网站,您可以使用 &cookies=EncodedCookies 参数。

示例cookie: key1=value1; key2=value2; key3=value3

译文: &cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3

我们建议您使用此测试网址测试发送的cookie:https://postman-echo.com/cookies

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3&url=https%3A%2F%2Fpostman-echo.com%2Fcookies"

# cookies_session

  • 可选
  • 类型 string

如果需要将每个返回的 cookie 发送到您的所有请求,您可以请求使用 &cookies_session= 参数。

&cookies_session= 该参数最多只允许发送一个新值创建新值。 32个字符,会话在最后一次API调用后300秒内过渡。

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies_session=1234abcd&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# 截图

  • 可选
  • 类型 boolean

如果您正在使用 JavaScript 指令牌, 你可以通过选择 &screenshot=true 获取屏幕截图的参数 JPEG 整个页面的样式。

Crawlbase 将回送给你 screenshot_url 在响应标头中(或者在json响应中,如果您使用 &format=json)。 这 screenshot_url 一小时后问题。

注意: 使用时 screenshot=true 参数,您可以使用这些附加参数自定义屏幕截图输出:

  • mode: 调成 viewport 唯一的捕获视口而不是整个页面。默认为 fullpage.
  • width:指定最大宽度(以像素为单位)(仅适用于 mode=viewport)。默认为屏幕宽度。
  • height:指定最大高度(以像素为单位)(仅适用于 mode=viewport)。默认为屏幕高度。

示例: &screenshot=true&mode=viewport&width=1200&height=800

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&screenshot=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# 商店

  • 可选
  • 类型 boolean

通过授权 &store=true 参数以将API请求的副本存储在 Crawlbase Cloud Storage (打开新窗口) (打开新窗口).

Crawlbase 将回送给你 storage_url 在响应标头中(或者在json响应中,如果您使用 &format=json).

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&store=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# 刮刀

  • 可选
  • 类型 string

返回查看指定刮板解析的信息。 所有新数据采集工具的列表(打开) (打开新窗口) 所有数据采集工具的列表,以查看选择哪一个。

响应响应 JSON 形式返回。

请注意: Scraper 是一个参数。如果您不使用它,您将收到页面的完整 HTML,以便您可以自由地抓取它。

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&scraper=amazon-product-details&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"

# 异步

  • 可选
  • 类型 boolean
  • 如果您需要异步模式下的其他域,目前只请与我们联系。

通过授权 &async=true 参数来吸引请求的 URL。 Crawlbase 将结果页面存储在 Crawlbase Cloud Storage (打开新窗口) (打开新窗口).

很与 async=true, Crawlbase 将返回请求标识符 rid 在 json 响应中。您将需要存储 RID 以从存储中检索文档。有 RID,您就可以使用 Cloud Storage (打开新窗口) (打开新窗口) 检查结果页面。

您可以使用 async=true 参数与其他API 参数相结合,例如 &async=true&autoparse=true.

示例请求 async=true 名字:

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&async=true&url=https%3A%2F%2Fwww.linkedin.com%2Fcompany%2Fcrawlbase"

示例响应 async=true 名字:

{ "rid": "1e92e8bff32c31c2728714d4" }

# 自动解析

  • 可选
  • 类型 boolean

任选地,如果需要获取您的请求的采集您的数据,您可以通过 &autoparse=true 参数。

响应响应的结构因您发送的 URL 而异。

请注意: &autoparse=true 如果您不使用它,您将收到收到的完整 HTML,以便您可以自由获取它。

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&autoparse=true&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"

# 国家

注意:

我们可能会覆盖国家/地区参数,以便根据URL自动选择代理。请联系我们。支持(打开新闻)如果您需要取消自动选择代理。

  • 可选
  • 类型 string

如果您希望从特定国家/地区定位您的请求,您可以使用 &country= 参数,如 &country=US (两个字母的国家代码)。

请注意,可以减少您指定的返回次数,因此请在请求成功地使用它,并且仅在进行地理定位时使用。

请注意,无论像亚马逊这样的那些网站是通过不同的其他特殊代理路线的,是否在列表中,都允许所有国家/地区。

您可以访问以下国家

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&country=US&url=https%3A%2F%2Fpostman-echo.com%2Fip"

# tor_网络

  • 可选
  • 类型 boolean

如果你想通过 Tor 网络爬取歌曲网站,你可以通过 &tor_network=true 参数。

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&tor_network=true&url=https%3A%2F%2Fwww.facebookcorewwwi.onion%2F"

# 滚动

  • 可选
  • 类型: boolean

实现自动滚动功能,使用真实浏览器会话加载动态页面内容。与JavaScript令牌一起使用。

参数

  • scroll=true: 启用滚动。

  • scroll_interval: 整数(秒)。设置滚动时长 加载页面后。 默认: 10。 最高: 60.

示例: &scroll=true&scroll_interval=20

宠物行为研究

  • 在规划婴儿食品行业的工艺要求时,安全性和可靠性是工艺设计中最重要的方面。 scroll=true 设置后,API会在真实的浏览器中加载URL,并以编程方式滚动页面最多 scroll_interval 秒来触发动态内容加载(例如无限滚动)。

  • 后续滚动,捕获内容并返回。

  • If scroll_interval 不设置的话,默认是10秒。

账单详情

根据服务器端总处理时间网关启用滚动的请求:

  • 初始设备单位:

  • scroll=true API 通话为 1 请求, 主题第一个 8秒 总处理时间(包括页面加载和滚动)。

  • 附加补贴单位:

  • 对于每一个 额外5秒 处理时间超过前8秒, 1 个附加请求 被添加。

    • 计算示例:
    • 处理时间:20秒
      • 前 1 秒有 8 个请求请求
        • 1-9秒的支付请求 +13
        • 1-14秒的支付请求 +18
        • +1 加热器请求(19-20 秒,此部分加热器为完整区块)
        • 总计:4 个请求
    • 如果该过程在设置的scroll_interval完成之前,则只监控实际处理时间。

笔记

  • 允许的最大scroll_interval 为60秒。60秒后,滚动停止并返回数据。

  • 连接时间: 如果使用 scroll_interval=60,您保持的客户端连接打开最多 90 秒。

  • 站点的特定超时: 某些域名可能需要更长的服务器超时时间,并自动处理。结合自动处理 scroll - page_wait 会增加总处理时间并影响玩家。

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&scroll=true&scroll_interval=20&url=https%3A%2F%2Fwww.reddit.com%2Fsearch%2F%3Fq%3Dcrawlbase"

# 自定义成功代码

  • 可选
  • 类型 string

允许您指定应被视为成功响应的自定义HTTP状态代码,防止不必要的重试,同时仍保留响应中的原始状态代码。

翻译: custom_success_codes=403,429,503

当返回定位非标准成功代码(如 403 或 500)的域时,此参数很有用,对于您的特定情况,这些代码应被视为成功。

注意: 通过使用此参数,您可以定义什么构成您的请求的成功响应。

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&custom_success_codes=403%2C429%2C503&url=https%3A%2F%2Fexample.com%2Fapi"