# 参数

L'API a les paramètres suivants, 令牌和 URL 必须有义务,其余的是可选的。

# 代币

  • 需要
  • 类型 string

Ce paramètre est obligatoire pour tous les appels

Il s'agit de votre jeton d'authentication。您可以使用双喷射器:在正常情况下使用 JavaScript,在其他情况下使用 JavaScript。

通过 JavaScript 使用 jeton JavaScript 来编写您的开发者浏览器的通用内容,因此可以使用 JavaScript 来创建页面(React、Angular 等),因此可以使用 JavaScript 的通用动态内容来编写内容导航。

杰顿正常

_USER_TOKEN_

杰顿 JavaScript

_JS_TOKEN_

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# 网址

  • 需要
  • 类型 string

Ce paramètre est obligatoire pour tous les appels

您可以通过浏览器访问 URL。请确保开始使用 http 或 https 等 存在完整性代码.

例如,在 l'URL suivante 中: https://github.com/crawlbase?tab=repositories API 通用套件应用程序的网址: https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# 文件格式

  • 可选
  • 类型 string

个别答复格式 json or html. 默认是 html.

Si 格式 html est utilisé,Crawlbase vous renverra les paramètres de réponse dans les en-têtes (voir [Réponse HTML]/fr/crawling-api/response/#html-response) ci-dessous)。

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json"

# 够了

  • 可选
  • 类型 boolean

如果您参加 json 响应,您可以在实用程序中进行优化 &pretty=true.

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json&pretty=true"

# USER_AGENT

  • 可选
  • 类型 string

如果您需要使用个人代理,请您提供传输服务,并且不提供传输服务和 URL 需求服务。

我们建议 使用参数和自由智能技术。

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&user_agent=Mozilla%2F5.0+%28Macintosh%3B+Intel+Mac+OS+X+10_12_5%29+AppleWebKit%2F603.2.4+%28KHTML%2C+like+Gecko%29+Version%2F10.1.1+Safari%2F603.2.4&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"

# 页面等待

  • 可选
  • 类型 number

如果你使用jeton JavaScript,你就可以改变事件 page_wait 参加数量的参数 毫秒 先进的导航功能可以捕获 HTML 代码结果。

Ceci 可以在页面中使用 ajax 来捕获 HTML 内容。

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# ajax_等待

  • 可选
  • 类型 boolean

如果你使用jeton JavaScript,你就可以改变事件 ajax_wait 参数用于处理 ajax 请求,以获取 html 响应。

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&ajax_wait=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# css_click_selector

  • 可选
  • 类型 string

# 选择 CSS unique

如果您使用jeton JavaScript,您将有机会改变 css_click_selector 导航页面前的组件参数是捕获 HTML 代码结果的永久参数。

该参数接受选择器 CSS 整体规范和验证。例如,您可以使用电话号码选择器 #some-button, 联合国商业类选拔者 .some-other-button, ou un sélecteur d'attribut tel que [data-tab-item="tab1"]CSS 选择器的最重要保证是消除错误的更正代码。

Veuillez noter que si le sélecteur n'est pas trouvé sur la page, lademande échouera avec pc_status 595。 Pour recevoir une réponse même lorsqu'un sélecteur n'est pas trouvé, you pouvez ajouter un sélecteur Universellement trouvé, comme body,请提供安全解决方案。示例: #some-button,body.

# 附加 CSS 选项

在页面内容的捕获者前线中,您需要在页面内容的前面的捕获者的附加组件中完成所有场景的准备工作, css_click_selector Le paramètre peut désormais 接受 CSS 选择器的优点。 Séparez chaque sélecteur par un tuyau (|) 角色。确保您的整体价值,其中包括单独的部分,以及用于分析问题的 URL 中的代码。

Supposons que vous souhaitiez cliquer sur un bouton avec l'ID start-button 阶级的力量 next-page-link. 您构建了您的 css_click_selector 参数如下:

  • 原始选择器: #start-button|.next-page-link
  • URL 代码: %23start-button%7C.next-page-link

请按照 API 的参数要求,保证特定订单中的两个元素。

Veuillez 您保证所有选择者都将在页面上的有效日期和礼物中消除错误。 Si aucun sélecteur n'est trouvé, lademande suivra la gestion des erreurs spécifiée ci-dessus, échouant avec pc_status 595 à moins qu'un sélecteur de secours ne soit inclus。

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&css_click_selector=%5Bdata-tab-item%3D%22overview%22%5D&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# 主文

  • 可选
  • 类型 string

如果您需要指定 user_agent 的选项,则可以使用该参数来接收特定服装的要求。

Il ya deux options disponibles: desktop et mobile.

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&device=mobile&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# 获取cookies

  • 可选
  • 类型 boolean

如果您可以选择从网站 Web d'origine définit sur la Response 获取 cookie,您可以使用该网站 &get_cookies=true 设置。

Les cookies reviendront dans l'en-tête (ou dans la réponse json si vous utilisez &format=json) 喜欢 original_set_cookie.

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_cookies=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# 获取标题

  • 可选
  • 类型 boolean

如果您可以选择从网站的原始网站 Web 上获取响应,您可以使用该网站 &get_headers=true 设置。

形式回复中的对话 original_header_name 默认。Lorsque &format=json 过去了,我们一起回顾 original_headers.

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_headers=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# 请求的答案

  • 可选
  • 类型 string

如果您可以选择在网站的原始网站上使用您的需求,请使用您的 &request_headers=EncodedRequestHeaders 设置。

请求的示例: 接受语言:en-GB|接受编码:gzip

示例代码: &request_headers=接受语言%3Afr-GB%7C接受编码%3Agzip

请注意,所有这些请求都不是 API 的自动操作。我们建议测试人员使用测试 URL:https://postman-echo.com/headers

如果您是 API 的补充协议的特使,我们将提供有关您的协议和自动版本的具体名称。

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&request_headers=accept-language%3Aen-GB%7Caccept-encoding%3Agzip&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"

# 定义 cookie

  • 可选
  • 类型 string

如果您选择在原始网站上使用 cookies,您可以使用它 &cookies=EncodedCookies 设置。

Cookies 示例: key1=value1; key2=value2; key3=value3

示例代码: &cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3

我们建议测试者使用 cookie 特使进行测试:https://postman-echo.com/cookies

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3&url=https%3A%2F%2Fpostman-echo.com%2Fcookies"

# cookies_session

  • 可选
  • 类型 string

如果您开发了饼干特使,以恢复您对所有其他应用程序的需求,请使用您的饼干 &cookies_session= 设置。

&cookies_session= Le paramètre peut être n'importe quelle valeur。 Envoyez simplement une nouvelle valeur pour créer une nouvelle session de cookies (cela vous permettra d'envoyer les cookies renvoyés par les appels suivants aux prochains appels d'API avec cette valeur de session de cookies)。最多可发送 32 个字符,会话在 API 最新申请后 300 秒到期。

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies_session=1234abcd&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# 截屏

  • 可选
  • 类型 boolean

如果您使用的是 杰顿 JavaScript,你是事件传递者 &screenshot=true 获取捕获的参数 JPEG 整个探索页面的格式。

Crawlbase 你回来了 screenshot_url dans les en-têtes de réponse (ou dans la réponse json si vous utilisez &format=json)。 该 screenshot_url 一小时内到期。

注意: 当您使用 screenshot=true 参数,您可以通过以下参数补充来捕获捕获的个人信息:

  • mode:对不起 viewport 捕获器独特的窗口位于整个页面上。默认值 fullpage.
  • width:Specifiez la Largeur maximale en Pixel(功能独特) mode=viewport)。 La valeur par défaut est la Largeur de l'écran。
  • height:Specifiez la hauteur maximale en Pixel(功能独特) mode=viewport)。 La valeur par défaut est la hauteur de l'écran。

情况安排: &screenshot=true&mode=viewport&width=1200&height=800

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&screenshot=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# 精品

  • 可选
  • 类型 boolean

通行证 &store=true 库存参数和 API 响应副本 Crawlbase 云中的库存 (ouvre une nouvelle fenêtre) (打开新窗口).

Crawlbase 你回来了 storage_url dans les en-têtes de réponse (ou dans la réponse json si vous utilisez &format=json).

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&store=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# 刮刀

  • 可选
  • 类型 string

请使用特定的刮刀进行信息分析。验证 Liste de tous les scrapers de données disponibles (ouvre une nouvelle fenêtre) (打开新窗口) 列出所有 les scrapers de données disponibles for voir lequel choisir。

回复回复采用 JSON 格式。

请注意 : Scraper 是参数选项。如果您不使用该功能,您可以在抓取工具自由页面中返回完整的 HTML 代码。

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&scraper=amazon-product-details&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"

# 异步

  • 可选
  • 类型 boolean
  • 执行情况,请在 linkedin.com 上查看该参数。请在异步模式下联系其他域。

通行证 &async=true 浏览器的 URL 参数要求异步操作。爬行该页面的 Stockera 页面结果 Crawlbase 云中的库存 (ouvre une nouvelle fenêtre) (打开新窗口).

上诉书 async=true对需求的身份进行爬取 rid 回复 json。您可以使用 RID 来恢复存储部分的文档。 Avec le RID,您可以使用套间 API de stockage en nuage (ouvre une nouvelle fenêtre) (打开新窗口) 恢复页面结果。

你可以使用 async=true 参数与示例中的 API 参数组合 &async=true&autoparse=true.

示例请求 async=true 称呼:

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&async=true&url=https%3A%2F%2Fwww.linkedin.com%2Fcompany%2Fcrawlbase"

示例答案 async=true 称呼:

{ "rid": "1e92e8bff32c31c2728714d4" }

# 自动分析

  • 可选
  • 类型 boolean

En option, si vous avez besoin d'obtenir les données extraites de la page que vous avezdemandée, vous pouvez passer &autoparse=true 设置。

回复内容为 JSON 格式。您的 URL 功能中的响应变化结构。

请注意 : &autoparse=true 这是参数选项。如果您不使用该功能,您可以在恢复自由页面后返回完整的 HTML 代码。

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&autoparse=true&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"

# 国家

  • 可选
  • 类型 string

如果您要求我们支付特定的地理费用,请使用您的权利 &country= 参数,例如 &country=US (代码支付 à deux caractères)。

Veuillez prendre en compte que la sécification d'un pays peut réduire le nombre dedemandes réssies que vous receiveez, alors utilizez-le judicieusement and uniqueness lorsque des explores de geolocalization sont necessaires.

请注意,某些网站通过不同的代理服务器进行亚马逊网络通信,并且所有这些网站都自动付款,因此您可能无法在列表中找到这些网站。

您将获得 aux pays suivants

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&country=US&url=https%3A%2F%2Fpostman-echo.com%2Fip"

#

  • 可选
  • 类型 boolean

如果您在 réseau Tor 上浏览 Web Onion 网站,您可以通过该网站 &tor_network=true 设置。

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&tor_network=true&url=https%3A%2F%2Fwww.facebookcorewwwi.onion%2F"

# 涡形

  • 可选
  • 类型 boolean

如果您使用的是 杰顿 JavaScript,你是事件传递者 &scroll=true 在 API 中,默认吊坠间隔为 10 秒。

Si vous souhaitez faire défiler plus de 10 Secondes, veuillez envoyer le &scroll=true&scroll_interval=20。充电后 20 秒即可导航页面吊坠中的参数。污损间隔最长为 60 秒。 60 秒后,系统捕获了“Données et vous les renvoie”。

默认间隔时间为 10 秒。 Toutes les 5 秒 de filement réussi comptent comme une requête JS Suplémentaire sur l'API Crawling, donc supposons que vous envoyiez unscroll_interval 20, notre système essaie de faire défiler la page pendant unmaximum de 20 秒,s'il n'a pu公平污染者如果吊坠 10 秒,则需要 2 个补充,以便在 4 处补充。

注意: 确保您在 90 秒内连接到 60 秒。

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&scroll=true&url=https%3A%2F%2Fwww.reddit.com%2Fsearch%2F%3Fq%3Dcrawlbase"