# 参数
L'API a les paramètres suivants, 令牌和 URL 必须有义务,其余的是可选的。
# 象征
- 需要
- 类型
string
Ce paramètre est obligatoire pour tous les appels
Il s'agit de votre jeton d'authentication。您可以使用双喷射器:在正常情况下使用 JavaScript,在其他情况下使用 JavaScript。
通过 JavaScript 使用 jeton JavaScript 来编写您的开发者浏览器的通用内容,因此可以使用 JavaScript 来创建页面(React、Angular 等),因此可以使用 JavaScript 的通用动态内容来编写内容导航。
杰顿正常
_USER_TOKEN_
杰顿 JavaScript
_JS_TOKEN_
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# 网址
- 需要
- 类型
string
Ce paramètre est obligatoire pour tous les appels
您可以通过浏览器访问 URL。请确保开始使用 http 或 https 等 存在完整性代码.
例如,在 l'URL suivante 中: https://github.com/crawlbase?tab=repositories API 通用套件应用程序的网址: https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# 格式
- 可选
- 类型
string
个别答复格式 json or html. 默认是 html.
Si 格式 html 已使用, Crawlbase vous renverra les paramètres de réponse dans les en-têtes (voir HTML 回复 以下)。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json"
# 漂亮
- 可选
- 类型
boolean
如果您参加 json 响应,您可以在实用程序中进行优化 &pretty=true.
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json&pretty=true"
# USER_AGENT
- 可选
- 类型
string
如果您的需求是由个人代理使用的,您可以通过 ic 和 URL 需求的传输服务来实现。
我们建议 PAS 使用参数和自由智能技术。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&user_agent=Mozilla%2F5.0+%28Macintosh%3B+Intel+Mac+OS+X+10_12_5%29+AppleWebKit%2F603.2.4+%28KHTML%2C+like+Gecko%29+Version%2F10.1.1+Safari%2F603.2.4&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"
# 页面等待
- 可选
- 类型
number
如果你使用jeton JavaScript,你就可以改变事件 page_wait 参加数量的参数 毫秒 先进的导航功能可以捕获 HTML 代码结果。
Ceci 可以在页面中使用 ajax 来捕获 HTML 内容。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# ajax_等待
- 可选
- 类型
boolean
如果你使用jeton JavaScript,你就可以改变事件 ajax_wait 参数用于处理 ajax 请求,以获取 html 响应。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&ajax_wait=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# css_click_selector
- 可选
- 类型
string
# 单个 CSS 选择器
如果您使用jeton JavaScript,您将有机会改变 css_click_selector 导航页面前的组件参数是捕获 HTML 代码结果的永久参数。
该参数接受选择器 CSS 整体规范和验证。例如,您可以使用电话号码选择器 #some-button, 联合国商业类选拔者 .some-other-button, ou un sélecteur d'attribut tel que [data-tab-item="tab1"]CSS 选择器的最重要保证是消除错误的更正代码。
Veuillez noter que si le sélecteur n'est pas trouvé sur la page, lademande échouera avec pc_status 595。 Pour recevoir une réponse même lorsqu'un sélecteur n'est pas trouvé, you pouvez ajouter un sélecteur Universellement trouvé, comme body,请提供安全解决方案。示例: #some-button,body.
# 多个 CSS 选择器
在页面内容的捕获者前线中,您需要在页面内容的前面的捕获者的附加组件中完成所有场景的准备工作, css_click_selector Le paramètre peut désormais 接受 CSS 选择器的优点。 Séparez chaque sélecteur par un tuyau (|) 角色。确保您的整体价值,其中包括单独的部分,以及用于分析问题的 URL 中的代码。
Supposons que vous souhaitiez cliquer sur un bouton avec l'ID start-button 阶级的力量 next-page-link. 您构建了您的 css_click_selector 参数如下:
- 原始选择器:
#start-button|.next-page-link - URL 代码:
%23start-button%7C.next-page-link
请按照 API 的参数要求,保证特定订单中的两个元素。
Veuillez 您保证所有选择者都将在页面上的有效日期和礼物中消除错误。 Si aucun sélecteur n'est trouvé, lademande suivra la gestion des erreurs spécifiée ci-dessus, échouant avec pc_status 595 à moins qu'un sélecteur de secours ne soit inclus。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&css_click_selector=%5Bdata-tab-item%3D%22overview%22%5D&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# 设备
- 可选
- 类型
string
如果您需要指定 user_agent 的选项,则可以使用该参数来接收特定服装的要求。
Il ya deux options disponibles: desktop et mobile.
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&device=mobile&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# 获取cookies
- 可选
- 类型
boolean
如果您可以选择从网站 Web d'origine définit sur la Response 获取 cookie,您可以使用该网站 &get_cookies=true 设置。
Les cookies reviendront dans l'en-tête (ou dans la réponse json si vous utilisez &format=json) 喜欢 original_set_cookie.
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_cookies=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# 获取标题
- 可选
- 类型
boolean
如果您可以选择从网站的原始网站 Web 上获取响应,您可以使用该网站 &get_headers=true 设置。
形式回复中的对话 original_header_name 默认。Lorsque &format=json 过去了,我们一起回顾 original_headers.
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_headers=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# 请求标头
- 可选
- 类型
string
如果您可以选择在网站的原始网站上使用您的需求,请使用您的 &request_headers=EncodedRequestHeaders 设置。
请求的示例: 接受语言:en-GB|接受编码:gzip
示例代码: &request_headers=接受语言%3Afr-GB%7C接受编码%3Agzip
请注意,API 不会自动启动以满足您的要求。我们建议您通过测试网址向测试人员推荐测试人员:https://postman-echo.com/headers
如果您是 API 的补充协议的特使,我们将提供有关您的协议和自动版本的具体名称。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&request_headers=accept-language%3Aen-GB%7Caccept-encoding%3Agzip&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"
# 设置cookies
- 可选
- 类型
string
如果您选择在原始网站上使用 cookies,您可以使用它 &cookies=EncodedCookies 设置。
Cookies 示例: key1=value1; key2=value2; key3=value3
示例代码: &cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3
我们建议测试者使用 cookie 特使进行测试:https://postman-echo.com/cookies
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3&url=https%3A%2F%2Fpostman-echo.com%2Fcookies"
# cookies_session
- 可选
- 类型
string
如果您开发了饼干特使,以恢复您对所有其他应用程序的需求,请使用您的饼干 &cookies_session= 设置。
空间 &cookies_session= Le paramètre peut être n'importe quelle valeur。 Envoyez simplement une nouvelle valeur pour créer une nouvelle session de cookies (cela vous permettra d'envoyer les cookies renvoyés par les appels suivants aux prochains appels d'API avec cette valeur de session de cookies)。最多可发送 32 个字符,会话在 API 最新申请后 300 秒到期。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies_session=1234abcd&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# 截图
- 可选
- 类型
boolean
如果您使用的是 杰顿 JavaScript,你是事件传递者 &screenshot=true 获取捕获的参数 JPEG 整个探索页面的格式。
Crawlbase je vous renverrai le screenshot_url dans les en-têtes de réponse (ou dans la réponse json si vous utilisez &format=json)。 该 screenshot_url 一小时内到期。
注意: 当您使用 screenshot=true 参数,您可以通过以下参数补充来捕获捕获的个人信息:
mode:对不起viewport捕获器独特的窗口位于整个页面上。默认值fullpage.width:Specifiez la Largeur maximale en Pixel(功能独特)mode=viewport)。 La valeur par défaut est la Largeur de l'écran。height:Specifiez la hauteur maximale en Pixel(功能独特)mode=viewport)。 La valeur par défaut est la hauteur de l'écran。
例如: &screenshot=true&mode=viewport&width=1200&height=800
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&screenshot=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# 商店
- 可选
- 类型
boolean
通行证 &store=true 库存参数和 API 响应副本 Crawlbase Cloud Storage (打开一个新窗口) (打开新窗口).
Crawlbase je vous renverrai le storage_url dans les en-têtes de réponse (ou dans la réponse json si vous utilisez &format=json).
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&store=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# 刮刀
- 可选
- 类型
string
请使用特定的刮刀进行信息分析。验证 Liste de tous les scrapers de données disponibles (ouvre une nouvelle fenêtre) (打开新窗口) 列出所有 les scrapers de données disponibles for voir lequel choisir。
回复回复采用 JSON 格式。
注意: Scraper 是参数选项。如果您不使用该功能,您可以在抓取工具自由页面中返回完整的 HTML 代码。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&scraper=amazon-product-details&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"
# 异步
- 可选
- 类型
boolean - 执行情况,请在 linkedin.com 上查看该参数。请在异步模式下联系其他域。
通行证 &async=true 浏览器 URL 要求的永久参数是异步的。 Crawlbase Stockera la page resultante dans le Crawlbase Cloud Storage (打开一个新窗口) (打开新窗口).
上诉书 async=true, Crawlbase 你是需求者的身份识别者 rid 回复 json。您可以使用 RID 来恢复存储部分的文档。 Avec le RID,您可以使用套间 Cloud Storage (打开一个新窗口) (打开新窗口) 恢复页面结果。
你可以使用 async=true 参数与示例中的 API 参数组合 &async=true&autoparse=true.
示例请求 async=true 称呼:
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&async=true&url=https%3A%2F%2Fwww.linkedin.com%2Fcompany%2Fcrawlbase"
示例答案 async=true 称呼:
{ "rid": "1e92e8bff32c31c2728714d4" }
# 自动解析
- 可选
- 类型
boolean
En option, si vous avez besoin d'obtenir les données extraites de la page que vous avezdemandée, vous pouvez passer &autoparse=true 设置。
回复内容为 JSON 格式。您的 URL 功能中的响应变化结构。
注意: &autoparse=true 这是参数选项。如果您不使用该功能,您可以在恢复自由页面后返回完整的 HTML 代码。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&autoparse=true&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"
# 国家
- 可选
- 类型
string
如果您要求我们支付特定的地理费用,请使用您的权利 &country= 参数,例如 &country=US (代码支付 à deux caractères)。
Veuillez prendre en compte que la sécification d'un pays peut réduire le nombre dedemandes réssies que vous receiveez, alors utilizez-le judicieusement and uniqueness lorsque des explores de geolocalization sont necessaires.
请注意,某些网站通过不同的代理服务器进行亚马逊网络通信,并且所有这些网站都自动付款,因此您可能无法在列表中找到这些网站。
您将获得 aux pays suivants
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&country=US&url=https%3A%2F%2Fpostman-echo.com%2Fip"
# tor_网络
- 可选
- 类型
boolean
如果您在 réseau Tor 上浏览 Web Onion 网站,您可以通过该网站 &tor_network=true 设置。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&tor_network=true&url=https%3A%2F%2Fwww.facebookcorewwwi.onion%2F"
# 滚动
- 可选
- 类别:
boolean
可以自动对导航页面的动态页面进行充电。使用jeton JavaScript。
参数
scroll=true:禁止污染。scroll_interval:整体(秒)。 Définit la durée de defilement。 页面收费后. 默认:10。 最大限度:60.
例如: &scroll=true&scroll_interval=20
行为
何时
scroll=true确定后,API 将通过导航器对 URL 进行收费,并通过编程将页面文件删除scroll_intervalSecondes pour déclencher le chargement du contenu dynamique(例如,défilement infini)。玷污之后,继续捕获并归还。
If
scroll_interval还没结束,默认值就是 10 秒。
Facturation
总服务器时间功能中的缺陷活动要求:
联合创始人:
Chaque 项目补偿
scroll=trueL'appel API 是事实 1 需求,库夫朗·勒普雷米尔 8秒 总共的时间(包括页面的费用和损坏)。生产补充单位:
对于每个 补充5秒 首映 8 秒的时间, 1 要求制造补充 被添加。
- 计算示例:
- 背叛时间:20 秒
- 1 次首映 8 次请求
- +1 要求第二次 9 à 13
- +1 要求第二次 14 à 18
- +1demandefacurée(19-20秒,cettefractionestfacturéecommeunbloccomplet)
- 总计:4 份要求
- 1 次首映 8 次请求
- 如果过程在定义的缺陷之前结束,则在实际发生的时间段内结束。
备注
最大自动调节间隔 预计 60 秒。 60 秒后,我们将向您讲述这一切,并告诉您您的心愿。
连接时间: 如果你使用
scroll_interval=60,gardez votre 连接客户端只需 90 秒。Délais d'expiration spécifiques au site : 某些领域需要注意服务器以及长、gérés 自动化。
scroll同page_wait总的特征时间和影响因素会增加。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&scroll=true&scroll_interval=20&url=https%3A%2F%2Fwww.reddit.com%2Fsearch%2F%3Fq%3Dcrawlbase"
# 自定义成功代码
- 可选
- 类型
string
您可以指定 HTTP 个性化代码,以使其在响应中具有特征,但新的尝试性无法在响应中保存原始代码。
用法: custom_success_codes=403,429,503
此参数是使用非标准域名的密码(comme 403 或 500)来考虑使用特定用途的comme réussis。
注意: 使用这些参数,您承担起对我们的要求作出回应的责任。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&custom_success_codes=403%2C429%2C503&url=https%3A%2F%2Fexample.com%2Fapi"