# 肯格罗森
模具 API hat die folgenden 参数: Nur das Token und die URL sind obligatorisch,其余的是可选的。
# 象征
- 需要
- 典型
string
Dieser Parameter ist for alle Anrufe erforderlich
这是 Ihr Authentifizierungstoken。 Sie haben zwei Token:einen für normale Anfragen 和 einen für JavaScript-Anfragen。
了解 JavaScript-Token、吸入、爬行、超过 JavaScript 通用性、将 JavaScript 嵌入到浏览器通用(React、Angular)或在浏览器通用性中吸入动态。
普通令牌
_USER_TOKEN_
JavaScript 令牌
_JS_TOKEN_
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# 网址
- 需要
- 典型
string
Dieser Parameter ist for alle Anrufe erforderlich
Sie benötigen eine URL zum Crawlen。 Stellen Sie sicher,请参阅 http 或 https 开头和 是完全独立的个体.
请参阅 der folgenden URL: https://github.com/crawlbase?tab=repositories API 的 URL 是这样的: https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# 格式
- 可选
- 典型
string
Gibt das Antwortformat an, entweder json or html. 标准值 html.
温恩格式 html wird genutzt, Crawlbase sendet Ihnen die Antwortparameter in den Headern zurück (siehe HTML 答案 温顿)。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json"
# 漂亮
- 可选
- 典型
boolean
温西收到一份 json Antwort können Sie die Lesbarkeit optimieren, indem Sie &pretty=true.
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json&pretty=true"
# USER_AGENT
- 可选
- 典型
string
Wenn Sie die anfrage mit einem benutzerdefinierten Benutzeragenten stellen möchten, können Sie ihn hier übergeben und unsere Server leiten ihn an die forderte URL weiter.
我们建议 不 Verwenden Sie diesen Parameter und überlassen Sie die Handhabung unserer künstlichen Intelligenz。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&user_agent=Mozilla%2F5.0+%28Macintosh%3B+Intel+Mac+OS+X+10_12_5%29+AppleWebKit%2F603.2.4+%28KHTML%2C+like+Gecko%29+Version%2F10.1.1+Safari%2F603.2.4&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"
# 页面等待
- 可选
- 典型
number
Wenn Sie das JavaScript-Token verwenden, können Sie 可选 Folgendes übergeben: page_wait 最佳时间参数 毫秒 在浏览器中,HTML 代码的结果会更快。
这是在 Fällen nützlich 中,在 Rendern der Seite einige Sekunden 或 der der erfassung des HTML etwas Ajax geladen werden muss 中。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# ajax_等待
- 可选
- 典型
boolean
Wenn Sie das JavaScript-Token verwenden, können Sie 可选 Folgendes übergeben: ajax_wait 参数,是 Ajax-Anfragen 的抽象,先于 HTML-Antwort abgerufen 线。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&ajax_wait=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# css_click_selector
- 可选
- 典型
string
# 单个 CSS 选择器
Wenn Sie das JavaScript-Token verwenden, können Sie 可选 das css_click_selector 参数,um auf ein Element auf der Seite zu klicken, bevor der Browser den resultierenden HTML-Code erfasst.
Dieser 参数是指使用 CSS-Selektor 进行调整和使用的参数。 Sie können beispielsweise einen ID-Selektor wie #some-button,一个类别选择器 .some-other-button或属性选择器 [data-tab-item="tab1"]。 Um Fehler zu vermeiden, muss sichergestellt werden, dass der CSS-Selektor richtig codiert ist.
Bitte beachten Sie,dass die Anfrage fehlschlägt,wenn der Selektor nicht auf der Seite gefunden wird。 pc_status 595Umeine Antwort zu erhalten,auch wenn ein Selektor nicht gefunden wird,können Sie einen Universell gefundenen Selektor anhängen,wie body,作为 Fallback。示例: #some-button,body.
# 多个 CSS 选择器
Um Szenarien zu berücksichtigen, in denen mehrere Elemente nacheinander angeklickt werden müssen, bevor der Seiteninhalt erfasst wird, css_click_selector 参数 können nun mehrere CSS-Selektoren akzeptieren。 Trennen Sie die einzelnen Selektoren durch ein Pipe-Zeichen (|)-Zeichen。 Stellen Sie sicher,dass der gesamte Wert,einschließlich Trennzeichen,URL-codiert ist,um Analyseprobleme zu vermeiden。
Angenommen,Sie möchten auf eine Schaltfläche mit der ID klicken start-button 与阶级的联系 next-page-link. 你愿意 css_click_selector 参数如下:
- 初始选择栏:
#start-button|.next-page-link - URL 关键字:
%23start-button%7C.next-page-link
Hängen Sie diesen Parameter an Ihre API-Anfrage an, um sicherzustellen, dass beide der angegebenen Reihenfolge angeklickt werden 中的元素。
请注意,请选择所有选项并在其所在位置进行操作,然后再进行操作。 Wenn ein Selektor nicht gefunden wird, folgt die Anfrage der oben angegebenen Fehlerbehandlung und schlägt fehl mit pc_status 595 es sei denn,ein Fallback-Selektor ist enthalten。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&css_click_selector=%5Bdata-tab-item%3D%22overview%22%5D&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# 设备
- 可选
- 典型
string
Wenn Sie 可选 keinen User_Agent angeben möchten, aber die Anfragen von einem bestimmten Gerät erhalten möchten, können Sie diesen Parameter verwenden.
Es stehen zwei Optionen zur Verfügung: desktop UND mobile.
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&device=mobile&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# 获取cookies
- 可选
- 典型
boolean
Wenn Sie 可选 die Cookies abrufen möchten, die die ursprüngliche Website auf die Antwort setzt, können Sie die &get_cookies=true 参数。
Die Cookies werden im Header(或在 der JSON-Antwort 中,wenn Sie verwenden)zurückgegeben。 &format=json) 如何 original_set_cookie.
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_cookies=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# 获取标题
- 可选
- 典型
boolean
Wenn Sie 可选标题 abrufen möchten, die die ursprüngliche Website in der Antwort festlegt, können Sie den &get_headers=true 参数。
Die Header werden in der Antwort zurückgegeben als original_header_name 标准时间。 &format=json übergeben wird,wird der Header zurückgegeben als original_headers.
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_headers=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# 请求标头
- 可选
- 典型
string
Wenn Sie 可选 Anforderungsheader 和 die ursprüngliche Website senden müssen, können Sie den &request_headers=EncodedRequestHeaders 参数。
关于 Anforderungsheader 的说明: Akzeptieren Sie die Sprache: en-GB | Akzeptieren Sie die Kodierung:gzip
示例代码: &request_headers=接受语言%3Aen-GB%7C接受编码%3Agzip
Bitte beachten Sie,dass nicht alle Anforderungsheader von der API zugelassen werden。 Wir empfehlen Ihnen, die gesendeten Header mit dieser Test-URL zu testen: https://postman-echo.com/headers
Wenn Sie zusätzliche Header senden müssen, die von der API nicht zugelassen werden, teilen Sie uns bitte die Header-Namen mit und wir autorisieren sie für Ihr Token.
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&request_headers=accept-language%3Aen-GB%7Caccept-encoding%3Agzip&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"
# 设置cookies
- 可选
- 典型
string
Wenn Sie 饼干和模具 ursprüngliche 网站 senden müssen, können Sie 可选模具 &cookies=EncodedCookies 参数。
示例-Cookies: key1=value1; key2=value2; key3=value3
示例代码: &cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3
Wir empfehlen Ihnen, die gesendeten Cookies mit dieser Test-URL zu testen: https://postman-echo.com/cookies
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3&url=https%3A%2F%2Fpostman-echo.com%2Fcookies"
# cookies_session
- 可选
- 典型
string
Wenn Sie die Cookies, die bei jeder Anfrage zurückkommen, an alle nachfolgenden Aufrufe senden müssen, können Sie den &cookies_session= 参数。
死 &cookies_session= 参数 kann ein beliebiger Wert sein。 Senden Sie einfach einen neuen Wert,um eine neue Cookies-Sitzung zu erstellen(所以 können Sie die zurückgegebenen Cookies aus den nachfolgenden Aufrufen mit diesem Cookies-Sitzungswert an die nächsten API-Aufrufe senden)。 Der Wert kann maximal 32 Zeichen lang sein und Sitzungen laufen 300 Sekunden nach dem letzten API-Aufruf ab。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies_session=1234abcd&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# 截图
- 可选
- 典型
boolean
当你使用 JavaScript 令牌können Sie 可选 weitergeben &screenshot=true 参数,um einen 截图 im JPEG 格式化整个网站。
Crawlbase 送我们去那儿 screenshot_url 在 Den Antwortheadern 中(或在 der JSON-Antwort 中,wenn Sie &format=json) screenshot_url 回到顶部
注意: 使用时 screenshot=true 参数 können Sie die Screenshot-Ausgabe mit diesen zusätzlichen Parametern anpassen:
mode: 状态viewportum nur den Ansichtsbereich statt der gesamten Seite zu erfassen。标准组fullpage.width: Pixeln angeben 中的 Maximale Breite (funktioniert nur mitmode=viewport)。标准是 Bildschirmbreite eingestellt。height: Pixeln angeben 中的 Maximale Höhe (funktioniert nur mitmode=viewport)。 Standardmäßig ist die Bildschirmhöhe eingestellt。
例如: &screenshot=true&mode=viewport&width=1200&height=800
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&screenshot=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# 商店
- 可选
- 典型
boolean
可选的附加信息 &store=true API-Antwort 中的参数 Crawlbase Cloud Storage (关闭新窗户) (打开新窗口).
Crawlbase 送我们去那儿 storage_url 在 Den Antwortheadern 中(或在 der JSON-Antwort 中,wenn Sie &format=json).
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&store=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# 刮刀
- 可选
- 典型
string
Gibt die informationen zurück, die gemäß dem angegebenen Scraper analysiert wurden。 Überprüfen Sie die Liste aller verfügbaren Daten-Scraper (öffnet neues Fenster) (打开新窗口) 列出所有 Daten-Scraper、um zu sehen、welchen Sie wählen sollten。
Die Antwort 是 JSON zurückgegeben。
BITTE beachten SIE: Scraper 是可选参数。 Wenn Sie ihn nicht verwenden, erhalten Sie das vollständige HTML der Seite zurück, sodass Sie es frei scrapen können.
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&scraper=amazon-product-details&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"
# 异步
- 可选
- 典型
boolean - 请参阅 linkedin.com 上的参数。 Sprechen Sie uns an, wenn Sie andere Domänen im asyncchronen Modus benötigen。
可选的附加信息 &async=true 参数,um die angeforderte URL 异步爬行。 Crawlbase 特定结果 Crawlbase Cloud Storage (关闭新窗户) (打开新窗口).
作为对一个男人的回应 async=true, Crawlbase 发送通知 rid 在 der JSON-Antwort 中。 Sie müssen die RID speichern, um das Dokument aus dem Speicher abzurufen. Mit der RID können Sie dann die Cloud Storage (关闭新窗户) (打开新窗口) um die resultierende Seite abzurufen。
您可以使用 async=true Kombination mit anderen API 中的参数 - Parametern wie zum Beispiel &async=true&autoparse=true.
举例说明如何 async=true 安鲁夫:
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&async=true&url=https%3A%2F%2Fwww.linkedin.com%2Fcompany%2Fcrawlbase"
举个例子 async=true 安鲁夫:
{ "rid": "1e92e8bff32c31c2728714d4" }
# 自动解析
- 可选
- 典型
boolean
Wenn Sie 可选模具 Scraped-Datan der von Ihnen angeforderten Seite abrufen möchten, können Sie Folgendes weitergeben: &autoparse=true 参数。
Die Antwort 是 JSON zurückgegeben。 Antwort 的结构变化是由 URL 决定的。
BITTE beachten SIE: &autoparse=true 这是可选参数。 Wenn Sie ihn nicht verwenden, erhalten Sie das vollständige HTML der Seite zurück, sodass Sie es frei scrapen können.
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&autoparse=true&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"
# 国家
注意:
可以通过州参数来确定,然后通过 URL 自动代理。 Bitte kontaktieren Sie uns。 Unterstützung (öffnet neues Fenster) Falls Sie die automatische Proxy-Auswahl deaktivieren müssen。
- 可选
- 典型
string
Wenn Sie möchten, dass Ihre Anfragen von einem bestimmten Land aus geolokalisiert werden, können Sie die &country= 参数,wie &country=US (两个州的代码)。
Bitte beachten Sie,dass die Angabe eines Landes die Anzahl der erfolgreichen Anfragen verringern kann。 Verwenden Sie es daher mit Bedacht und nur, wenn Geolokalisierungs-Crawls erforderlich sind。
请注意,亚马逊网站上的所有代理均位于各个州和所有州,不包含在列表中。
Sie haben Zugriff auf folgende Länder
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&country=US&url=https%3A%2F%2Fpostman-echo.com%2Fip"
# tor_网络
- 可选
- 典型
boolean
Wenn Sie Onion-Websites über das Tor-Netzwerk scrapen möchten, können Sie die &tor_network=true 参数。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&tor_network=true&url=https%3A%2F%2Fwww.facebookcorewwwi.onion%2F"
# 滚动
- 可选
- 类型:
boolean
Ermöglicht automatisiertes Scrollen zum Laden Dynamischer Seiteninhalte während einer echten Browsersitzung。 Wird mit dem JavaScript-Token verwendet。
肯格罗森
scroll=true:激活滚动。scroll_interval:甘扎尔(Sekunden)。 Legt die Scrolldauer 节 页面加载后。 标准:10最大值:60.
例如: &scroll=true&scroll_interval=20
行为
Wenn die Funktion
scroll=truegesetzt ist,lädt die API die URL in einem echten Browser und Scrollt programmgesteuert die Seite für bis zuscroll_intervalSekunden,um das dynamische Laden von Inhalten auszulösen (z. B. unendliches Scrollen)。快速吸入并滚动滚动。
If
scroll_intervalist nicht festgelegt, der Standardwert beträgt 10 Sekunden。
研究结构
Für Anfragen mit aktiviertem Scroll-Modus wird die gesamteserverseitige Verarbeitungszeit berechnet:
Ursprüngliche Abrechnungseinheit:
。 “
scroll=trueAPI-Aufruf 和 abgerechnet als 1 安法拉奇第一个 8秒 der gesamten Verarbeitungszeit (einschließlich Seitenladen und Scrollen)。Zusätzliche Abrechnungseinheiten:
对于每个 符合要求的5秒 der Verarbeitungszeit über die ersten 8 Sekunden hinaus, 1 zusätzliche in Rechnung gestellte Anfrage 添加。
- 计算示例:
- Verarbeitungszeit: 20 Sekunden
- 1 kostenpflichtige Anfrage für die ersten 8 Sekunden
- +1 abgerechnete Anfrage für Sekunden 9–13
- +1 abgerechnete Anfrage für Sekunden 14–18
- +1 abgerechnete Anfrage (19–20 s, dieser Bruchteil wrd als ganzer Block abgerechnet)
- 总体:4 个问题
- 1 kostenpflichtige Anfrage für die ersten 8 Sekunden
- Wenn der Vorgang vor dem eingestellten Scroll-Intervall abgeschlossen ist, wird nur die tatsächliche Verarbeitungszeit in Rechnung gestellt.
笔记
最大滚动间隔 beträgt 60 塞昆登。 Nach 60 Sekunden wird der Bildlauf wasdet und die Daten werden zurückgegeben。
绑定时间: 你知道吗
scroll_interval=60, 停止 Sie Ihre Clientverbindung bis zu 90 Sekunden lang offen。站点特定的超时: 服务器超时是自动发生的。
scrollUNDpage_wait可以考虑全面检查和预防蜜蜂流感。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&scroll=true&scroll_interval=20&url=https%3A%2F%2Fwww.reddit.com%2Fsearch%2F%3Fq%3Dcrawlbase"
# 自定义成功代码
- 可选
- 典型
string
Ermöglicht Ihnen, benutzerdefinierte HTTP-Statuscodes anzugeben, die als erfolgreiche Antworten behandelt werden sollen.因此,请注意 Wiederholungsversuche vermieden,während der ursprüngliche Statuscode in der Antwort erhalten bleibt。
使用: custom_success_codes=403,429,503
Dieser Parameter ist nützlich, wenn Sie Domänen ansprechen, die nicht standardmäßige Erfolgscodes (wie 403 order 500) zurückgeben, die für Ihren spezifischen Anwendungsfall als erfolgreich betrachtet werden sollten.
注意: Durch die Verwendung dieses 参数 übernehmen Sie die Verantwortung für die Definition,是 eine erfolgreiche Antwort auf Ihre Anfragen darstellt。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&custom_success_codes=403%2C429%2C503&url=https%3A%2F%2Fexample.com%2Fapi"