# 产品型号
模具 API hat die folgenden 参数: Nur das Token und die URL sind obligatorisch,其余的是可选的。
# 标记
- 需要
- 典型
string
Dieser Parameter ist for alle Anrufe erforderlich
这是 Ihr Authentifizierungstoken。 Sie haben zwei Token:einen für normale Anfragen 和 einen für JavaScript-Anfragen。
了解 JavaScript-Token、吸入、爬行、超过 JavaScript 通用性、将 JavaScript 嵌入到浏览器通用(React、Angular)或在浏览器通用性中吸入动态。
普通令牌
_USER_TOKEN_
JavaScript 令牌
_JS_TOKEN_
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# 网址
- 需要
- 典型
string
Dieser Parameter ist for alle Anrufe erforderlich
Sie benötigen eine URL zum Crawlen。 Stellen Sie sicher,dass sie mit http 或 https beginnt und dass 是完全独立的个体.
请参阅 der folgenden URL: https://github.com/crawlbase?tab=repositories
API 的 URL 是这样的: https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# 格式
- 没有
- 典型
string
Gibt das Antwortformat an, entweder json
or html
. 标准值 html
.
温恩格式 html
请参阅以下内容,发送 Crawlbase Ihnen die Antwortparameter in den Headern zurück (siehe [HTML-Antwort]/de/crawling-api/response/#html-response) unten)。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json"
# 齐姆利希
- 没有
- 典型
boolean
温西收到一份 json
Antwort können Sie die Lesbarkeit optimieren, indem Sie &pretty=true
.
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json&pretty=true"
# USER_AGENT
- 没有
- 典型
string
Wenn Sie die anfrage mit einem benutzerdefinierten Benutzeragenten stellen möchten, können Sie ihn hier übergeben und unsere Server leiten ihn an die forderte URL weiter.
我们建议 不 Verwenden Sie diesen Parameter und überlassen Sie die Handhabung unserer künstlichen Intelligenz。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&user_agent=Mozilla%2F5.0+%28Macintosh%3B+Intel+Mac+OS+X+10_12_5%29+AppleWebKit%2F603.2.4+%28KHTML%2C+like+Gecko%29+Version%2F10.1.1+Safari%2F603.2.4&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"
# 页面警告
- 没有
- 典型
number
Wenn Sie das JavaScript-Token verwenden, können Sie 可选 Folgendes übergeben: page_wait
最佳时间参数 毫秒 在浏览器中,HTML 代码的结果会更快。
这是在 Fällen nützlich 中,在 Rendern der Seite einige Sekunden 或 der der erfassung des HTML etwas Ajax geladen werden muss 中。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# ajax_等待
- 没有
- 典型
boolean
Wenn Sie das JavaScript-Token verwenden, können Sie 可选 Folgendes übergeben: ajax_wait
参数,是 Ajax-Anfragen 的抽象,先于 HTML-Antwort abgerufen 线。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&ajax_wait=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# CSS 点击选择器
- 没有
- 典型
string
# 单个 CSS 选择器
Wenn Sie das JavaScript-Token verwenden, können Sie 可选 das css_click_selector
参数,um auf ein Element auf der Seite zu klicken, bevor der Browser den resultierenden HTML-Code erfasst.
Dieser 参数是指使用 CSS-Selektor 进行调整和使用的参数。 Sie können beispielsweise einen ID-Selektor wie #some-button
,一个类别选择器 .some-other-button
或属性选择器 [data-tab-item="tab1"]
。 Um Fehler zu vermeiden, muss sichergestellt werden, dass der CSS-Selektor richtig codiert ist.
Bitte beachten Sie,dass die Anfrage fehlschlägt,wenn der Selektor nicht auf der Seite gefunden wird。 pc_status
595
Umeine Antwort zu erhalten,auch wenn ein Selektor nicht gefunden wird,können Sie einen Universell gefundenen Selektor anhängen,wie body
,作为 Fallback。示例: #some-button,body
.
# 更多 CSS 选择器
Um Szenarien zu berücksichtigen, in denen mehrere Elemente nacheinander angeklickt werden müssen, bevor der Seiteninhalt erfasst wird, css_click_selector
参数 können nun mehrere CSS-Selektoren akzeptieren。 Trennen Sie die einzelnen Selektoren durch ein Pipe-Zeichen (|
)-Zeichen。 Stellen Sie sicher,dass der gesamte Wert,einschließlich Trennzeichen,URL-codiert ist,um Analyseprobleme zu vermeiden。
Angenommen,Sie möchten auf eine Schaltfläche mit der ID klicken start-button
与阶级的联系 next-page-link
. 你愿意 css_click_selector
参数如下:
- 初始选择栏:
#start-button|.next-page-link
- URL 关键字:
%23start-button%7C.next-page-link
Hängen Sie diesen Parameter an Ihre API-Anfrage an, um sicherzustellen, dass beide der angegebenen Reihenfolge angeklickt werden 中的元素。
请注意,请选择所有选项并在其所在位置进行操作,然后再进行操作。 Wenn ein Selektor nicht gefunden wird, folgt die Anfrage der oben angegebenen Fehlerbehandlung und schlägt fehl mit pc_status
595
es sei denn,ein Fallback-Selektor ist enthalten。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&css_click_selector=%5Bdata-tab-item%3D%22overview%22%5D&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# 设备
- 没有
- 典型
string
Wenn Sie 可选 keinen User_Agent angeben möchten, aber die Anfragen von einem bestimmten Gerät erhalten möchten, können Sie diesen Parameter verwenden.
Es stehen zwei Optionen zur Verfügung: desktop
UND mobile
.
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&device=mobile&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# 获取cookies
- 没有
- 典型
boolean
Wenn Sie 可选 die Cookies abrufen möchten, die die ursprüngliche Website auf die Antwort setzt, können Sie die &get_cookies=true
参数。
Die Cookies werden im Header(或在 der JSON-Antwort 中,wenn Sie verwenden)zurückgegeben。 &format=json
) 如何 original_set_cookie
.
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_cookies=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# 获取标题
- 没有
- 典型
boolean
Wenn Sie 可选标题 abrufen möchten, die die ursprüngliche Website in der Antwort festlegt, können Sie den &get_headers=true
参数。
Die Header werden in der Antwort zurückgegeben als original_header_name
标准时间。 &format=json
übergeben wird,wird der Header zurückgegeben als original_headers
.
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_headers=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# 提示标题
- 没有
- 典型
string
Wenn Sie 可选 Anforderungsheader 和 die ursprüngliche Website senden müssen, können Sie den &request_headers=EncodedRequestHeaders
参数。
关于 Anforderungsheader 的说明: Akzeptieren Sie die Sprache: en-GB | Akzeptieren Sie die Kodierung:gzip
示例代码: &request_headers=接受语言%3Aen-GB%7C接受编码%3Agzip
Bitte beachten Sie,dass nicht alle Anforderungsheader von der API zugelassen werden。 Wir empfehlen Ihnen, die gesendeten Header mit dieser Test-URL zu testen: https://postman-echo.com/headers
Wenn Sie zusätzliche Header senden müssen, die von der API nicht zugelassen werden, teilen Sie uns bitte die Header-Namen mit und wir autorisieren sie für Ihr Token.
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&request_headers=accept-language%3Aen-GB%7Caccept-encoding%3Agzip&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"
# 设置 Cookie
- 没有
- 典型
string
Wenn Sie 饼干和模具 ursprüngliche 网站 senden müssen, können Sie 可选模具 &cookies=EncodedCookies
参数。
示例-Cookies: key1=value1; key2=value2; key3=value3
示例代码: &cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3
Wir empfehlen Ihnen, die gesendeten Cookies mit dieser Test-URL zu testen: https://postman-echo.com/cookies
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3&url=https%3A%2F%2Fpostman-echo.com%2Fcookies"
# cookies_设置
- 没有
- 典型
string
Wenn Sie die Cookies, die bei jeder Anfrage zurückkommen, an alle nachfolgenden Aufrufe senden müssen, können Sie den &cookies_session=
参数。
死 &cookies_session=
参数 kann ein beliebiger Wert sein。 Senden Sie einfach einen neuen Wert,um eine neue Cookies-Sitzung zu erstellen(所以 können Sie die zurückgegebenen Cookies aus den nachfolgenden Aufrufen mit diesem Cookies-Sitzungswert an die nächsten API-Aufrufe senden)。 Der Wert kann maximal 32 Zeichen lang sein und Sitzungen laufen 300 Sekunden nach dem letzten API-Aufruf ab。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies_session=1234abcd&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# 截图
- 没有
- 典型
boolean
当你使用 JavaScript 令牌können Sie 可选 weitergeben &screenshot=true
参数,um einen 截图 im JPEG
格式化整个网站。
Crawlbase 发送你 screenshot_url
在 Den Antwortheadern 中(或在 der JSON-Antwort 中,wenn Sie &format=json
) screenshot_url
回到顶部
注意: 使用时 screenshot=true
参数 können Sie die Screenshot-Ausgabe mit diesen zusätzlichen Parametern anpassen:
mode
: 状态viewport
um nur den Ansichtsbereich statt der gesamten Seite zu erfassen。标准组fullpage
.width
: Pixeln angeben 中的 Maximale Breite (funktioniert nur mitmode=viewport
)。标准是 Bildschirmbreite eingestellt。height
: Pixeln angeben 中的 Maximale Höhe (funktioniert nur mitmode=viewport
)。 Standardmäßig ist die Bildschirmhöhe eingestellt。
示例: &screenshot=true&mode=viewport&width=1200&height=800
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&screenshot=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# 购物
- 没有
- 典型
boolean
可选的附加信息 &store=true
API-Antwort 中的参数 Crawlbase Cloud-Speicher (öffnet neues Fenster) (打开新窗口).
Crawlbase 发送你 storage_url
在 Den Antwortheadern 中(或在 der JSON-Antwort 中,wenn Sie &format=json
).
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&store=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"
# 刮刀
- 没有
- 典型
string
Gibt die informationen zurück, die gemäß dem angegebenen Scraper analysiert wurden。 Überprüfen Sie die Liste aller verfügbaren Daten-Scraper (öffnet neues Fenster) (打开新窗口) 列出所有 Daten-Scraper、um zu sehen、welchen Sie wählen sollten。
Die Antwort 是 JSON zurückgegeben。
比特海滩: Scraper 是可选参数。 Wenn Sie ihn nicht verwenden, erhalten Sie das vollständige HTML der Seite zurück, sodass Sie es frei scrapen können.
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&scraper=amazon-product-details&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"
# 异步
- 没有
- 典型
boolean
- 请参阅 linkedin.com 上的参数。 Sprechen Sie uns an, wenn Sie andere Domänen im asyncchronen Modus benötigen。
可选的附加信息 &async=true
参数,um die angeforderte URL 异步爬行。 Crawlbase speichert die resultierende Seite im Crawlbase Cloud-Speicher (öffnet neues Fenster) (打开新窗口).
作为对一个男人的回应 async=true
, Crawlbase sendet Ihnen die Anforderungskennung zurück rid
在 der JSON-Antwort 中。 Sie müssen die RID speichern, um das Dokument aus dem Speicher abzurufen. Mit der RID können Sie dann die 云存储-API (öffnet neues Fenster) (打开新窗口) um die resultierende Seite abzurufen。
您可以使用 async=true
Kombination mit anderen API 中的参数 - Parametern wie zum Beispiel &async=true&autoparse=true
.
举例说明如何 async=true
安鲁夫:
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&async=true&url=https%3A%2F%2Fwww.linkedin.com%2Fcompany%2Fcrawlbase"
举个例子 async=true
安鲁夫:
{ "rid": "1e92e8bff32c31c2728714d4" }
# 自动分析
- 没有
- 典型
boolean
Wenn Sie 可选模具 Scraped-Datan der von Ihnen angeforderten Seite abrufen möchten, können Sie Folgendes weitergeben: &autoparse=true
参数。
Die Antwort 是 JSON zurückgegeben。 Antwort 的结构变化是由 URL 决定的。
比特海滩: &autoparse=true
这是可选参数。 Wenn Sie ihn nicht verwenden, erhalten Sie das vollständige HTML der Seite zurück, sodass Sie es frei scrapen können.
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&autoparse=true&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"
# 土地
- 没有
- 典型
string
Wenn Sie möchten, dass Ihre Anfragen von einem bestimmten Land aus geolokalisiert werden, können Sie die &country=
参数,wie &country=US
(两个州的代码)。
Bitte beachten Sie,dass die Angabe eines Landes die Anzahl der erfolgreichen Anfragen verringern kann。 Verwenden Sie es daher mit Bedacht und nur, wenn Geolokalisierungs-Crawls erforderlich sind。
请注意,亚马逊网站上的所有代理均位于各个州和所有州,不包含在列表中。
Sie haben Zugriff auf folgende Länder
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&country=US&url=https%3A%2F%2Fpostman-echo.com%2Fip"
# tor_netzwerk
- 没有
- 典型
boolean
Wenn Sie Onion-Websites über das Tor-Netzwerk scrapen möchten, können Sie die &tor_network=true
参数。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&tor_network=true&url=https%3A%2F%2Fwww.facebookcorewwwi.onion%2F"
# 空谈
- 没有
- 典型
boolean
当你使用 JavaScript 令牌können Sie 可选 weitergeben &scroll=true
按照 API 标准,滚动间隔时间为 10 秒。
Wenn Sie länger als 10 Sekunden rollen möchten, senden Sie bitte die &scroll=true&scroll_interval=20
。浏览器参数将在 20 秒内滚动。最大滚动间隔为 60 秒。 Nach 60 Sekunden Scrollen 会尽快将系统更新并带来新的效果。
标准滚动间隔为 10 秒。所有 5 个滚动页面均使用 JS-Anfrage 和 Crawling-API。另外,滚动间隔为 20。Unser System versucht,最多可滚动 20 秒。 Wenn es nur 10 Sekunden lang rollen konnte,werden nur 2 zusätzliche Anfragen verbraucht,statt 4。
注意: 在 90 秒时,请注意,将在 60 秒时滚动。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&scroll=true&url=https%3A%2F%2Fwww.reddit.com%2Fsearch%2F%3Fq%3Dcrawlbase"