# Webhook-Empfang
Um die gepushten Daten von Ihrem Crawler 请注意,Webhook-Endpunkt 是在 Ihrem Server 上的。
您的 Server-Webhook 同意…
- 存在的意义 Crawlbase 服务器
- 你要勇敢面对
POST
Anrufe 和 Antwort insidehalb von 200ms - Antworten Sie insidehalb von 200 ms mit einem Statuscode
200
,201
or204
没有内容
格式 ab 的数据结构是通过 URL 发送的,格式参数也是如此。 &format=html
(das ist die Standardeinstellung)或 &format=json
.
明镜 Crawler 引擎发送日期信息和 Ihren Callback-Endpunkt über POST
方法 gzip
压缩。
注意: Stellen Sie sicher,dass Ihr Rückruf jederzeit verfügbar ist。 Jedes Mal,我们的 Ihren Rückruf übermitteln 和 Ihr Server keine erfolgreiche Antwort zurückgibt,versuchen wir erneut,die Seite zu 爬行和 die Übermittlung dann erneut durchzuführen。 Diese Wiederholungsversuche gelten als erfolgreiche Anfragen und werden daher in Rechnung gestellt。
注意: Wenn Sie Zapier-Webhooks 版本, Crawler 请发送此日期至 nicht komprimiert。 Zapier-Hooks 功能不与 Gzip-Komprimierung 一起使用。
# 请求示例
Hier finden Sie Beispiele dafür,是 Sie erwarten können von Crawlbase Crawler 转到您的服务器 Webhook。
# 格式化 HTML
Dies geschieht, wenn Sie die API aufrufen mit dem &format=html
.
Headers:
"Content-Type" => "text/plain"
"Content-Encoding" => "gzip"
"Original-Status" => 200
"PC-Status" => 200
"rid" => "The RID you received in the push call"
"url" => "The URL which was crawled"
Body:
The HTML of the page
# 格式 JSON
Dies geschieht, wenn Sie die API aufrufen mit dem &format=json
.
Headers:
"Content-Type" => "gzip/json"
"Content-Encoding" => "gzip"
Body:
{
pc_status: 200,
original_status: 200,
rid: "The RID you received in the push call",
url: "The URL which was crawled",
body: "The HTML of the page"
}
请注意 pc_status
UND original_status
韦尔登穆森·尤伯普鲁夫特。 Weitere Informationen dazu finden Sie hier 这里 UND 这里 對話方式。
# 集成测试
Beim Erstellen Ihres Webhooks 可以查看 es hilfreich sein,die genaue Antwort für eine bestimmte URL zu sehen。
Um das Testen zu erleichtern, können Sie Folgendes konfigurieren Crawlbase Storage 在伊伦 Crawlern 到 Testzwecken。您可以 siehe hier (öffnet neues Fenster) (打开新窗口).
# 监测机器人
明镜 Crawler überwacht Ihre Webhook-URL,um ihren Status zu kennen,wenn der Webhook ausgefallen ist Crawler 如果 Ihr Webhook 已激活,则自动停止和自动执行。
Unser Überwachungsbot sendet weiterhin Anfragen 和 Ihren Webhook-Endpunkt。 Ignorieren Sie diese Anfragen unbedingt mit einem 200
状态代码。
- Überwachungsanforderungen werden als POST Anforderungen mit JSON-Text übermittelt,所以 wie Sie sie auch bei Nicht-Überwachungsanrufen erhalten。
- 与行为人行为相关的超额行为
Crawlbase Monitoring Bot 1.0
Sie können sie also einfach mit dem Status ignorieren200
.
# 阻止您的 Webhook
Wenn Sie einen zufälligen Endpunkt verwenden, wie yourdomain.com/2340JOiow43djoqe21rjosi
Es ist unwahrscheinlich, dass es entdeckt wird, aber Sie können den Webhook-Endpunkt in jedem Fall mit den folgenden Methoden (oder mehreren davon kombiniert) schützen:
- 一 benutzerdefinierter 标头 auf Ihre Anfrage mit einem Token, dessen Existenz Sie in Ihrem Webhook überprüfen.
- 享受一点
url
Ihrer URL 中的参数和 Webhook-Anforderung 中存在的参数,etwa:yourdomain.com/2340JOiow43djoqe21rjosi?token=1234
- 只接受
POST
请求。 - Überprüfen Sie einige der erwarteten Header (zum Beispiel
Pc-Status
,Original-Status
,rid
美国西南大学。)。
Wir empfehlen keine IP 白名单,da unsere Crawler von vielen verschiedenen IPs Pushen können und sich die IPs ohne vorherige Benachrichtigung ändern können.