# Webhook-Empfang

Um die gepushten Daten von Ihrem Crawler 请注意,Webhook-Endpunkt 是在 Ihrem Server 上的。

您的 Server-Webhook 同意…

  • 关闭 Crawlbase-Servern 服务
  • 你要勇敢面对 POST Anrufe 和 Antwort insidehalb von 200ms
  • Antworten Sie insidehalb von 200 ms mit einem Statuscode 200, 201 or 204 没有内容

艺术和设计、数据结构、格式 ab、发送 URL 和格式参数都可以。 &format=html (das ist die Standardeinstellung)或 &format=json.

死 Crawler- 引擎发出 Daten zurück 和 Ihren Callback-Endpunkt über POST 方法 gzip 压缩。

注意: Stellen Sie sicher,dass Ihr Rückruf jederzeit verfügbar ist。 Jedes Mal,我们的 Ihren Rückruf übermitteln 和 Ihr Server keine erfolgreiche Antwort zurückgibt,versuchen wir erneut,die Seite zu 爬行和 die Übermittlung dann erneut durchzuführen。 Diese Wiederholungsversuche gelten als erfolgreiche Anfragen und werden daher in Rechnung gestellt。

注意: Wenn Sie Zapier-Webhooks 说明,请发送 Crawler die Daten nicht komprimiert。 Zapier-Hooks 功能不与 Gzip-Komprimierung 一起使用。

# 请求示例

Hier finden Sie Beispiele dafür,是 Sie vom Crawlbase Crawler 请参阅 Ihren Server-Webhook。

# 格式化 HTML

Dies geschieht, wenn Sie die API aufrufen mit dem &format=html.

Headers:
  "Content-Type" => "text/plain"
  "Content-Encoding" => "gzip"
  "Original-Status" => 200
  "PC-Status" => 200
  "rid" => "The RID you received in the push call"
  "url" => "The URL which was crawled"

Body:
  The HTML of the page

# 格式 JSON

Dies geschieht, wenn Sie die API aufrufen mit dem &format=json.

Headers:
  "Content-Type" => "gzip/json"
  "Content-Encoding" => "gzip"

Body:
{
  pc_status: 200,
  original_status: 200,
  rid: "The RID you received in the push call",
  url: "The URL which was crawled",
  body: "The HTML of the page"
}

请注意 pc_status UND original_status 韦尔登穆森·尤伯普鲁夫特。 Weitere Informationen dazu finden Sie hier [Hier]/de/crawling-api/response/#pc-status) 和 这里 對話方式。

# 集成测试

Beim Erstellen Ihres Webhooks 可以查看 es hilfreich sein,die genaue Antwort für eine bestimmte URL anzuzeigen。

Um das Testen zu erleichtern, können Sie Crawlbase Storage in Ihren Crawlern zu Testzwecken konfigurieren。西科南 siehe hier (öffnet neues Fenster) (打开新窗口).

# 监测机器人

明镜 Crawler überwacht Ihre Webhook-URL,um deren Status zu kennen。 Wenn der Webhook ausfällt,wird der Crawler angehalten und automatisch fortgesetzt,wenn Ihr Webhook wieder aktiv ist。

Unser Überwachungsbot sendet weiterhin Anfragen 和 Ihren Webhook-Endpunkt。 Ignorieren Sie diese Anfragen unbedingt mit einem 200 状态代码。

  • Überwachungsanforderungen werden als POST Anforderungen mit JSON-Text übermittelt,所以 wie Sie sie auch bei Nicht-Überwachungsanrufen erhalten。
  • 与行为人行为相关的超额行为 Crawlbase Monitoring Bot 1.0 Sie können sie also einfach mit dem Status ignorieren 200.

# 阻止您的 Webhook

Wenn Sie einen zufälligen Endpunkt verwenden, wie yourdomain.com/2340JOiow43djoqe21rjosi Es ist unwahrscheinlich, dass es entdeckt wird, aber Sie können den Webhook-Endpunkt in jedem Fall mit den folgenden Methoden (oder mehreren davon kombiniert) schützen:

  • 发送 [benutzerdefinierter Header auf Ihre Anfrage]/de/crawler/pushing/#sending-additional-data) mit einem Token,在 Ihrem Webhook überprüfen 中发送 Existenz Sie。
  • 验证 URL 中的 URL 参数并确保其存在于 Webhook-Anforderung 中,例如: yourdomain.com/2340JOiow43djoqe21rjosi?token=1234
  • 只接受 POST 请求。
  • Überprüfen Sie einige der erwarteten Header (zum Beispiel Pc-Status, Original-Status, rid美国西南大学。)。

Wir empfehlen keine IP 白名单,da unsere Crawler von vielen verschiedenen IPs Pushen können und sich die IPs ohne vorherige Benachrichtigung ändern können.