# Webhook-Empfang

Um die gepushten Daten von Ihrem Crawler 请注意,Webhook-Endpunkt 是在 Ihrem Server 上的。

您的 Server-Webhook 同意…

  • 存在的意义 Crawlbase 服务器
  • 你要勇敢面对 POST Anrufe 和 Antwort insidehalb von 200ms
  • Antworten Sie insidehalb von 200 ms mit einem Statuscode 200, 201 or 204 没有内容

格式 ab 的数据结构是通过 URL 发送的,格式参数也是如此。 &format=html (das ist die Standardeinstellung)或 &format=json.

明镜 Crawler 引擎发送日期信息和 Ihren Callback-Endpunkt über POST 方法 gzip 压缩。

注意: Stellen Sie sicher,dass Ihr Rückruf jederzeit verfügbar ist。 Jedes Mal,我们的 Ihren Rückruf übermitteln 和 Ihr Server keine erfolgreiche Antwort zurückgibt,versuchen wir erneut,die Seite zu 爬行和 die Übermittlung dann erneut durchzuführen。 Diese Wiederholungsversuche gelten als erfolgreiche Anfragen und werden daher in Rechnung gestellt。

注意: Wenn Sie Zapier-Webhooks 版本, Crawler 请发送此日期至 nicht komprimiert。 Zapier-Hooks 功能不与 Gzip-Komprimierung 一起使用。

# 请求示例

Hier finden Sie Beispiele dafür,是 Sie erwarten können von Crawlbase Crawler 转到您的服务器 Webhook。

# 格式化 HTML

Dies geschieht, wenn Sie die API aufrufen mit dem &format=html.

Headers:
  "Content-Type" => "text/plain"
  "Content-Encoding" => "gzip"
  "Original-Status" => 200
  "PC-Status" => 200
  "rid" => "The RID you received in the push call"
  "url" => "The URL which was crawled"

Body:
  The HTML of the page

# 格式 JSON

Dies geschieht, wenn Sie die API aufrufen mit dem &format=json.

Headers:
  "Content-Type" => "gzip/json"
  "Content-Encoding" => "gzip"

Body:
{
  pc_status: 200,
  original_status: 200,
  rid: "The RID you received in the push call",
  url: "The URL which was crawled",
  body: "The HTML of the page"
}

请注意 pc_status UND original_status 韦尔登穆森·尤伯普鲁夫特。 Weitere Informationen dazu finden Sie hier 这里 UND 这里 對話方式。

# 集成测试

Beim Erstellen Ihres Webhooks 可以查看 es hilfreich sein,die genaue Antwort für eine bestimmte URL zu sehen。

Um das Testen zu erleichtern, können Sie Folgendes konfigurieren Crawlbase Storage 在伊伦 Crawlern 到 Testzwecken。您可以 siehe hier (öffnet neues Fenster) (打开新窗口).

# 监测机器人

明镜 Crawler überwacht Ihre Webhook-URL,um ihren Status zu kennen,wenn der Webhook ausgefallen ist Crawler 如果 Ihr Webhook 已激活,则自动停止和自动执行。

Unser Überwachungsbot sendet weiterhin Anfragen 和 Ihren Webhook-Endpunkt。 Ignorieren Sie diese Anfragen unbedingt mit einem 200 状态代码。

  • Überwachungsanforderungen werden als POST Anforderungen mit JSON-Text übermittelt,所以 wie Sie sie auch bei Nicht-Überwachungsanrufen erhalten。
  • 与行为人行为相关的超额行为 Crawlbase Monitoring Bot 1.0 Sie können sie also einfach mit dem Status ignorieren 200.

# 阻止您的 Webhook

Wenn Sie einen zufälligen Endpunkt verwenden, wie yourdomain.com/2340JOiow43djoqe21rjosi Es ist unwahrscheinlich, dass es entdeckt wird, aber Sie können den Webhook-Endpunkt in jedem Fall mit den folgenden Methoden (oder mehreren davon kombiniert) schützen:

  • benutzerdefinierter 标头 auf Ihre Anfrage mit einem Token, dessen Existenz Sie in Ihrem Webhook überprüfen.
  • 享受一点 url Ihrer URL 中的参数和 Webhook-Anforderung 中存在的参数,etwa: yourdomain.com/2340JOiow43djoqe21rjosi?token=1234
  • 只接受 POST 请求。
  • Überprüfen Sie einige der erwarteten Header (zum Beispiel Pc-Status, Original-Status, rid美国西南大学。)。

Wir empfehlen keine IP 白名单,da unsere Crawler von vielen verschiedenen IPs Pushen können und sich die IPs ohne vorherige Benachrichtigung ändern können.