# Webhook 接收

为了从攀爬虫子连接中的连接中,您需要创建一个网络钩子端点数据。

您的服务器 webhook 应...

  • 可公开联系 Crawlbase 台服务器
  • 准备好接收 POST 200内呼叫和响应
  • 在200秒内响应状态码 200, 201 or 204 没有内容

数据的结构方式取决于您在使用格式参数参数URL时指定的格式, &format=html (这是默认设置)或 &format=json.

- Crawler 引擎将通过以下方式将数据发送回您的回调端点 POST 方法与 gzip 压缩。

请注意: 确保您的拨号启用。而此时我们随时给您成功回试的未能成功返回的结果,然后及时成功地取得成功,然后再一次被认为是成功的重试。的请求,因此需要付费。

请注意: 如果您使用 Zapier webhook, Crawler 不发送压缩数据。Zapier 钩子独立用于 Gzip 压缩。

# 示例请求

在这里找到你可以从 Crawlbase Crawler 到您的服务器 webhook。

# HTML 格式

当您使用时 &format=html.

Headers:
  "Content-Type" => "text/plain"
  "Content-Encoding" => "gzip"
  "Original-Status" => 200
  "PC-Status" => 200
  "rid" => "The RID you received in the push call"
  "url" => "The URL which was crawled"

Body:
  The HTML of the page

# 格式 JSON

当您使用时 &format=json.

Headers:
  "Content-Type" => "gzip/json"
  "Content-Encoding" => "gzip"

Body:
{
  pc_status: 200,
  original_status: 200,
  rid: "The RID you received in the push call",
  url: "The URL which was crawled",
  body: "The HTML of the page"
}

请注意: pc_statusoriginal_status 必须检查。你可以阅读更多关于他们的信息 点击这里点击这里

# 集成测试

创建 webhook 时,查看特定 URL 的有意响应会很有帮助。

为了帮助测试,您可以配置 Crawlbase Storage 在您的爬虫程序中用于测试目的。您可以 它在这里看到(在新窗口中) (打开新窗口).

# 监控器人

- Crawler 将监控您的 webhook URL 以了解其状态,如果 webhook 已关闭 Crawler 将暂停,并且当您的 webhook 再次启动时将自动恢复。

我们的机器人将继续向您的网络钩子发送这些最终请求。 200 状态码。

  • 请求监控以您的邮件发送请求的出现形式,因为收到非正文调用。
  • 请求监控用户随代理一起提供 Crawlbase Monitoring Bot 1.0 所以你可以很容易地用放电它们 200.

# 保护您的网络锁子

如果你使用一些临时,例如 yourdomain.com/2340JOiow43djoqe21rjosi 你可能有任何方法,但最终,以下几种方式使用(或以下几种方式)保护

  • 寄养一个 根据您的要求自定义标题 使用某些标识,您可以在 webhook 中检查它是否存在。
  • 使用一些 url 参数在你的 URL 中并检查它在 webhook 请求中的存在,例如: yourdomain.com/2340JOiow43djoqe21rjosi?token=1234
  • 只接受 POST 请求。
  • 检查一些可能的标题(例如 Pc-Status, Original-Status, rid等)。

我们不建议将 IP 的很多人的情况公布于众,我们可以从不同的 IP 传播下民间组织,并且因为 IP 可能会在事件发生时更改。