# Webhook 接收
为了从攀爬虫子连接中的连接中,您需要创建一个网络钩子端点数据。
您的服务器 webhook 应...
- 可从 Crawlbase 服务器公开访问
- 准备好接收
POST
200内呼叫和响应 - 在200秒内响应状态码
200
,201
or204
没有内容
数据结构的方式将您在使用格式指定格式的参数网址时, &format=html
(这是默认设置)或 &format=json
.
将数据发送回将您通过以下最后的线索终结方式 POST
方法与 gzip
压缩。
请注意: 确保您的拨号启用。而此时我们随时给您成功回试的未能成功返回的结果,然后及时成功地取得成功,然后再一次被认为是成功的重试。的请求,因此需要付费。
请注意: 如果您使用的是 Zapier 网络钩子,则不会使用 Zapier 压缩。
# 示例请求
在此处查找您可以期待从 Crawlbase Crawler 连接到服务器 webhook 的内容的示例。
# HTML 格式
当您使用时 &format=html
.
Headers:
"Content-Type" => "text/plain"
"Content-Encoding" => "gzip"
"Original-Status" => 200
"PC-Status" => 200
"rid" => "The RID you received in the push call"
"url" => "The URL which was crawled"
Body:
The HTML of the page
# 格式 JSON
当您使用时 &format=json
.
Headers:
"Content-Type" => "gzip/json"
"Content-Encoding" => "gzip"
Body:
{
pc_status: 200,
original_status: 200,
rid: "The RID you received in the push call",
url: "The URL which was crawled",
body: "The HTML of the page"
}
请注意: pc_status
并 original_status
必须检查。你可以阅读更多关于他们的信息 这里。 并 这里。 。
# 集成测试
创建 webhook 时,查看特定 url 的正确切换响应会很有帮助。
为了帮助测试,您可以在爬虫中配置Crawlbase存储以进行测试。 它在这里看到(在新窗口中) (打开新窗口).
# 监控器人
Crawler 将监视您的 webhook url 以了解其状态 webhook 关闭,Crawler 将暂停,当您的 webhook 再次启动时,如果自动恢复。
我们的机器人将继续向您的网络钩子发送这些最终请求。 200
状态码。
- 请求监控以您的邮件发送请求的出现形式,因为收到非正文调用。
- 请求监控用户随代理一起提供
Crawlbase Monitoring Bot 1.0
所以你可以很容易地用放电它们200
.
# 保护您的网络锁子
如果你使用一些临时,例如 yourdomain.com/2340JOiow43djoqe21rjosi
你可能有任何方法,但最终,以下几种方式使用(或以下几种方式)保护
- 寄养一个 根据您的要求自定义标题 使用某些标识,您可以在 webhook 中检查它是否存在。
- 在您的url中使用一些url参数并在webhook中请请求中检查其是否存在,例如:
yourdomain.com/2340JOiow43djoqe21rjosi?token=1234
- 只接受
POST
请求。 - 检查一些可能的标题(例如
Pc-Status
,Original-Status
,rid
等)。
我们不建议将 IP 的很多人的情况公布于众,我们可以从不同的 IP 传播下民间组织,并且因为 IP 可能会在事件发生时更改。