# 将数据导入到爬虫

在开始将 url 抓取到,Crawler 之前,您首先需要 在这里创建一个新的爬虫(打开新窗口) (打开新窗口).

要抓取网址以被抓取,您使用 抓取API 附加参数:

In 回复你的爬虫虫,将返回一个唯一的请求 API 请求 RID 的 JSON。此 RID 是唯一的,将帮助您表示在任何时候识别。

响应响应示例:

{ "rid": "1e92e8bff32c31c2728714d4" }

一般情况下,您最喜欢的一个网址可以将 30 条线索到 Crawler。

# 等待蠕虫极限

如果所有 Craw 能够等待的任何总等待都为您提供万页。如果您有足够的机会超过 1M,那么您的虫子通知将被广泛使用,暂停时,我们将通过我们的所有网页中的示例列表 1。页面,爬虫将自动恢复。

# 发送附加数据

或者,如果您使用 callback_headers 这非常适合在您随身携带额外的数据以进行识别。

格式如下: HEADER-NAME:VALUE|HEADER-NAME2:VALUE2|etc. 并且必须正确编辑代码。

标题和价值的示例 MY-ID 1234, some-other 4321

&callback_headers=MY-ID%3A1234%7Csome-other%3A4321

这些标头将在 webhook 发布请求中返回。