# 将数据导入到爬虫
在开始将 url 抓取到,Crawler 之前,您首先需要 在这里创建一个新的爬虫(打开新窗口) (打开新窗口).
要抓取网址以被抓取,您使用 抓取API 附加参数:
- 您必须添加
&callback=true
- 您必须添加
&crawler=YourCrawlerName
使用您创建的爬虫名称 这里。(打开新闻) (打开新窗口).
In 回复你的爬虫虫,将返回一个唯一的请求 API 请求 RID 的 JSON。此 RID 是唯一的,将帮助您表示在任何时候识别。
响应响应示例:
{ "rid": "1e92e8bff32c31c2728714d4" }
一般情况下,您最喜欢的一个网址可以将 30 条线索到 Crawler。
# 等待蠕虫极限
如果所有 Craw 能够等待的任何总等待都为您提供万页。如果您有足够的机会超过 1M,那么您的虫子通知将被广泛使用,暂停时,我们将通过我们的所有网页中的示例列表 1。页面,爬虫将自动恢复。
# 发送附加数据
或者,如果您使用 callback_headers
这非常适合在您随身携带额外的数据以进行识别。
格式如下: HEADER-NAME:VALUE|HEADER-NAME2:VALUE2|etc.
并且必须正确编辑代码。
标题和价值的示例 MY-ID 1234, some-other 4321
&callback_headers=MY-ID%3A1234%7Csome-other%3A4321
这些标头将在 webhook 发布请求中返回。
← 大虫介绍 Webhook 接收 →