# 参数
该API具备以下参数, 只有 token 和 url 是你的,其他的都是任选的。
# 象征
- 其他要求
- 类型
string
所有调用都需要这个参数
这是您的身份验证身份。用于您有一个普通请求,另一个 JavaScript 请求。
当您需要抓取的内容是通过 JavaScript 生成时使用 JavaScript 浏览内容,因为它是 JavaScript 制作的(React 等),或者是在器上动态生成的。
普通令牌
_USER_TOKEN_
JavaScript 指令牌
_JS_令牌_
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fwww.amazon.com%2FJabra-Move-Wireless-Stereo-Headphones%2Fdp%2FB00MR8Z28S%2F"
# 网站
- 其他要求
- 类型
string
所有调用都需要这个参数
您将需要一个 url 来抓取。确保它是 http 或 https ,并且 完整编码.
例如,在以下网址中: https://www.amazon.com/sale?catId=0&SearchText=games
调用API时响应url进行编码,如下所示: https%3A%2F%2Fwww.amazon.com%2Fsale%3FcatId%3D0%26SearchText%3Dgames
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fwww.facebook.com%2Fbritneyspears"
# 格式
- 可选
- 类型
string
指示响应格式,或者 json
or html
. 默认为 html
.
如果格式 html
使用时,Crawlbase将在标头中向您发送回响响应参数(请参阅 HTML 响应 参考)。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fwww.yelp.com&format=json"
# 用户代理
- 可选
- 类型
string
如果想使用您的代理请求,您可以在此处发送它,我们的用户自定义服务器向您发送其到请求的网址。
我们建议 是 使用这个参数,让我们的人工智能来处理它。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&user_agent=Mozilla%2F5.0+%28Macintosh%3B+Intel+Mac+OS+X+10_12_5%29+AppleWebKit%2F603.2.4+%28KHTML%2C+like+Gecko%29+Version%2F10.1.1+Safari%2F603.2.4&url=https%3A%2F%2Fwww.twitter.com"
# page_wait
- 可选
- 类型
number
如果您使用的是 JavaScript 令牌,则可以选择提交 page_wait
参数等待定量 发送 在代码浏览器之前生成的 html 。
这在需要几样能力的 HTML 或需要在应用程序加载一些之前的情况下有用。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&page_wait=1000&url=https%3A%2F%2Fwww.nfl.com"
# ajax_wait
- 可选
- 类型
boolean
如果您使用的是 JavaScript 令牌,则可以选择提交 ajax_wait
在获取 html 请求之前等待 ajax 请求完成的参数。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&ajax_wait=true&url=https%3A%2F%2Fwww.nfl.com"
# css_click_selector
- 可选
- 类型
string
如果您使用的是 JavaScript 令牌,则可以选择提交 css_click_selector
在浏览器标签之前的html html标签上的元素的参数。
它必须是完整且有效的 CSS 选择器,,, #some-button
or .some-other-button
并正确编辑代码。
请注意,请要求失败 pc_status
595
如果在页面中找不到选择器。 body
这是一个例子: #some-button,body
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&css_click_selector=%23some-nice-button&page_wait=1000&url=https%3A%2F%2Fwww.nfl.com"
# 设备
- 可选
- 类型
string
任选地,如果您不想指定 user_agent 但您希望从特定设备的请求中获得,可以使用此参数。
有选择: desktop
和 mobile
.
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&device=mobile&url=https%3A%2F%2Fwww.walmart.com%2Fcp%2Fhome%2F4044"
# 获取饼干
- 可选
- 类型
boolean
或者,如果您需要获取原始网站在响应中设置的 cookie,可以使用 &get_cookies=true
参数。
cookie 将在标头中返回(如果您使用,则在 json 响应中返回) &format=json
)作为 original_set_cookie
.
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_cookies=true&url=https%3A%2F%2Fwww.walmart.com%2Fcp%2Fhome%2F4044"
# 获取标题
- 可选
- 类型
boolean
或者,如果您需要获取原始网站在响应中设置的标头,可以使用 &get_headers=true
参数。
标头将在响应中返回为 original_header_name
什么时候默认情况下。 &format=json
已经通过,标题将返回为 original_headers
.
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_headers=true&url=https%3A%2F%2Fwww.walmart.com%2Fcp%2Fhome%2F4044"
# 请求标头
- 可选
- 类型
string
或者,如果您需要将要求的头发标为原始网站,您可以使用 &request_headers=EncodedRequestHeaders
参数。
示例请请求标题: 接收语言:en-GB|主机:api.crawlbase.com
译文: &request_headers=接受语言%3Aen-GB%7Chost%3Aapi.crawlbase.com
请注意,并非我们允许您要求的所有标头都被 API。 建议测试使用此测试 url 发送的标头:https://httpbin.org/headers
如果需要发送 API 不需要额外的标头,请告知我们您自己的一些授权名称。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&request_headers=accept-language%3Aen-GB%7Chost%3Aapi.crawlbase.com&url=https://httpbin.org/headers"
# 设置cookies
- 可选
- 类型
string
或者,如果您需要将cookie发送到原始网站,您可以使用 &cookies=EncodedCookies
参数。
示例 cookie: key1=value1; key2=value2; key3=value3
译文: &cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3
我们建议您测试使用此测试 url 发送 cookie:https://httpbin.org/cookies
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3&url=https://httpbin.org/cookies"
# cookies_session
- 可选
- 类型
string
如果需要将每个返回的 cookie 发送到您的所有请求,您可以请求使用 &cookies_session=
参数。
新的 &cookies_session=
该参数最多只允许发送一个新值创建新值。 32个字符,会话在最后一次API调用后300秒内过渡。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies_session=1234abcd&url=https%3A%2F%2Fwww.walmart.com%2Fcp%2Fhome%2F4044"
# 截图
- 可选
- 类型
boolean
如果你正在使用 JavaScript 指令牌, 你可以通过选择 &screenshot=true
获取屏幕截图的参数 JPEG
整个页面的样式。
crawlbase 会给你回复 screenshot_url
在响应标头中(或者在json响应中,如果您使用 &format=json
).
XNUMXD压花不锋钢板 screenshot_url
一小时后问题。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&screenshot=true&url=https%3A%2F%2Fwww.amazon.com"
# 商店
- 可选
- 类型
boolean
通过授权 &store=true
参数以将API请求的副本存储在 爬网云存储(打开新窗口) (打开新窗口).
Crawlbase 会给你回复 storage_url
在响应标头中(或者在json响应中,如果您使用 &format=json
).
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&store=true&url=https%3A%2F%2Fwww.amazon.com"
# 剪刀
- 可选
- 类型
string
返回查看指定刮板解析的信息。 所有新数据采集工具的列表(打开) (打开新窗口) 所有数据采集工具的列表,以查看选择哪一个。
响应响应 JSON 形式返回。
请注意: Scraper 是一个参数。如果您不使用它,您将收到页面的完整 HTML,以便您可以自由地抓取它。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&scraper=twitter-tweet&url=https%3A%2F%2Ftwitter.com%2Famazon%2Fstatus%2F1196891901024243712"
# 异步
- 可选
- 类型
boolean
- 如果您需要异步模式下的其他域,目前只请与我们联系。
通过授权 &async=true
参数结果以异步方式抓取请求的 URL。 爬网云存储(打开新窗口) (打开新窗口).
很与 async=true
, Crawbase 会给你发回请求 rid
在 json 响应中。您将需要存储 RID 以从存储中检索文档。有 RID,您就可以使用 云存储API(在新窗口中) (打开新窗口) 检查结果页面。
您可以使用 async=true
参数与其他API 参数相结合,例如 &async=true&autoparse=true
.
示例请求 async=true
名字:
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&async=true&url=https%3A%2F%2Fwww.linkedin.com/company/crawlbase"
示例响应 async=true
名字:
{ "rid": "1e92e8bff32c31c2728714d4" }
# 自动解析
- 可选
- 类型
boolean
任选地,如果需要获取您的请求的采集您的数据,您可以通过 &autoparse=true
参数。
响应响应的结构因您发送的 URL 而异。
请注意: &autoparse=true
如果您不使用它,您将收到收到的完整 HTML,以便您可以自由获取它。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&autoparse=true&url=https%3A%2F%2Fwww.amazon.com%2Fproduct-reviews%2FB07S5QWM6L"
# 国家
- 可选
- 类型
string
如果您希望从特定国家/地区定位您的请求,您可以使用 &country=
参数,如 &country=US
(两个字母的国家代码)。
请注意,可以减少您指定的返回次数,因此请在请求成功地使用它,并且仅在进行地理定位时使用。
请注意,无论像亚马逊这样的那些网站是通过不同的其他特殊代理路线的,是否在列表中,都允许所有国家/地区。
您可以访问以下国家
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&country=US&url=https%3A%2F%2Fwww.amazon.com"
# tor_network
- 可选
- 类型
boolean
如果你想通过 Tor 网络爬取歌曲网站,你可以通过 &tor_network=true
参数。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&tor_network=true&url=https%3A%2F%2Fwww.facebookcorewwwi.onion%2F"
# 滚动的
- 可选
- 类型
boolean
如果你正在使用 JavaScript 指令牌, 你可以通过选择 &scroll=true
对于API,这将默认滚动10秒的scroll_interval。
如果想让您滚动超过 10 秒,请发送 &scroll=true&scroll_interval=20
.最大滚动间隔为 20 秒,滚动秒后,系统会在 60 秒后将您浏览的数据返回给。
滚动间隔为 10 秒。每 5 秒成功滚动算作 Crawling API 上的额外 JS 请求,所以如果我们假设您发送一个 scroll_interval 20,我们的系统默认滚动播放最多 20 秒,它最多滚动 10 秒,只用了 2 个额外的请求,而不是 4 个。
请注意: 如果您计算滚动90秒,请确保您的连接保持打开60秒。
- 卷曲
- 红宝石
- 节点
- PHP
- 蟒蛇
- go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&scroll=true&url=https%3A%2F%2Fwww.quora.com%2Fsearch%3Fq%crawlbase"