# 参数

API 示例: Обязательными являются только токен 和 URL,остальные необязательны。

# 象征

  • 必要
  • 类型 string

Этот параметр обязателен для всех вызовов。

Это ваш токен аутентификации. У вас есть два токена: один для обычных запросов 和 другой для запросов JavaScript。

Используйте токен JavaScript, когда контент, который необходимо сканировать, генерируется с помощью JavaScript, либо потому, что это原因是 JavaScript(React、Angular 和 т.д.)、либо потому、что контент динамически генерируется в браузере。

奥比奇尼伊图肯

_USER_TOKEN_

JavaScript 工具

_JS_TOKEN_

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# 网址

  • 必要
  • 类型 string

Этот параметр обязателен для всех вызовов。

Вам понадобится URL для сканирования。 Убедитесь, что он начинается с http 和 https 和 что полностью закодирован.

例如,网址为: https://github.com/crawlbase?tab=repositories URL-адрес должен быть закодирован при вызове API следующим образом: https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# 格式

  • 随意
  • 类型 string

Указывает формат ответа, либо json or html. 默认情况下, html.

埃斯利镜头 html 用过的, Crawlbase отправит вам обратно параметры ответа в заголовках (см. HTML 答案 以下)。

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json"

# 漂亮

  • 随意
  • 类型 boolean

Если вы ожидаете json ответ,вы можете оптимизировать его читаемость,используя &pretty=true.

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories&format=json&pretty=true"

# USER_AGENT

  • 随意
  • 类型 string

Если вы хотите сделать запрос с помощью пользовательского агента, вы можете передать его здесь, и наши серверы перенаправят его на запрошенный URL。

我们推荐 和 пользуйте этот параметр 和 позвольте нашему 和 скусственному интеллекту справиться с этим。

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&user_agent=Mozilla%2F5.0+%28Macintosh%3B+Intel+Mac+OS+X+10_12_5%29+AppleWebKit%2F603.2.4+%28KHTML%2C+like+Gecko%29+Version%2F10.1.1+Safari%2F603.2.4&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"

# 页面等待

  • 随意
  • 类型 number

Если вы используете токен JavaScript, вы можете дополнительно передать page_wait параметр для ожидания количества 毫秒 до того, как браузер захватит полученный HTML-код.

Это полезно в случаях, когда отрисовка страницы занимает несколько секунд или необходимо загрузить какой-либо ajax-код перед захватом HTML-кода。

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# ajax_等待

  • 随意
  • 类型 boolean

Если вы используете токен JavaScript, вы можете дополнительно передать ajax_wait 该应用程序是 ajax-запросов перед получением html-ответа。

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&ajax_wait=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# css_click_selector

  • 随意
  • 类型 string

# 单个 CSS 选择器

Если вы используете токен JavaScript, вы можете дополнительно передать css_click_selector 我们将在 HTML-код 中为您提供帮助。

Этот параметр принимает полностью указанный 和 действительный селектор CSS。 Например, вы можете использовать селектор ID, такой как #some-button, селектор класса, например .some-other-buttonили селектор атрибутов, такой как [data-tab-item="tab1"]。 CSS 样式表、CSS 样式表、CSS 样式表、CSS 样式表、CSS 样式表等。

Обратите внимание: если селектор не найден на странице, запрос завершится ошибкой pc_status 595。 Чтобы получить ответ, даже если селектор не найден, вы можете добавить универсально найденный селектор, например body, как запасной вариант。例如: #some-button,body.

# 多个 CSS 选择器

Для учета сценариев, в которых может потребоваться последовательно нажать на несколько элементов перед захватом содержимого страницы, css_click_selector 我们使用 CSS 来构建 CSS。 Разделяйте каждый селектор вертикальной чертой (|) 西姆沃勒。 Убедитесь, что все значение, включая разделители, закодировано в URL, чтобы избежать проблем с анализом.

Предположим, вы хотите нажать кнопку с идентификатором start-button а затем ссылка на класс next-page-link。 Вы бы построили свой css_click_selector 示例:

  • 说明: #start-button|.next-page-link
  • URL 代码: %23start-button%7C.next-page-link

Добавьте этот параметр к вашему API-запросу、чтобы гарантировать、что оба элемента будут нажаты в указанном порядке。

Пожалуйста, убедитесь, что все предоставленные селекторы действительны и присутствуют на странице, чтобы избежать ошибок。 Если какой-либо селектор не найден, запрос будет придерживаться обработки ошибок, указанной выше, и завершится с ошибкой pc_status 595 если не включен резервный селектор。

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&css_click_selector=%5Bdata-tab-item%3D%22overview%22%5D&page_wait=1000&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# 设备

  • 随意
  • 类型 string

При желании, если вы не хотите указывать user_agent, но хотите получать запросы с определенного устройства, вы можете использовать этот параметр.

Доступны два варианта: desktop и mobile.

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&device=mobile&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# 获取cookies

  • 随意
  • 类型 boolean

При желании, если вам нужно получить файлы cookie, которые исходный веб-сайт устанавливает в ответе, вы можете简体中文 &get_cookies=true 帕拉梅特。

Файлы cookie будут возвращены в заголовке (или в ответе JSON, если вы используете) &format=json)如何 original_set_cookie.

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_cookies=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# 获取标题

  • 随意
  • 类型 boolean

При желании, если вам нужно получить заголовки, которые исходный веб-сайт устанавливает в ответе, вы можете简体中文 &get_headers=true 帕拉梅特。

Заголовки будут возвращены в ответе как original_header_name по умолчанию。科达 &format=json передан, заголовок вернется как original_headers.

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&get_headers=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# 请求标头

  • 随意
  • 类型 string

При желании, если вам необходимо отправить заголовки запроса на исходный сайт, вы можете использовать &request_headers=EncodedRequestHeaders 帕拉梅特。

示例 заголовков запроса: принять-язык:en-GB|принять-кодирование:gzip

示例: &request_headers=接受语言%3Aen-GB%7C接受编码%3Agzip

使用 API,可以使用 API。 Мы рекомендуем вам тестировать заголовки, отправленные с помощью этого тестового URL: https://postman-echo.com/headers

Если вам необходимо отправить дополнительные заголовки, которые не разрешены API, сообщите нам имена заголовков, и мы разрешим их для вашего токена.

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&request_headers=accept-language%3Aen-GB%7Caccept-encoding%3Agzip&url=https%3A%2F%2Fpostman-echo.com%2Fheaders"

# 设置cookies

  • 随意
  • 类型 string

При желании, если вам необходимо отправлять файлы cookie на исходный сайт, вы можете использовать &cookies=EncodedCookies 帕拉梅特。

示例 файлов cookie: key1=value1; key2=value2; key3=value3

示例: &cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3

Мы рекомендуем вам протестировать отправленные файлы cookie, используя этот тестовый URL: https://postman-echo.com/cookies

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies=key1%3Dvalue1%3B%20key2%3Dvalue2%3B%20key3%3Dvalue3&url=https%3A%2F%2Fpostman-echo.com%2Fcookies"

# cookies_session

  • 随意
  • 类型 string

Если вам необходимо отправлять файлы cookie, которые возвращаются при каждом запросе, на все последующие вызовы, вы можете использовать &cookies_session= 帕拉梅特。

&cookies_session= параметр может иметь любое значение。 Просто отправьте новое значение, чтобы создать новый сеанс cookie (это позволит вам отправлять возвращаемые cookie из) последующих вызовов в следующие вызовы API с этим значением сеанса cookie)。 Значение может быть максимум 32 символа, сеансы истекают через 300 секунд после последнего вызова API。

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&cookies_session=1234abcd&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# 截图

  • 随意
  • 类型 boolean

如果您正在使用 JavaScript 工具, вы можете по желанию передать &screenshot=true параметр для получения снимка экрана в JPEG формат всей просканированной страницы。

Crawlbase отправлю вам обратно screenshot_url в заголовках ответа (или в ответе json, если вы используете) &format=json). screenshot_url 故事是这样的。

注: 当使用 screenshot=true параметр, вы можете настроить вывод скриншота с помощью следующих дополнительных параметров:

  • mode: Установлен в viewport для захвата только области просмотра вместо полной страницы。普奥·尤莫拉尼奇 fullpage.
  • width: Укажите максимальную ширину в пикселях (работает только с) mode=viewport)。 По умолчанию — ширина экрана.
  • height: Укажите максимальную высоту в пикселях (работает только с) mode=viewport)。 По умолчанию — высота экрана。

示例: &screenshot=true&mode=viewport&width=1200&height=800

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&screenshot=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# 商店

  • 随意
  • 类型 boolean

По желанию пройти &store=true параметр для сохранения копии ответа API в Crawlbase Cloud Storage (открывается новое окно) (打开新窗口).

Crawlbase отправлю вам обратно storage_url в заголовках ответа (или в ответе json, если вы используете) &format=json).

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&store=true&url=https%3A%2F%2Fgithub.com%2Fcrawlbase%3Ftab%3Drepositories"

# 刮刀

  • 随意
  • 类型 string

Возвращает информацию, проанализированную в соответствии с указанным скрапером。普罗夫特 список всех доступных скребков данных (открывается новое окно) (打开新窗口) список всех доступных скраперов данных, чтобы увидеть, какой из них выбрать。

从 JSON 中读取数据。

Пожалуйста,обратитевнимание: 刮刀 — необязательный параметр。 Если вы его не используете, вы получите полный HTML страницы, чтобы вы могли свободно его скрейпить。

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&scraper=amazon-product-details&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"

# 异步

  • 随意
  • 类型 boolean
  • 我们的网站是 linkedin.com,我们的网站是 параметра。 Свяжитесь с нами, если вам нужны другие домены в асинхронном режиме.

По желанию пройти &async=true параметр для асинхронного сканирования запрошенного URL。 Crawlbase сохранит полученную страницу в Crawlbase Cloud Storage (открывается новое окно) (打开新窗口).

В результате звонка с async=true, Crawlbase отправит вам обратно идентификатор запроса rid в ответе json. Вам нужно будет сохранить RID для извлечения документа из хранилища. С RID вы можете затем использовать Cloud Storage (открывается новое окно) (打开新窗口) для получения результирующей страницы。

您可以使用 async=true параметр в сочетании с другими параметрами API, например &async=true&autoparse=true.

示例 запроса с async=true 投票:

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&async=true&url=https%3A%2F%2Fwww.linkedin.com%2Fcompany%2Fcrawlbase"

示例 async=true 投票:

{ "rid": "1e92e8bff32c31c2728714d4" }

# 自动解析

  • 随意
  • 类型 boolean

При желании, если вам необходимо получить извлеченные данные запрошенной вами страницы, вы можете передать &autoparse=true 帕拉梅特。

格式为 JSON。 Структура ответа зависит от отправленного вами URL。

Пожалуйста,обратитевнимание: &autoparse=true необязательный параметр。 Если вы его не используете, вы получите полный HTML страницы, чтобы вы могли свободно его сканировать。

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&autoparse=true&url=https%3A%2F%2Fwww.amazon.com%2Fdp%2FB0B7CBZZ16"

# 国家

注:

Мы можем изменить параметр страны, чтобы автоматически выбрать прокси-сервер на основе URL-адреса。 Пожалуйста, свяжитесь с нами。 поддержка (открывается новое окно) Если вам необходимо отключить автоматический выбор прокси-сервера。

  • 随意
  • 类型 string

Если вы хотите, чтобы ваши запросы были геолоциров​​аны из определенной страны, вы можете использовать &country= 帕玛特,卡克 &country=US (двухбуквенный код страны)。

Пожалуйста, примите во внимание, что указание страны может уменьшить количество успешных запросов, поэтому和 спользуйте эту возможность с умом 和 только в тех случаях, когда требуется сканирование геолокации.

亚马逊,亚马逊,亚马逊,亚马逊,亚马逊,亚马逊,亚马逊,亚马逊прокси-серверы, и все страны разрешены независимо отого, находятся ли они в списке или нет.

У вас есть доступ к следующим странам

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&country=US&url=https%3A%2F%2Fpostman-echo.com%2Fip"

# tor_网络

  • 随意
  • 类型 boolean

Если вы хотите сканировать onion-сайты через сеть Tor, вы можете передать &tor_network=true 帕拉梅特。

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&tor_network=true&url=https%3A%2F%2Fwww.facebookcorewwwi.onion%2F"

# 滚动

  • 随意
  • 类型: boolean

Включает автоматическую прокрутку для загрузки динамического содержимого страницы с использованием реального сеанса браузера。 Используется с токеном JavaScript。

参数

  • scroll=true: Включает прокрутку。

  • scroll_interval: Целое число (секунды)。 Устанавливает длительность прокрутки。 после загрузки страницы. 部分: 10. 马克西姆: 60.

示例: &scroll=true&scroll_interval=20

行为

  • 出现后 scroll=true установлен, API загружает URL в реальный браузер 和 программно прокручивает страницу до scroll_interval секунд для запуска динамической загрузки контента (например, бесконечной прокрутки)。

  • После прокрутки содержимое захватывается и возвращается.

  • If scroll_interval 下月 10 日。

计费

Запросы с включенной прокруткой тарифицируются на основе общего времени обработки на стороне сервера:

  • 最佳实践:

  • scroll=true Вызов API тарифицируется как 1 赞, охватывающий первый (8%) от общего времени обработки (включая загрузку страницы и прокрутку)。

  • Дополнительные единицы тарификации:

  • 对于每个 дополнительные 5 секунды времени обработки за пределами первых 8 секунд, 1 дополнительный выставленный счет-запрос 添加。

    • 计算示例:
    • 生存时间: 20 секунд
      • 1 тарифицируемый запрос за первые 8 секунд
        • +1 оплачиваемый запрос за секунды 9–13
        • +1 оплачиваемый запрос за секунды 14–18
        • +1 тарифицируемый запрос (19–20 с., эта часть тарифицируется как полный блок)
        • 胜利次数: 4 запроса
    • 滚动间隔,即滚动间隔,即滚动间隔。

备注

  • 滚动间隔 60 секунд。 Через 60 секунд прокрутка останавливается и данные возвращаются.

  • 重要信息: 当使用 scroll_interval=60, оставьте клиентское соединение открытым до 90 секунд。

  • Специфические для сайта тайм-ауты: Некоторые домены могут потребовать более длительного времени ожидания сервера,что выполняетс автоматически。 Объединение scroll с page_wait 我们将在本次活动中为您提供帮助。

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_JS_TOKEN_&scroll=true&scroll_interval=20&url=https%3A%2F%2Fwww.reddit.com%2Fsearch%2F%3Fq%3Dcrawlbase"

# 自定义成功代码

  • 随意
  • 类型 string

Позволяет указывать пользовательские коды статуса HTTP, которые следует рассматривать как успешные ответы, предотвращая ненужные повторные попытки и сохраняя при этом исходный код статуса в ответе.

应用: custom_success_codes=403,429,503

Этот параметр полезен при нацеливании на домены, возвращающие нестандартные коды успеха (например, 403 или 500), которые следует считать успешными для вашего конкретного варианта использования。

注: Используя этот параметр, вы берете на себя ответственность за определение того, что представлет собой успешный ответ на ваши запросы。

  • 卷曲
  • 红宝石
  • 节点
  • PHP
  • 蟒蛇
  • go
curl "https://api.crawlbase.com/?token=_USER_TOKEN_&custom_success_codes=403%2C429%2C503&url=https%3A%2F%2Fexample.com%2Fapi"