Как обойти капчу при при парсинге на PHP?

Ссылка скопирована
24 января 2026 1 ответ

Пишу парсер выдачи поиска с использованием Yanedx XML. Разместил парсер на хостинге. Конструкция парсера незамысловата: ссылки на материалы из выдачи попадают в функцию с курлом. Потом srtip_tags($articles), но на первой же ссылке вот:

INSERT INTO u0189754_default.parsed_articles(text,title) VALUES('Фонетика_древнеанглийского_языка', 'Ой!@media only screen and (min-width:651px){body{background-image:url('https://captcha-backgrounds...., что запросы отправляли вы, а не роботНам очень жаль, но запросы с вашего устройства похожи на автоматические. Почему это могло произойти?У вас отключено исполнение JavaScript. По нажатию вы будете направлены на дополнительную проверку. Как включить JavaScript?Я не роботНажмите, чтобы продолжитьYandex SmartCaptcha•Обработка данныхconnect-link-descriptionСайт с информацией об обработке данныхSmartCaptcha нужна проверка пользователяЕсли у вас возникли проблемы, пожалуйста, воспользуйтесь формой обратной связиconst button=document.getElementById("js-button");button.addEventListener("click",function n(t){window.__JS_BUTTON_CLICKED__=!0,this.removeEventListener("click",n,!1)},!1),window.onerror=function(n,t)

Подскажите, пожалуйста, что можно сделать, чтобы спарсить информацию?

Дополнительно:

Конструкция парсера незамысловата

Вы действительно думали, что можно просто так прийти и 3 строчками кода спарсить ресурсы, где работают отдельные команды для того, чтобы их не парсили?

Подскажите, пожалуйста, что можно сделать, чтобы спарсить информацию?

Подключить сервис расшифровки капчи. С таким "незамысловатым" скриптом Вам придется достаточно часто пополнять счет этих сервисов :)
На прокси можете не тратиться, ибо Вас будут ловить раньше :)

  • Купить/найти сотню-другую прокси и поочередно через них парсить.
  • Подключить сервис расшифровки капчи. С таким "незамысловатым" скриптом Вам придется достаточно часто пополнять счет этих сервисов :)

    Что вы имеете в виду?

  • Сергей delphinpro, только обновил вопрос про прокси, они ему не помогут )
  • Valentine5,

    Что вы имеете в виду?

    Придется угадать, что Вы имели ввиду...

    Подключить сервис расшифровки капчи

    Ну очевидно, загуглить "сервис расшифровки капчи", а там я думаю понятно станет.

    Вам придется достаточно часто пополнять счет этих сервисов :)

    Ловить Вас будут на каждом шагу, соответственно капчу придется разгадывать аналогично часто == быстрее закончатся деньги в этом сервисе.

  • Михаил Р., скорее всего за капчей будет скрываться сайт, который без JS нифига не отдаст инфы
  • GavriKos, ну как нифига, а бигдик?
  • Михаил Р., а это да ))) Зачем его ток под капчу спрятали
  • GavriKos, ну разрядить баланс "расшифровщика капчей", да и получение пасхалки нужно еще заслужить :)
  • Михаил Р., GavriKos, Сергей delphinpro может, можно просто курл запрос определенным образом настроить и сайт источник не запросит капчу?
  • Valentine5, нет, нельзя.
  • Valentine5, попробуйте webdriver
Нужно решить такую задачу?

Опишите проблему, и специалист поможет с настройкой, исправлением ошибки или доработкой сайта. Подберём понятный план работ без лишней переписки.

Заказать помощь
Лучший ответ
1
Дмитрий К. Ответ

Для обхода капчи при парсинге на PHP можно использовать различные методы, в зависимости от того, какая капча используется на целевом сайте. Вот несколько способов, которые могут помочь вам справиться с этой задачей:

1. Использование сервисов распознавания капчи. Существуют специализированные сервисы, которые предоставляют API для распознавания капчи. Вы можете отправить изображение капчи на их сервер, а они вернут вам текст, который нужно ввести. Некоторые из таких сервисов включают в себя Anti-Captcha, 2Captcha и RuCaptcha.

2. Использование машинного обучения. Вы можете обучить модель машинного обучения для распознавания капчи. Для этого вам понадобится набор данных изображений капчи и их соответствующих текстов. После обучения модели, она сможет распознавать капчу на новых изображениях.

3. Использование библиотек для обхода капчи. Существуют библиотеки, которые автоматически обходят капчу, используя различные методы, такие как решение математических задач, распознавание изображений и другие. Некоторые из таких библиотек включают в себя PHP-CAPTCHA и PHP-CaptchaSolver.

Прежде чем использовать любой из этих методов, убедитесь, что вы имеете право собирать и использовать данные с целевого сайта, чтобы избежать возможных юридических проблем. Кроме того, имейте в виду, что обход капчи может быть незаконным и нарушать правила использования сайта, поэтому используйте эти методы осторожно.

Другие ответы (0)

Пока нет других ответов. Будьте первым, кто поможет автору.

Ответить на вопрос

комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Вам также может быть интересно