Как вытягивать сайты?

Как правильно вытягивать морды сайтов?
Раньше как то через wget качало более менее нормально
сейча какой сайт не пробую, тянет абсолютные пути со своего домена в исходник, так же скрипты, картинки и пр.
приходится руками всю лабуду перебирать в исходнике

Дополнительно:

опцию --convert-links в wget пробовали?

  • s1s4dm1n, нет, спасибо
    буду смотреть
  • an, там овердофига опций у wget
    Вы в следующий раз поищите нужную, прежде чем задавать вопрос...
  • Сергей delphinpro, да искал, вводил различные параметры
    либо ошибки выдает, либо то же самое
    он то есть скачивает индексный файл в котором все вписано на внешний ресурс
    т.к ни картинки фоновые ни скрипты не тянет

    вот сами возьмите попробуйте напр. этот сайт

    даю
    wget -r -k -l 7 -p -E -nc https://intro.havah.io

    вот все что wget скачивает

    Как вытягивать сайты?

    хотя там изображений, стилей,скриптов должно быть туча

    полагаю что на большинстве сайтов какая то защита от wget стоит

  • an, а вот если взять напр такой сайт
    качается нормально
  • Ответы:

    Современные сайты сейчас в основном - не просто html-странички, а приложения на javascript. Всё делается через него - подгрузка ресурсов, отображение контента и т. д. А качалки типа wget его обрабатывать не умеют, поэтому ничего и не скачивается, кроме практически пустого index.html с сообщением "включите javascript".

    Чтобы нормально что-то скачать с современных сайтов, нужно автоматизировать работу через браузер. Например, chrome может работать в headless режиме и по запросу сохранять отображение страниц, уже прогнав на них javascript. Кажется, даже были какие-то обёртки, которые эти возможности используют.

     

    Для решения данной проблемы вы можете воспользоваться услугами фрилансеров. Мы выполним необходимую работу быстро и качественно.

     

      • Как вытягивать сайты?Есть ответ
      • 09.04.2024
      Ответить

      Для того чтобы вытягивать информацию с веб-сайтов, можно использовать различные технологии и инструменты, в зависимости от целей и задач. Вот несколько способов, которые могут помочь вам извлечь данные с сайтов:

      1. Web scraping с использованием Python и библиотеки BeautifulSoup:

      2. Использование API: многие сайты предоставляют API для доступа к своим данным. Необходимо зарегистрироваться на сайте, получить API ключ и обращаться к нужным эндпоинтам для получения информации.

      3. Использование специализированных инструментов для web scraping, таких как Scrapy, Octoparse, ParseHub и др. Эти инструменты облегчают процесс извлечения данных с веб-сайтов и предоставляют более продвинутые функции.

      4. Регулярные выражения: если у вас есть определенный формат данных, который вы хотите извлечь, можно использовать регулярные выражения для поиска и извлечения нужной информации из HTML кода страницы.

      Помните, что при использовании web scraping необходимо учитывать правила сайта относительно авторских прав и использования данных. Важно быть этичным и соблюдать правила использования информации с сайта.

      • Как вытягивать сайты?Есть ответ
      • 07.04.2024
      Ответить

      Для вытягивания данных с веб-сайтов существует несколько способов, в зависимости от вашей цели и навыков программирования. Вот несколько методов:

      1. Использование веб-скрапинга с помощью библиотеки BeautifulSoup в Python. Этот инструмент позволяет извлекать данные из HTML и XML файлов, а также проводить анализ веб-страниц. Пример кода на Python с использованием BeautifulSoup:

      2. Использование API веб-сайта, если таковое имеется. Многие веб-сайты предоставляют API для доступа к своим данным. Вы можете получить доступ к этим данным, используя запросы HTTP. Например, если у вас есть API ключ, вы можете получить данные с помощью следующего кода на PHP:

      3. Использование специализированных инструментов для веб-скрапинга, таких как Scrapy или Puppeteer. Эти инструменты позволяют автоматизировать процесс извлечения данных с веб-сайтов и предоставляют более продвинутые функции.

      Помните, что при использовании веб-скрапинга необходимо быть осмотрительным и уважать права веб-сайтов. Убедитесь, что у вас есть разрешение на извлечение данных с сайта, и не злоупотребляйте этой возможностью.

    Оставить комментарий