Как правильно вытягивать морды сайтов?
Раньше как то через wget качало более менее нормально
сейча какой сайт не пробую, тянет абсолютные пути со своего домена в исходник, так же скрипты, картинки и пр.
приходится руками всю лабуду перебирать в исходнике
Дополнительно:
Содержание
опцию --convert-links в wget пробовали?
буду смотреть
Вы в следующий раз поищите нужную, прежде чем задавать вопрос...
либо ошибки выдает, либо то же самое
он то есть скачивает индексный файл в котором все вписано на внешний ресурс
т.к ни картинки фоновые ни скрипты не тянет
вот сами возьмите попробуйте напр. этот сайт
даю
wget -r -k -l 7 -p -E -nc https://intro.havah.io
вот все что wget скачивает
хотя там изображений, стилей,скриптов должно быть туча
полагаю что на большинстве сайтов какая то защита от wget стоит
качается нормально
Ответы:
Современные сайты сейчас в основном - не просто html-странички, а приложения на javascript. Всё делается через него - подгрузка ресурсов, отображение контента и т. д. А качалки типа wget его обрабатывать не умеют, поэтому ничего и не скачивается, кроме практически пустого index.html с сообщением "включите javascript".
Чтобы нормально что-то скачать с современных сайтов, нужно автоматизировать работу через браузер. Например, chrome может работать в headless режиме и по запросу сохранять отображение страниц, уже прогнав на них javascript. Кажется, даже были какие-то обёртки, которые эти возможности используют.
Для решения данной проблемы вы можете воспользоваться услугами фрилансеров. Мы выполним необходимую работу быстро и качественно.
Оставить комментарий Отменить
Ответы
- Есть ответ! к записи Как уменьшить масштаб меньше 100% в Windows 10 (22H2)
- Есть ответ! к записи Аналоги CloudFlare в России?
- Есть ответ! к записи Аналоги CloudFlare в России?
- Есть ответ! к записи Как называется человек, который дизайн придумает для сайта и сверстает его?
- Есть ответ! к записи Можно ли установить Яндекс.Диск на АльтЛинукс?
- Есть ответ! к записи Картинки мутные только на сафари, есть выход?
- Есть ответ! к записи Keenetic. Как настроить SSTP клиент с сертификатом?
- Есть ответ! к записи Чем заменить executor в aiogram 3?

Для того чтобы вытягивать информацию с веб-сайтов, можно использовать различные технологии и инструменты, в зависимости от целей и задач. Вот несколько способов, которые могут помочь вам извлечь данные с сайтов:
1. Web scraping с использованием Python и библиотеки BeautifulSoup:
2. Использование API: многие сайты предоставляют API для доступа к своим данным. Необходимо зарегистрироваться на сайте, получить API ключ и обращаться к нужным эндпоинтам для получения информации.
3. Использование специализированных инструментов для web scraping, таких как Scrapy, Octoparse, ParseHub и др. Эти инструменты облегчают процесс извлечения данных с веб-сайтов и предоставляют более продвинутые функции.
4. Регулярные выражения: если у вас есть определенный формат данных, который вы хотите извлечь, можно использовать регулярные выражения для поиска и извлечения нужной информации из HTML кода страницы.
Помните, что при использовании web scraping необходимо учитывать правила сайта относительно авторских прав и использования данных. Важно быть этичным и соблюдать правила использования информации с сайта.
Для вытягивания данных с веб-сайтов существует несколько способов, в зависимости от вашей цели и навыков программирования. Вот несколько методов:
1. Использование веб-скрапинга с помощью библиотеки BeautifulSoup в Python. Этот инструмент позволяет извлекать данные из HTML и XML файлов, а также проводить анализ веб-страниц. Пример кода на Python с использованием BeautifulSoup:
2. Использование API веб-сайта, если таковое имеется. Многие веб-сайты предоставляют API для доступа к своим данным. Вы можете получить доступ к этим данным, используя запросы HTTP. Например, если у вас есть API ключ, вы можете получить данные с помощью следующего кода на PHP:
3. Использование специализированных инструментов для веб-скрапинга, таких как Scrapy или Puppeteer. Эти инструменты позволяют автоматизировать процесс извлечения данных с веб-сайтов и предоставляют более продвинутые функции.
Помните, что при использовании веб-скрапинга необходимо быть осмотрительным и уважать права веб-сайтов. Убедитесь, что у вас есть разрешение на извлечение данных с сайта, и не злоупотребляйте этой возможностью.