Чем распознать текст на картинках в PDF?
Есть PDF, в котором вперемешку и текст, и куча картинок с текстом. Чем его распознать в линуксе или онлайн, так чтобы все слова, включая те, что на картинках попали в результат в виде .txt файла?
Дополнительно:
Ответы:
Данная технология называется OCR.
Можно использовать OCR движок для распознавания например tesseract-ocr
Со списком команд и как экспортировать текст из PDF в TXT ознакомься уже сам )
- Спасибо, кэп. Но нет, это НЕ решение моего вопроса. СможеТЕ самостоятельно понять, почему? )
- 0xC0CAC01A, Ну я вижу загвостку тут только в картинках. Остальное легко решается с помощью скриптов
- Загвоздка в мешанине из текста и картинок в PDF. Возьмите такой PDF и сами попробуйте.
- 0xC0CAC01A, На одной странице может быть текст и картинки?
- Alex G., Да. А в картинках - тоже текст
- 0xC0CAC01A, Заморочно будет. Но сделать можно. Готовых решений увы не знаю.
- Alex G., Спасибо. Ваш ответ очень помог )
- Любой онлайн OCR по первой ссылке
- TryH4ckM3, Вы уверены?
- 0xC0CAC01A, Я так делал. Было удовлетворительно.
- TryH4ckM3, Чем именно пользовались?
- 0xC0CAC01A https://convertio.co/ru/ocr/
Опишите проблему, и специалист поможет с настройкой, исправлением ошибки или доработкой сайта. Подберём понятный план работ без лишней переписки.
Пока нет других ответов. Будьте первым, кто поможет автору.
Ответить на вопрос
Для распознавания текста на изображениях в PDF файле можно воспользоваться специальными библиотеками и инструментами. Одним из распространенных способов является использование библиотеки Tesseract OCR.
Ниже приведен пример кода на PHP, который использует Tesseract OCR для извлечения текста из изображений в PDF файле: