Чем распознать текст на картинках в PDF?

1 ответ

Есть PDF, в котором вперемешку и текст, и куча картинок с текстом. Чем его распознать в линуксе или онлайн, так чтобы все слова, включая те, что на картинках попали в результат в виде .txt файла?

Дополнительно:

Ответы:

Данная технология называется OCR.
Можно использовать OCR движок для распознавания например tesseract-ocr
Со списком команд и как экспортировать текст из PDF в TXT ознакомься уже сам )

Спасибо, кэп. Но нет, это НЕ решение моего вопроса. СможеТЕ самостоятельно понять, почему? )
0xC0CAC01A, Ну я вижу загвостку тут только в картинках. Остальное легко решается с помощью скриптов
Загвоздка в мешанине из текста и картинок в PDF. Возьмите такой PDF и сами попробуйте.
0xC0CAC01A, На одной странице может быть текст и картинки?
Alex G., Да. А в картинках - тоже текст
0xC0CAC01A, Заморочно будет. Но сделать можно. Готовых решений увы не знаю.
Alex G., Спасибо. Ваш ответ очень помог )
Любой онлайн OCR по первой ссылке
TryH4ckM3, Вы уверены?
0xC0CAC01A, Я так делал. Было удовлетворительно.
TryH4ckM3, Чем именно пользовались?
0xC0CAC01A https://convertio.co/ru/ocr/

Нужно решить такую задачу?

Опишите проблему, и специалист поможет с настройкой, исправлением ошибки или доработкой сайта. Подберём понятный план работ без лишней переписки.

Заказать помощь

Лучший ответ

Анна SEO Ответ

Для распознавания текста на изображениях в PDF файле можно воспользоваться специальными библиотеками и инструментами. Одним из распространенных способов является использование библиотеки Tesseract OCR.

Ниже приведен пример кода на PHP, который использует Tesseract OCR для извлечения текста из изображений в PDF файле:

<?php

// Устанавливаем путь к исполняемому файлу Tesseract OCR

$tesseractPath = 'путь_к_tesseract';
// Путь к PDF файлу

$pdfFilePath = 'путь_к_pdf_файлу';
// Создаем временную директорию для извлеченных изображений

$tempDir = 'путь_к_временной_директории';

mkdir($tempDir);
// Разбиваем PDF файл на изображения

exec("convert -density 300 {$pdfFilePath} {$tempDir}/page.png");
// Инициализируем Tesseract OCR

$cmd = "{$tesseractPath} {$tempDir}/page.png stdout";

exec($cmd, $output);
// Выводим результат

echo implode("

Другие ответы (0)

Пока нет других ответов. Будьте первым, кто поможет автору.

Ответить на вопрос

комментарий Отменить ответ

Вам также может быть интересно

VPN Как правильно настроить vless для Android TV? 0 ответов Pyrogram Как правильно зарегистрировать юзер бота в Telegram? 0 ответов печатные-платы Как заставить запускаться программу M3.exe от компании Hanxing AOI в инспекционной машине на Windows 7 Pro? 0 ответов VPN Почему подключение через VPN работает только на wi-fi, а через кабель нет, где ошибка? 0 ответов

Чем распознать текст на картинках в PDF?

Дополнительно:

Ответы:

комментарий Отменить ответ

Вам также может быть интересно

Ежедневно, круглосуточно