Чем распознать текст на картинках в PDF?

Ссылка скопирована
1 ответ

Есть PDF, в котором вперемешку и текст, и куча картинок с текстом. Чем его распознать в линуксе или онлайн, так чтобы все слова, включая те, что на картинках попали в результат в виде .txt файла?

Дополнительно:

Ответы:

Данная технология называется OCR.
Можно использовать OCR движок для распознавания например tesseract-ocr
Со списком команд и как экспортировать текст из PDF в TXT ознакомься уже сам )

  • Спасибо, кэп. Но нет, это НЕ решение моего вопроса. СможеТЕ самостоятельно понять, почему? )
  • 0xC0CAC01A, Ну я вижу загвостку тут только в картинках. Остальное легко решается с помощью скриптов
  • Загвоздка в мешанине из текста и картинок в PDF. Возьмите такой PDF и сами попробуйте.
  • 0xC0CAC01A, На одной странице может быть текст и картинки?
  • Alex G., Да. А в картинках - тоже текст
  • 0xC0CAC01A, Заморочно будет. Но сделать можно. Готовых решений увы не знаю.
  • Alex G., Спасибо. Ваш ответ очень помог )
  • Любой онлайн OCR по первой ссылке
  • TryH4ckM3, Вы уверены?
  • 0xC0CAC01A, Я так делал. Было удовлетворительно.
  • TryH4ckM3, Чем именно пользовались?
  • 0xC0CAC01A https://convertio.co/ru/ocr/
Нужно решить такую задачу?

Опишите проблему, и специалист поможет с настройкой, исправлением ошибки или доработкой сайта. Подберём понятный план работ без лишней переписки.

Заказать помощь
Лучший ответ
1
Анна SEO Ответ

Для распознавания текста на изображениях в PDF файле можно воспользоваться специальными библиотеками и инструментами. Одним из распространенных способов является использование библиотеки Tesseract OCR.

Ниже приведен пример кода на PHP, который использует Tesseract OCR для извлечения текста из изображений в PDF файле:

<?php
// Устанавливаем путь к исполняемому файлу Tesseract OCR
$tesseractPath = 'путь_к_tesseract';

// Путь к PDF файлу
$pdfFilePath = 'путь_к_pdf_файлу';

// Создаем временную директорию для извлеченных изображений
$tempDir = 'путь_к_временной_директории';
mkdir($tempDir);

// Разбиваем PDF файл на изображения
exec("convert -density 300 {$pdfFilePath} {$tempDir}/page.png");

// Инициализируем Tesseract OCR
$cmd = "{$tesseractPath} {$tempDir}/page.png stdout";
exec($cmd, $output);

// Выводим результат
echo implode("

Другие ответы (0)

Пока нет других ответов. Будьте первым, кто поможет автору.

Ответить на вопрос

комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Вам также может быть интересно