Существует бесплатная OCR-программа с поддержкой якутского языка?
Существует бесплатная OCR-программа или веб-сервис OCR с поддержкой якутского языка? Есть небольшая книга на якутском в виде скриншотов с нераспознанным текстом. Я хочу перевести ее на русский, но сначала надо распознать текст.
В якутской письменности используется кириллица с пятью дополнительными буквами Ҕҕ, Ҥҥ, Өө, Һһ, Үү. Я подумал, может быть распознать текст на якутском через похожую письменность, например, киргизскую, но там другие дополнительные буквы.
Дополнительно:
Tesseract же есть. Там можно создать новый язык. Или использовать близкий язык и задать белый/черный список символов.
Ответы:
Более 10 лет назад игрался с фреймворком Гамера. https://qna.habr.com/answer?answer_id=1624737#answ...
Можно построить систему на основе этого фреймворка, которую можно обучить на образцах символов.
https://gamera.informatik.hsnr.de/download/index.html
https://jhir.library.jhu.edu/items/1af7abec-885d-4...
Если есть готовое свободное ПО, то буду рад узнать так же.
Опишите проблему, и специалист поможет с настройкой, исправлением ошибки или доработкой сайта. Подберём понятный план работ без лишней переписки.
Пока нет других ответов. Будьте первым, кто поможет автору.
Ответить на вопрос
Да, существует бесплатная OCR-программа с поддержкой якутского языка. Одним из таких инструментов является Tesseract OCR.
Tesseract OCR - это бесплатный и открытый исходный код программы распознавания текста, который поддерживает множество языков, включая якутский. Для того чтобы использовать Tesseract OCR с якутским языком, вам нужно будет установить соответствующий языковой пакет.
Пример использования Tesseract OCR с якутским языком в PHP:
// Путь к файлу изображения $imagePath = 'image.jpg'; // Команда для запуска Tesseract OCR с якутским языком $command = "tesseract $imagePath output -l sah"; // Выполнение команды exec($command); // Чтение распознанного текста из файла вывода $recognizedText = file_get_contents('output.txt'); // Вывод распознанного текста echo $recognizedText;
Не забудьте установить Tesseract OCR и якутский языковой пакет перед использованием данного кода. Надеюсь, это поможет вам с решением вашей проблемы!