Существует бесплатная OCR-программа с поддержкой якутского языка?

Ссылка скопирована
1 ответ

Существует бесплатная OCR-программа или веб-сервис OCR с поддержкой якутского языка? Есть небольшая книга на якутском в виде скриншотов с нераспознанным текстом. Я хочу перевести ее на русский, но сначала надо распознать текст.
В якутской письменности используется кириллица с пятью дополнительными буквами Ҕҕ, Ҥҥ, Өө, Һһ, Үү. Я подумал, может быть распознать текст на якутском через похожую письменность, например, киргизскую, но там другие дополнительные буквы.

Дополнительно:

Tesseract же есть. Там можно создать новый язык. Или использовать близкий язык и задать белый/черный список символов.

Ответы:

Более 10 лет назад игрался с фреймворком Гамера. https://qna.habr.com/answer?answer_id=1624737#answ...
Можно построить систему на основе этого фреймворка, которую можно обучить на образцах символов.
https://gamera.informatik.hsnr.de/download/index.html
https://jhir.library.jhu.edu/items/1af7abec-885d-4...

Если есть готовое свободное ПО, то буду рад узнать так же.

Нужно решить такую задачу?

Опишите проблему, и специалист поможет с настройкой, исправлением ошибки или доработкой сайта. Подберём понятный план работ без лишней переписки.

Заказать помощь
Лучший ответ
1
Анна SEO Ответ

Да, существует бесплатная OCR-программа с поддержкой якутского языка. Одним из таких инструментов является Tesseract OCR.

Tesseract OCR - это бесплатный и открытый исходный код программы распознавания текста, который поддерживает множество языков, включая якутский. Для того чтобы использовать Tesseract OCR с якутским языком, вам нужно будет установить соответствующий языковой пакет.

Пример использования Tesseract OCR с якутским языком в PHP:

// Путь к файлу изображения
$imagePath = 'image.jpg';
 
// Команда для запуска Tesseract OCR с якутским языком
$command = "tesseract $imagePath output -l sah";
 
// Выполнение команды
exec($command);
 
// Чтение распознанного текста из файла вывода
$recognizedText = file_get_contents('output.txt');
 
// Вывод распознанного текста
echo $recognizedText;

// Путь к файлу изображения $imagePath = 'image.jpg'; // Команда для запуска Tesseract OCR с якутским языком $command = "tesseract $imagePath output -l sah"; // Выполнение команды exec($command); // Чтение распознанного текста из файла вывода $recognizedText = file_get_contents('output.txt'); // Вывод распознанного текста echo $recognizedText;

Не забудьте установить Tesseract OCR и якутский языковой пакет перед использованием данного кода. Надеюсь, это поможет вам с решением вашей проблемы!

Другие ответы (0)

Пока нет других ответов. Будьте первым, кто поможет автору.

Ответить на вопрос

комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Вам также может быть интересно