Как распознать текст в Linux?
Уже много раз у меня возникала потребность распознать от сканированный текст. В Windows есть мощная программа ABBYY Fine Reader, которая прекрасно справляется с этой задачей. Но незадача в том, что она платная и работает только в Windows. Хотя есть версия и под Linux, но она тоже платная и стоит хороших денег. Но нас волнует вопрос: как можно распознать текст бесплатно?
1. Как распознать текст онлайн?
Это наверное самый просто способ распознать текст. Вот некоторые сервисы для распознавания текста онлайн: onlineocr.ru, finereader.abbyyonline.com, sciweavers.org. В перечисленных трёх есть распознание на русский язык, во многих существующих других русский язык распознать невозможно.
Всем хороши онлайн сервисы для распознания текста, если...если ваш документ МАЛЕНЬКИЙ. Но если у вас журнал Linux Format размером в 100 мегабайт, то распознать онлайн такой документ будет невозможно - сначала нужно переформатировать PDF в графический формат, так как сервисы принимают только отсканированные документы в форматах JPG, BMP, TIF и некоторых других. Без программы, которая могла бы пере конвертировать PDF не обойтись. Но об этом чуть позже.
Поэтому во многих случаях будет лучше, конечно, установить программу для распознания текста, а такая есть и для Linux.
2. Как распознать текст в Linux?
Для этого существует бесплатный движок Cuneiform и графическая оболочка к нему - Yagf. Так же понадобится установить языковые пакеты aspell и aspell-ru. Итак, устанавливаем:
sudo apt-get install cuneiform yagf aspell aspell-ru
Если у вас в репозиториях не оказалось программы Yagf, то вам нужно скачать её с [urlspan]официального сайта[/urlspan]. У меня же она есть в репозиториях ualinux.com. Так же можно подключить дополнительный репозиторий:
sudo add-apt-repository ppa:alex-p/notesalexp
После установки пакетов идём в меню: Приложения - Офис - Yagf и запускаем программу.
Давайте попробуем распознать какой нибудь журнал в PDF формате. К сожалению, программа может распознать только графические файлы форматов JPEG, PNG, BMP, TIFF, GIF, PNM, PPM, PBM и некоторых других. Как распознать PDF формат? Нужно сначала пере конвертировать PDF в один из тех форматов, которые поддерживает программа. Как это сделать?
— Регулярная проверка качества ссылок по более чем 100 показателям и ежедневный пересчет показателей качества проекта.
— Все известные форматы ссылок: арендные ссылки, вечные ссылки, публикации (упоминания, мнения, отзывы, статьи, пресс-релизы).
— SeoHammer покажет, где рост или падение, а также запросы, на которые нужно обратить внимание.
SeoHammer еще предоставляет технологию Буст, она ускоряет продвижение в десятки раз, а первые результаты появляются уже в течение первых 7 дней. Зарегистрироваться и Начать продвижение
3. Как распознать PDF в Linux?
Для того, чтобы сконвертировать PDF в графический формат, мы воспользуемся программой Рdfedit. Лично у меня она есть в репозитории ualinux.com
sudo apt-get install pdfedit
Или можно скачать Pdfedit со страницы разработчиков: launchpad.net/ubuntu/+source/pdfedit
После установки программы идём в меню: Приложения - Графика - PDF Editor и запускаем приложение:
Я сохранил одну страницу в формате .PNG, хотя можно и в другой, пока не знаю, какой лучше. Единственный минус, при сохранении у файла почему-то не прописывается расширение, его мне пришлось дописать вручную, иначе программа файл не увидит.
Между прочим это даже хорошо, что распознать текст можно только по одной странице, очень редко нам нужно распознать огромный журнал в PDF, чаще всего всего лишь одну статью. Теперь скормим полученное изображение программе Yagf:
К сожалению распознание не удалось, и причина оказалась банальной: программа PdfEdit сохраняет PDF в ужасно маленьком разрешении - получилось изображение 89 килобайт. И в настройках программы я не нашёл, как увеличить разрешение. Ну что же, отсутствие результата - тоже результат.
Хорошо, что в арсенале Linux много программ и в репозиториях есть мега-программа, которая может выполнить требуемую задачу, преобразовать PDF в изображение. Это известная всем программа GIMP. Отрываем ей PDF файл и требуемую страницу им экспортируем в формат TIFF.
Вот это другое дело, размер той же страницы уже 4 мегабайта!
Ну вот, теперь совсем другое дело! Есть конечно ошибки, но это мелочи, легко исправить.
Во таким нехитрым способом можно распознать текст из PDF в Linux! Есть и другие способы, но думаю я описал самые простые, проверенные лично мной на практике. А практика - это ВСЁ! МОЖЕТ ВЫ ЗНАЕТЕ ЕЩЁ ПРОСТЫЕ И ЭФФЕКТИВНЫЕ СПОСОБЫ РАСПОЗНАТЬ PDF ФАЙЛЫ?
На блоге Seostage.ru проходит акция «Бесплатный обзор блогов всем желающим» Участвуйте, чтобы получить хорошие советы от знатоков!