понедельник, 4 июля 2016 г.

Про OCR

Исходные данные: 
Xubuntu 14.04, средняя во всех отношения рабочая станция.

  Задачу представитель заказчика прописал предельно просто - надо поставить на (имя, адрес) какую-нибудь OCR, что там есть... А что там есть? Общение с Гуглем показало что реально свежего материала-то и нету... То есть совсем. Нормальные толковые статьи имеют давность пары лет, а то и поболее, что смущает. Удалось нарыть лишь одну единственную статью, которая понравилась. Осталось тупо попробовать.
   Вот какие получились выводы. Для большинства применений подходит yagf, возможно где-то будет интересен ocrfeeder. Это фронт-енды. В качестве движка понравился tesseract, как есть без обучалок и т.п. ну "до кучи" ставим cuneiform (как самого старого и заслуженного). Собственно установка
apt-get install tesseract-ocr tesseract-ocr-eng tesseract-ocr-equ tesseract-ocr-rus tesseract-ocr-osd cuneiform ocrfeeder yagf unpaper

   А вот что касается использования... тут учиться, учиться и учиться. А в связи с тем что людей надо научить... В общем по-хорошему надо бы написать нечто вреде инструкции. В связи с тем что это само по себе трудно - много - лениво, ограничусь простой констатацией данного факта (пока).