Linux за българи: Форуми

Linux секция за начинаещи => Настройка на програми => Темата е започната от: marsislav в Aug 21, 2009, 01:08



Титла: OCR и кирилица?
Публикувано от: marsislav в Aug 21, 2009, 01:08
Здравейте отново!
Налага ми се да използвам Optical Character Recognition програма разпознаваща кирилица. Потърсих в Google  но не пападнах на нищо подходящо. Систамата ми  е "Ubuntu" 9.04.
Прабвах да стартирам и няколко Windows OCR програми /чрез WINE 1.1.27/ , като например  Fine Reader CuneiForm 12, но не работят както трябва.
Благодаря Ви предварително!
Marsislav


Титла: Re: OCR и кирилица?
Публикувано от: Naka в Aug 21, 2009, 03:05
И аз преди няколко месаца търсих и не намерих нищо.  Имаше няколко но с изключително лошо качество на разпознаването при малки букви. Имаше и някъкъв свободен проект на гоогле, но беше в много начална фаза и за нищо не ставаше.

Качествени свободни OCR програми все още липсват за линукс. Незнам как е с платените.


Титла: Re: OCR и кирилица?
Публикувано от: foxb в Aug 21, 2009, 05:29
Преди доста време пробвах FineReader - платена
http://www.abbyy.com/

Вършеше сносна работа т.е. ~70-80% разпознаваемост, но за съжаление е само за уиндоус.

Имай напредвид, че качеството на сканиране играе много важна роля.

Пробвал съм доста други, но за текстове на кирилица не намерих по-добра.


Титла: Re: OCR и кирилица?
Публикувано от: lz в Aug 21, 2009, 08:20
Определено зависи как сканираш. Препоръчително е файловете да са в TIFF формат, с резолюция не по-малко от 300dpi.


Титла: Re: OCR и кирилица?
Публикувано от: mimosh в Aug 21, 2009, 09:06
Дефинирай но не работят както трябва.

CuneiForm 12 е много добра програма, ползвал съм я под уиндоус (40 стр ми ги разпозна като единствено даде грешки в номерацията на документа, защото беше с римски цифри). Доколкото знам има порт за Линукс - QT-CuneiForm или нещо такова беше. За да работи коректно просто трябва да смениш езика за разпознаване от Руско-Английски на Български. Единствен недостатък на програмата е че не работи с комбинация Български-Английски.



Титла: Re: OCR и кирилица?
Публикувано от: marsislav в Aug 23, 2009, 00:41
Благодаря за отговорите.
Не знаех, че има версия на Cuneiform за Линукс....
Нищо. Вече я изтеглих и ще се опитам да си я компилирам /вече се опитах но ми извежда съобщение за грешка още в началото на процеса на компилация. Ще се опитвам пак :)/
Поздарави! :)


Титла: Re: OCR и кирилица?
Публикувано от: mikis в Aug 23, 2009, 14:53
Впрочем, някой да е попадал на бинарен пакет за Дебиан на cuneiform-qt?


Титла: Re: OCR и кирилица?
Публикувано от: go_fire в Aug 23, 2009, 19:35
Както вече няколко пъти съм писал, че то само за Дебиан има бинарни, за други не. Намират се в хранилището на altlinux.org, които са и авторите на cuneiform-qt. И да Куниформа се справя чудесно с кирилица, и да има опция за български текст. Забравете всякакви файнове, майнове, омнита, комнита и други комерчески истории, които даже и не работят добре с винце.


Титла: Re: OCR и кирилица?
Публикувано от: mikis в Aug 23, 2009, 22:47
Както вече няколко пъти съм писал, че то само за Дебиан има бинарни, за други не. Намират се в хранилището на altlinux.org ...

Добре де, как в хранилището на една RPM базирана дистрибуция ($2) ще има пакети за Debian?! ??? Или аз нещо недоглеждам?

За мой късмет и alien не работи както трябва, заради това ($2) и не мога да обърна rpm-а в deb пакет. >:(

go_fire,
можеш ли да дадеш директен линк за сваляне?

Също така, ще е добре да се обясни как се компилира програмата от сорс, тъй като й липсват стандартните configure и make скриптове.


Титла: Re: OCR и кирилица?
Публикувано от: go_fire в Aug 24, 2009, 08:51
Добре приемам, че може "лекинко" да съм се объркал. Тъй като не бях ползвал Алт-а не знаех, че е някакъв PCLinux OS клонинг. А и Куниформа ползвам винаги бозавата версия, не само защото повече от година нямаше за Линукс и още толкова без графична обвивка, но някак си КДЕ4 ми е извънредно противно, което ме кара последните месеци да съм основно на Гном, което си е постижение.

Иначе официалната страница, както сигурно знаеш е:

http://www.altlinux.org/Cuneiform-Qt

И този ред:
Цитат
apt-get install cuneiform-qt
ме е заблудил, пък то било роднина на ПЦЛинукс. Има git, които инж. Тони Тошев преди няколко месеца пробва и нещо не се справи.

За съжаление не мога да помогна много, защото нямам пряка работа с Qt GUI за Cuneiform-Linux. Но пък бозавата версия си работи страхотно с вино и мезе и не ми се занимава изобщо с Qt4 безумия.

п.п. Сега забелязах, че има връзка към още една обвивка, която до момента бях пропуснал, нищо, че се интересувам живо от темата:

http://symmetrica.net/cuneiform-linux/yagf-ru.html


Титла: Хранилища на AltLinux?
Публикувано от: marsislav в Aug 24, 2009, 10:29
Някой може ли да ми даде хранилищата на AltLinux, за да мога да си инсталирам Cumeiform чрез Apt-get?
Потърсих в Google, но не ги намирех.


Титла: Re: OCR и кирилица?
Публикувано от: Kras в Aug 24, 2009, 10:53
Ето ти и още едно GUI за Cumeiform:
http://symmetrica.net/cuneiform-linux/yagf-en.html

Има и някакъв скрипт self-installing binary archive: http://symmetrica.net/cuneiform-linux/yagf-0.8.1-i586.sh_

Не съм го пробвал но мисля, че е добро.
Успех и да не забравиш да кажеш какво си подкарал и как под Линукс!


Титла: Re: OCR и кирилица?
Публикувано от: victim70 в Aug 24, 2009, 18:26
А някой да знае как се компилирга cuneiform. На сорс е направено само за Visual studio. Няма ли някакъв чалъм без много пребарване да го подкарам?

Открих го https://launchpad.net/cuneiform-linux/+download ($2)


Титла: Открих DEB пакета...
Публикувано от: marsislav в Aug 24, 2009, 20:44
Здравейте! Открих DEB пакета с Cuneiform / http://narod.ru/disk/7652945000/cuneiform-0.6-bzr387-i386.deb.html / /Intel/
И http://narod.ru/disk/7633394000/cuneiform_0.6.0-1_amd64.deb.html /AMD 64 битови процесори/.
Инсталацията минава безпроблемно, но не успявам да го стартирам.
Когато напиша "Cuneiform" в конзолата ми изкарва следното съобщение - cuneiform: error while loading shared libraries: libMagick++.so.10: cannot open shared object file: No such file or directory

Какво трябва да направя /инсталирам , за да го подкарам?


Титла: Re: OCR и кирилица?
Публикувано от: stealth01 в Aug 24, 2009, 21:39
http://packages.debian.org/lenny/libmagick%2B%2B10 ($2)

ако има и други зависимости, ползвай търсачката за файлове/пакети на debian: http://www.debian.org/distrib/packages


Титла: Re: OCR и кирилица?
Публикувано от: marsislav в Aug 24, 2009, 22:28
Сега ако дадете и съвет как се добавя и GUI ценаняма да имате :)
 Пробвах със скрипта за които еу писал Kras, но нищо не се получава.


Титла: Re: OCR и кирилица?
Публикувано от: mikis в Aug 28, 2009, 18:21
Тъй!
Следното се отнася за такива като мен, които ползват Debian Testing.
---
Самата OCR програма я има в хранилищата на Дебиан ($2), интересното е, че е в секция 'non-free'. Обърнете внимание, че няма версия за Lenny (стабилния клон на Дебиан)! Инсталира се лесно с 'apt-get install cuneiform'.

С известно ровене в Гугъл (например с "cuneiform-qt deb package"), намерих два компилирани DEB пакета на cuneiform-qt - графичната обвивка за cuneiform. Единият (cuneiform-qt_0.1.1-1_i386.deb) е пуснат в този форум ($2), четвъртото мнение отгоре надолу. Качил съм го и тук ($2), ако има проблеми с горния линк.

Пакетът се сваля локално на компютъра и се инсталира по обичайния начин: 'dpkg -i /път/до/cuneiform-qt_0.1.1-1_i386.deb'.
След инсталиране, програмата трябва да се появи в главното меню, секция "Офис".

Направих един бърз експеримент с част от страница на снимана книга и според мен, резултатът е повече от задоволителен:

(http://free.hit.bg/mikis/screenshots/cuneiform_screenshot1.png)

Трябва да призная, че барнах малко изображението с Gimp, преди разпознаването. Пробвах с два .png файла, единият в степени на сивото, а другият - черно-бял. При първия даде грешка, а резултатът от черно-белия съм показал на картинката.

Така вече мога да кажа, че имам добре работеща програма за OCR на моя Дебиан. ;)


Титла: Re: OCR и кирилица?
Публикувано от: go_fire в Aug 28, 2009, 20:00
Не знам, защо е естествено да е в non free. Програмата е ОПЛ, а ядрото й BSD. Благодаря за разяснението, както казах досега ползвах бозавата версия под винце, но твоя начин е доволно лесен.

Иначе за нашия език е ясно, че добре се справя. Така беше още когато беше платена, нали е руска, мисли и за братушките от заддунайская ;)

А другия ГПИ дето излезе пак наскоро пробва ли?

Много благодаря за положения труд от мое и на съфорумците име!


Титла: Re: OCR и кирилица?
Публикувано от: Naka в Aug 28, 2009, 22:03
За тези дето са я пробвали имам питане:
Може ли да се обучава?
Има ли конозлен вариант. Например някаво просто тулче - вход *png изход чист текст?