Linux за българи: Форуми

Нетехнически теми => Идеи и мнения => Темата е започната от: viv1111 в Jan 18, 2008, 12:49



Титла: Преобразуване от образ в текст
Публикувано от: viv1111 в Jan 18, 2008, 12:49
Ползвам OS UBUNTU 7.10 i386. Налага ми се да преобразувам сканирани текстове или PDF файлове в текстови файл. Някой да ми помогне с информация дали има програма под Linux или съответни команди за преобразуване. Пробвах с Clara OCR, но нещо не се получава. Прадварително благодаря. Можете да ми се обадите на viv@powernet.bg.


Титла: Преобразуване от образ в текст
Публикувано от: zeridon в Jan 18, 2008, 14:00
картинка -> текст: OCR (fuzzyocr до колкото знам се справя прилично)
pdf -> text: pdf2text


Титла: Преобразуване от образ в текст
Публикувано от: kennedy в Jan 18, 2008, 15:45
pdf2text само ако вътре не е наврян някой тиф (както го правят  маса скенери)


Титла: Преобразуване от образ в текст
Публикувано от: sdr в Jan 18, 2008, 16:48
http://jocr.sourceforge.net/ но май не се поддържа вече :(


Титла: Преобразуване от образ в текст
Публикувано от: spirtbrat в Jan 18, 2008, 18:18
За момента най-доброто безплатно решение се води гугълската Тesseract. Програмата е с команден интерфейс. От гугъл са пуснали библиотеки за създаване на GUI, но засега съществува само този Web GUI, писан от някакъв ентусиаст.
На много места препоръчват, за най-добри резултати, да се ползва Tesseract + OCRopus. Това второто не съм го ползвал и нищо не мога да кажа за него.