Linux за българи: Форуми

Нетехнически теми => Предложения за български проект => Темата е започната от: vstoykov в Mar 19, 2005, 23:38



Титла: конвертиране шльокавица -> нещо разбираемо
Публикувано от: vstoykov в Mar 19, 2005, 23:38
Не е достатъчно да се направи съответствие на латинските букви с кирилски.

Пример:
Towa e primeren tekst na 6lyokavitsa.
qbalka, yabalka
Yordan Yordanov.
English text

За да се преведе качествено горния пример трябва да има дефинирани следните съответствия:

lyo - льо
yo - йо
ya, q - я
ts, c - ц

Идея: да се ползва програма за проверка на правописа за да се отсяват английските думи  (тях не искаме да ги конвертираме на кирилица).
Измислянето на алгоритъм за корекция на грешки преди конвертирането също ще е от полза. След конвертирането пак може да се коригират грешки - алгоритъм за тази цел се измисля по-лесно (може да се ползва aspell).
Даже може и да се създаде речник с най-често ползваните думи на шльокавица с техните аналози от българския език.

Всички програми за конвертиране на латиница към кирилица, които съм видял до момента не са достатъчно интелигентни.

Сетих се: вече имаме речник с много думи от българския език - може лесно да се напише скрипт, който да ги конвертира във всичките им варианти на шльокавица - по този начин ще бъде създаден речник със съответствията на думите на шльокавица с думите на кирилица, който ще се ползва при превеждането на шльокавицата.


Титла: конвертиране шльокавица -> нещо разбираемо
Публикувано от: sebastianz55 в Mar 20, 2005, 00:11
Извинявай, но не успях да разбера какво ти е предложението.
И защо ни трябва да конвертираме кирлицата в шлокавица?


Титла: конвертиране шльокавица -> нещо разбираемо
Публикувано от: vstoykov в Mar 20, 2005, 11:30
Цитат (sebastianz55 @ Март 20 2005,01:11)
Извинявай, но не успях да разбера какво ти е предложението.
И защо ни трябва да конвертираме кирлицата в шлокавица?

Целта ми е обратната - да се конвертира шльокавица в кирилица  ;)

Обаче проблема е, че конвертирането на думите от шльокавица към кирилица е много трудна задача - многократно по-трудна в сравнение  конвертирането от кирилица към шльокавица. Затова правим следното:

Взимаме речника с българските думи и конвертираме всяка дума по всички възможни "правила" на щльокавицата с цел да получим подобен речник:

publikaciq -> публикация
publikaciya -> публикация
konvertirane -> конвертиране
konwertirane -> конвертиране
dalvina -> дължина
dyljina -> дължина
dalzhina -> дължина

После може да се напише скрипт, който отделя думите от даден текст на шльокавица и ги замества една по една използвайки този речник.

Този скрипт ще работи ужасно бавно. Ако някой е запознат по-добре с българския език, моля да  предложи по-ефективен начин за конвертиране на шльокавица към кирилица.


Титла: конвертиране шльокавица -> нещо разбираемо
Публикувано от: tzappa в Mar 20, 2005, 12:40
Правил съм такова нещо, но се оказа, че има много изключения. Сещам се за едно момиче, което се казва Майа, а не Мая, ама я = ya; y = й; a = a...
и както казах - има много такива.

Иначе ти желая успех!


Титла: конвертиране шльокавица -> нещо разбираемо
Публикувано от: vstoykov в Mar 20, 2005, 21:21
Не мога да се справя със задачата да напиша скрипт, който от даннитев пакета bgoffice-4.0.tar.gz да създава списък с всички думи във всичките им форми  :(


Титла: конвертиране шльокавица -> нещо разбираемо
Публикувано от: sebastianz55 в Mar 20, 2005, 21:30
Да ти призная смятам, че тази идея няма хляб в нея поради:
1. Културните българи пишат на кирилица.
2. Има кирилизатори за тези, които нямат поддържка на кирилица на компютрите си
3. Всички съвременни софтуери като чатове, инстант месенджъри и т.т има чудесна поддръжка на кирилица.
4. Това върши достатъчно добра работа - http://momche.net/res/translate/

Не виждам смисъла от преводач, който превежда от едни език на същия език, заради мързела _най-често_ на дадени хора.


Титла: конвертиране шльокавица -> нещо разбираемо
Публикувано от: vstoykov в Mar 20, 2005, 22:16
Цитат (sebastianz55 @ Март 20 2005,22:30)
Да ти призная смятам, че тази идея няма хляб в нея поради:
1. Културните българи пишат на кирилица.
2. Има кирилизатори за тези, които нямат поддържка на кирилица на компютрите си
3. Всички съвременни софтуери като чатове, инстант месенджъри и т.т има чудесна поддръжка на кирилица.
4. Това върши достатъчно добра работа - http://momche.net/res/translate/

Не виждам смисъла от преводач, който превежда от едни език на същия език, заради мързела _най-често_ на дадени хора.

Въпреки, че няма технически проблеми да се пише на кирилица, съществуват много текстове на шльокавица и една нищожна част от тях може да ми се прииска да прочета. Тогава би било добре да имам програма, която да го конвертира в приемлив за четене формат.

Конвертора, който посочваш конвертира от кирилица на шльокавица - това е лесно. До момента не съм видял достатъчно интелигентна програма, която да конвертира от шльокавица на кирилица.


Титла: конвертиране шльокавица -> нещо разбираемо
Публикувано от: sebastianz55 в Mar 20, 2005, 22:59
Да беше започнал значи с целта на идеята си - превод на съществуващи документи на шльокавица.

Обаче това е нож с две остриета:
- от една страна - ще се преведа документите - това добре.
- от друга - ще се окуражи създаването на още документи след като вече има такъв преводач => ако се стимулира то  няма да се създаде предпоставка и стимул за писане на кирилица. А не мисля, че това е целта на всички надписи, банери, сайтове и т.н.- по тази тема.
Един вид може да стане - Пишете на шльокавица - може да се преведе, за който пък чак толкоз си иска кирилицата.


Титла: конвертиране шльокавица -> нещо разбираемо
Публикувано от: vstoykov в Mar 20, 2005, 23:12
Цитат (sebastianz55 @ Март 20 2005,23:59)
Да беше започнал значи с целта на идеята си - превод на съществуващи документи на шльокавица.

Обаче това е нож с две остриета:
- от една страна - ще се преведа документите - това добре.
- от друга - ще се окуражи създаването на още документи след като вече има такъв преводач => ако се стимулира то  няма да се създаде предпоставка и стимул за писане на кирилица. А не мисля, че това е целта на всички надписи, банери, сайтове и т.н.- по тази тема.
Един вид може да стане - Пишете на шльокавица - може да се преведе, за който пък чак толкоз си иска кирилицата.

Тогава ще държим преводача в тайна и ще го разпространяваме само сред "наши хора"   ;)

Не смятам, че преводачът ще повлияе сериозно на навиците на хората да сменят любимата си азбука. И освен това преводачът няма да е идеален (но ще бъде значително по-добър от преводачите създадени до момента).


Титла: конвертиране шльокавица -> нещо разбираемо
Публикувано от: ColdFusion в Mar 21, 2005, 00:28
Защо не я конвертираш буква по буква (или комбинации от букви като zh) и после пуснеш програма за откриване на грешки с нормален български речник. Няма да е перфектно, но поне ще отхвърлиш повечето проблеми. Ти се опитваш да направиш обратното, което не ми се вижда много адекватно.

ColdFusion


Титла: конвертиране шльокавица -> нещо разбираемо
Публикувано от: vstoykov в Mar 21, 2005, 19:34
Цитат (ColdFusion @ Март 21 2005,01:28)
Защо не я конвертираш буква по буква (или комбинации от букви като zh) и после пуснеш програма за откриване на грешки с нормален български речник. Няма да е перфектно, но поне ще отхвърлиш повечето проблеми. Ти се опитваш да направиш обратното, което не ми се вижда много адекватно.

ColdFusion

Проблемът е, че не знам какви точно букви/комбинации от букви се ползват вместо буквите от кирилицата във всеки отделен случай. Как една програма от типа, който предлагаш ще преведе следните думи:

Syrvyr (Сървър)
Sarvar (Сървър)
Gylyb  (Гълъб)
Tamnina (Тъмнина)
Tymnina (Тъмнина)
Syobshtenie (Съобщение)
Saob6tenie (Съобщение)

Ако се генерира речник с думите от всички възможни диалекти на шльокавицата (и този речник се ползва при превода) тези думи ще се преведат правилно.


Титла: конвертиране шльокавица -> нещо разбираемо
Публикувано от: ivak в Mar 21, 2005, 20:48
За мен лично задачата няма особена ценност като конкретна цел превод от шльокавица на кирилица. Просто отказвам да чета такива текстове и дори Babelfish да започне да ги превежда, пак ще ги игнорирам.

От друга страна, обаче, проблемът е интересен от алгоритмична гледна точка. Генерирането на всеобхватен речник на шльокавицата е causa perduta поради две причини. Първо, това е подход с прилагане на груба сила, лишен е от елегантност и не е оптимален от гледна точка на бързодействието. И второ, опасявам се че подобен речник няма да бъде еднозначен, т.е. транскрибирани по различен начин *различни* думи могат да дадат еднакъв краен резултат.

Като алтернатива бих предложил да се изследват не целите думи, а формата, в която са премахнати всички гласни букви. Ще се възползвам от един от твоите примери: "syrvyr" и "sarvar" - и двете думи се трансформират до една и съща форма, "srvr".

За съжаление проблемът оттук нататък става значително по-сложен. Не може да се ползва прост алгоритъм за сравнение, тъй като потребителите на шльокавица не са най-известни със своя правопис. Тук на помощ може да ни дойде мултивариантният статистически анализ. Ако си представим всяка дума като вектор в n-мерното пространство, където последователните букви задават съответните координати (примерно, като се ползва ascii индексът им), две думи могат да бъдат изследвани за сходство като бъде сравнен ъгълът, сключван от техните вектори.

Друг възможен подход е ползването на невронна мрежа. В този случай обаче ще бъде необходим *сериозен* труд за обучаване на самата мрежа.

Какъвто и подход да се избере, проблемът представлява чисто академичен интерес. От него би излязла чудесна бакалавърска теза по информатика. Но инак просто не си струва да се влагат такива големи усилия, за да се поощрява мързелът на определени личности.


Титла: конвертиране шльокавица -> нещо разбираемо
Публикувано от: ColdFusion в Mar 21, 2005, 22:25
Цитат (vstoykov @ Март 21 2005,20:34)
Проблемът е, че не знам какви точно букви/комбинации от букви се ползват вместо буквите от кирилицата във всеки отделен случай. Как една програма от типа, който предлагаш ще преведе следните думи:

Syrvyr (Сървър)
Sarvar (Сървър)
Gylyb  (Гълъб)
Tamnina (Тъмнина)
Tymnina (Тъмнина)
Syobshtenie (Съобщение)
Saob6tenie (Съобщение)

Ако се генерира речник с думите от всички възможни диалекти на шльокавицата (и този речник се ползва при превода) тези думи ще се преведат правилно.

Не е нужно да е перфектен превода на етапа на самото конвертиране:
Syrvyr (Сървър) - Сървър
Sarvar (Сървър) - Сарвар
Gylyb  (Гълъб) - Гълъб
Tamnina (Тъмнина) - Тамнина
Tymnina (Тъмнина) - Тъмнина
Syobshtenie (Съобщение) - Съобщение
Saob6tenie (Съобщение) - Саобштение

Думете в черно съвсем лесно ще бъдат открити от програмата за корегиране на грешки с българският речник.
Аз ти предложих след като бъдат конвертирани от шльокавицата да се корегират за евентуалните грешки.

ColdFusion


Титла: конвертиране шльокавица -> нещо разбираемо
Публикувано от: CaBA в Mar 22, 2005, 16:16
Проблемът е изключително интересен от алгоритмична гледна точка, въпреки изказаните съмнения дали е практично да се решава. Предлаганият от ivak алгоритъм за сравнение на близост обаче не е най-подходящият в случая - по уместно ми се струва разстоянието по Левенщайн ( Levenshtein Distance - http://www.merriampark.com/ld.htm ).

Вместо да се генерира речник с всички възможни диалекти на шльокавицата, по-добро решение ми се струва построяването на формална граматика и реализирането й като автомат на Марков (това е автомат, в който преходите са вероятностни). Решаването на задачата е чудесно и за магистърска защита, така че ако тук има бъдещ магистър по информатика/компютърна лингвистика, да запретва ръкави :)


Титла: конвертиране шльокавица -> нещо разбираемо
Публикувано от: ivak в Mar 23, 2005, 15:58
Цитат (CaBA @ Март 22 2005,17:16)
...по уместно ми се струва разстоянието по Левенщайн...

Много омаен алгоритъм; досега не бях чувал за него. Изглежда напълно подходящ за целта.


Титла: конвертиране шльокавица -> нещо разбираемо
Публикувано от: vstoykov в Mar 23, 2005, 20:10
Проблема със списъка на всички думи във всичките им форми е решен  :)
Благодаря на Радостин Раднев, че ме насочи към речника за версия 4.0 на aspell (аз проверих само речника за новата версия на aspell, за старата нямаше да се сетя). Скрипта за генериране на речинка е  bin/build_dictionaries/build_aspell.sh от версията на БГ Офис за разработчици.


Титла: конвертиране шльокавица -> нещо разбираемо
Публикувано от: ivak в Mar 23, 2005, 22:08
Цитат (CaBA @ Март 22 2005,17:16)
...по уместно ми се струва разстоянието по Левенщайн...

Хмм, на второ четене, като се замислих малко, разстоянието на Левенщайн не върши работа. Пример:

раб (от "rab", 'ъ' е заменено с 'а') <--> ръб = 1

раб (от krab, 'k' е изпуснато) <--> краб = 1

Примерът е малко изсмукан от пръстите, но илюстрира какво имам предвид. Освен ако не ми се губи нещо фундаментално, въпросната мерна единица не ни носи достатъчно информация. Оптималният критерий трябва да представя възможно най-пълно сравняваните обекти; разстоянието на Левенщайн е твърде общо за целта. Предполагам, че се ползва успешно в програмите за проверка на правописа, за да се генерира списък от предложения за заместване, но не ми се струва подходящо за автоматичен превод.

В този ред на мисли, моето собствено предложение да се премахнат гласните букви също ми изглежда неадекватно.


Титла: конвертиране шльокавица -> нещо разбираемо
Публикувано от: vstoykov в Apr 03, 2005, 23:16
Нова идея:

Примерен код

my @arr_words = qw(
Абаджиев
Абаджиева
Абеба
Абиджан
Абрашев
Абрашева
Абу
Абърдийн
Августин
Августина
Авджиев
Авджиева
Авестан
Авив
Аврам
Аврамов
Аврамова
Австралия
Австрия
Агов
Агова
Адам
);

my @arr_regexp = (
"abad(v|j|zh)ie(w|v)",
"abad(v|j|zh)ie(w|v)a",
"abeba",
"abid(v|j|zh)an",
"abra(sh|6)e(w|v)",
"abra(sh|6)e(w|v)a",
"abu",
"ab(u|a)rdi(i|j)n",
"a(w|v)gustin",
"a(w|v)gustina",
"a(w|v)d(v|j|zh)ie(w|v)",
"a(w|v)d(v|j|zh)ie(w|v)a",
"a(w|v)estan",
"a(w|v)i(w|v)",
"a(w|v)ram",
"a(w|v)ramo(w|v)",
"a(w|v)ramo(w|v)a",
"a(w|v)strali(ia|ja|q)",
"a(w|v)stri(ia|ja|q)",
"ago(w|v)",
"ago(w|v)a",
"adam",
);

sub slow_convert {
my $word=shift;

for (0..$#arr_regexp) {
  $this_regexp=$arr_regexp[$_];

    if ($word=~/^$this_regexp$/) {
     return $arr_words[$_];
    }

} # for

} # sub_convert



Първият масив съдържа думи от българския език, а втория съдържа шаблони, съответстващи на думите от първия масив.

Ако дадена дума съвпада с $arr_regexp[$n], програмата решава, че преводът на тази дума е $arr_words[$n].

Ето текущата версия на скрипта:
http://d.interbild.net/vstoyko....05-2302


Титла: конвертиране шльокавица -> нещо разбираемо
Публикувано от: vstoykov в Apr 04, 2005, 23:18
Програмата работи ужасно бавно на моята машина (Celeron 333 64MB RAM). В същност не съм я наблюдавал дали работи, защото не ми издържаха нервите да я чакам да зарежда.

Текущата версия:
http://d.interbild.net/vstoyko.....tar.gz

Програмата чете какво и се подава на стандартния вход и резултата се получава на стандартния изход:

cat file.txt | lat2cyr

Само програмата (без модулите с думите):
http://d.interbild.net/vstoykov/tmp/lat2cyr/04042005/lat2cyr.pl
Програмата, която създава модула с шаблоните:
http://d.interbild.net/vstoyko....gexp.pl


Титла: конвертиране шльокавица -> нещо разбираемо
Публикувано от: iv в Apr 05, 2005, 11:07
На скоро писах подобно нещо - задачата се оказа доста интересна добре, че открих сетлокал на ПХПто :). Използвал съм речник с произволни думи - потребителя сам си въвежда речника подробността е че към всяка дума е прикрепена тежест при зареждането му от базата данни сортирането е по тежест ( колкото е по-голяма тежестта на думата толкова по-малка е вероятността да се използва - просто и удобно) и съответно с речник от 40-50 думи се постига почти отличен резултат. Истинската трудност изпитах когато ми казаха, че програмчето бърка голямите и малките букви в някои думи - оказа се, че поради специфики на текста има голями букви и в края и в началото и то неопределен брой е това неможах да се сетя как да го направя финно и засега проблема стои...
Погледнах статията с алгоритъма за думите но не разбрах много каква връзка има с чист превод от шлйокавица.

Базата която ползвам е МойСКЛ езика ПХП на машина 450П2, с 256мв доста дискове но и накачуркано каково ли не апачите, днс, днцп, времеви разносвач :), самба и общовзето бачка добре. С база от 60000 реда всеки със средно 60 символа и 4-5 думи се справя за 12-15мин ако не е натоварена с друго.

Ако има нещо пишете на iv@acnielsen.bg


Титла: конвертиране шльокавица -> нещо разбираемо
Публикувано от: vstoykov в Apr 06, 2005, 18:27
Цитат (iv @ Април 05 2005,12:07)
На скоро писах подобно нещо - задачата се оказа доста интересна добре, че открих сетлокал на ПХПто :). Използвал съм речник с произволни думи - потребителя сам си въвежда речника подробността е че към всяка дума е прикрепена тежест при зареждането му от базата данни сортирането е по тежест ( колкото е по-голяма тежестта на думата толкова по-малка е вероятността да се използва - просто и удобно) и съответно с речник от 40-50 думи се постига почти отличен резултат. Истинската трудност изпитах когато ми казаха, че програмчето бърка голямите и малките букви в някои думи - оказа се, че поради специфики на текста има голями букви и в края и в началото и то неопределен брой е това неможах да се сетя как да го направя финно и засега проблема стои...
Погледнах статията с алгоритъма за думите но не разбрах много каква връзка има с чист превод от шлйокавица.

Базата която ползвам е МойСКЛ езика ПХП на машина 450П2, с 256мв доста дискове но и накачуркано каково ли не апачите, днс, днцп, времеви разносвач :), самба и общовзето бачка добре. С база от 60000 реда всеки със средно 60 символа и 4-5 думи се справя за 12015мин ако не е натоварена с друго.

Ако има нещо пишете на iv@acnielsen.bg

Това има ли го някъде в Интернет?


Титла: конвертиране шльокавица -> нещо разбираемо
Публикувано от: vstoykov в Apr 08, 2005, 23:15
Готова е прилично работеща версия:


http://d.interbild.net/vstoykov/62c/62c-08042005.tar.gz
http://d.interbild.net/vstoykov/62c/62c-08042005.tar.gz.md5

Инсталира се така:
Примерен код

tar -zxf 62c-08042005.tar.gz
cd 62c-08042005
su
./install.bash


Титла: конвертиране шльокавица -> нещо разбираемо
Публикувано от: vstoykov в Apr 09, 2005, 19:22
Нова версия:
http://d.interbild.net/vstoykov/62c/62c-09042005.tar.gz
http://d.interbild.net/vstoykov/62c/62c-09042005.tar.gz.md5

Работи по-бързо от предишната и разпознава повече думи, но размерът се е увеличил - 41MB като се декомпресира.


Титла: конвертиране шльокавица -> нещо разбираемо
Публикувано от: в Apr 10, 2005, 00:00
Аз пиша фонетично БГ на ПЦ :) :)
Но при шльокавица ето как стоят нещата:

ch - ч
sh - ш
sht - щ (получава се шт , което си е като звук 90% щ :) )
q - я
w - в
v - ж
utiqta - ютията / някаква логика може би iu - иу ~ ю :? :|
y - ъ
j - й
jo - йо

!!! h - х
======== xo/yo - ьо !!!

Може да съм изпуснал някой друг звук, но като се сетя ще пиша пак.


Титла: конвертиране шльокавица -> нещо разбираемо
Публикувано от: vstoykov в Apr 10, 2005, 13:17
Цитат (Guest @ Април 10 2005,01:0)
Аз пиша фонетично БГ на ПЦ <!--emo&:) :)
Но при шльокавица ето как стоят нещата:

ch - ч
sh - ш
sht - щ (получава се шт , което си е като звук 90% щ :) )
q - я
w - в
v - ж
utiqta - ютията / някаква логика може би iu - иу ~ ю :? :|
y - ъ
j - й
jo - йо

!!! h - х
======== xo/yo - ьо !!!

Може да съм изпуснал някой друг звук, но като се сетя ще пиша пак.

Малка демонстрация на текущата версия:

Примерен код

valentin@darkstar:~$ echo "Gladia s utiqta. Vivota e prekrasen." | lat2cyr.pl
Гладя с ютията. Живота е прекрасен.
valentin@darkstar:~$


Последно време по форумите хората почнаха да пишат на кирилица и трудно намирам шльокавица за да тествам програмата. Някой би ли написал нещо за да тестваме?

Примерите от статията за шльокавица в Уикипедия:
Примерен код

Hallo, ti GOLQM bulgarin, kato SLAVI TRIFONOV li si,
ili si ot po-malkite bulgari - kato men, deto sluguvat
na anglijskata kralica? Tyk nqmat kirilo-metodievata
azbuka na kompjutrite, sorry...

kato iskate da se pi6e na kirilica, ami slojete kirilizator
kakavto ima v dir.bg , da se smenqt ezicite ot web stranicata
na akademiqta, 6toto az nqmam BDS klaviatura, a tezi piratski
versii na flex-type samo mi skapvat windowsa, taka 4e za da
iska6 trqbva da dade6 ne6to i ti

Moite saboleznovania.Lo6 kasmet si izvadil ,brat.Ne e lesno
da si bulgarin i da pi6e6 na bulgarski.Zeliat sviat pi6e na
latiniza,samo nie se penim,4e si imame kiriliza.

Az giveia v chugbina i ugasno mi lipsva vazmognostta da pisha
na kiriliza. Imate li niakakvi saveti pе kakav nachin moga da
pisha na kirilica s klaviatura, samo na kirilica.


се превеждат така:
Примерен код

Здравей, ти ГОЛЯМ българин, като СЛАВИ ТРИФОНОВ ли си,
или си от по-малките българи - като мен, дето слугуват
на английската кралица? Тук нямат кирило-методиевата
азбука на компютрите, съжалявам...

като искате да се пише на кирилица, ами сложете кирилизатор
какъвто има в дир.бг , да се сменят езиците от уеб страницата
на академията, щото аз нямам БДС клавиатура, а тези пиратски
версии на флекс-тайп само ми скапват Уиндоусa, така че за да
искаш трябва да дадеш нещо и ти


Моите съболезнования.Лош късмет си извадил ,брат.Не е лесно
да си българин и да пишеш на български.Целият свят пише на
латиница,само ние се пеним,че си имаме кирилица.


Аз живея в чужбина и ужасно ми липсва възможността да пиша
на кирилица. Имате ли някакви съвети пе какъв начин мога да
пиша на кирилица с клавиатура, само на кирилица.


Времето за превод на горния текст беше 11 секунди:
Примерен код

valentin@darkstar:~$ date; cat examples.txt | lat2cyr.pl > examples-prevedeni.txt; date
нд апр 10 13:16:05 UTC 2005
нд апр 10 13:16:16 UTC 2005
valentin@darkstar:~$ cat /proc/cpuinfo  | grep -e "model name" -e "MHz"
model name      : Celeron (Mendocino)
cpu MHz         : 333.184
valentin@darkstar:~$ cat /proc/meminfo | grep MemTotal
MemTotal:        61252 kB
valentin@darkstar:~$


Все още не може да оправя препинателните знаци, но и това може да се направи  ;)


Титла: конвертиране шльокавица -> нещо разбираемо
Публикувано от: the_real_maniac в Apr 10, 2005, 13:27
Що не използваш time  :0  :D :)

man time

time man :)
Примерен код

What manual page do you want?

real    0m0.002s
user    0m0.002s
sys     0m0.000s


Иначе на бърз преглед ХИЧ НЕ Е лоша ! Браво.


Титла: конвертиране шльокавица -> нещо разбираемо
Публикувано от: vstoykov в Apr 10, 2005, 15:10
Благодаря за идеята (time).
Ако някой ми предложи хостинг, ще направя web интерфейс към програмата.


Титла: конвертиране шльокавица -> нещо разбираемо
Публикувано от: betso в Apr 10, 2005, 15:12
-- removed by betso --


Титла: конвертиране шльокавица -> нещо разбираемо
Публикувано от: vstoykov в Apr 16, 2005, 13:54
Уеб интерфейсът е готов. Има ли някой желаещ да го хоства?

Теглене:
http://d.interbild.net/vstoykov/62c/62c-120420052230.tar.gz
http://d.interbild.net/vstoykov/62c/62c-120420052230.tar.gz.md5

Снимки на екрана:
http://d.interbild.net/vstoykov/62c/62c_web1.png
http://d.interbild.net/vstoykov/62c/62c_web2.png

Уеб интерфейсът e form.pl (трябва да се копира ръчно където трябва). Той приема данните от форма с текстово поле "latinica".

Примерен html код:
Примерен код

<form action="form.pl" method="post">
<textarea name=latinica>
</textarea>
<br>
<INPUT type=submit value=" Изпрати ">
<INPUT type=reset value=" Изчисти ">
</form>


Титла: конвертиране шльокавица -> нещо разбираемо
Публикувано от: sebastianz55 в May 03, 2005, 13:36
http://forum.abv.bg/cyr2lat/


Титла: конвертиране шльокавица -> нещо разбираемо
Публикувано от: vstoykov в May 04, 2005, 22:45
Цитат (sebastianz55 @ Май 03 2005,14:36)
http://forum.abv.bg/cyr2lat/

Тук  съм направил сравнение с превода на KREDOR  (който не е свободен софтуер).


Титла: конвертиране шльокавица -> нещо разбираемо
Публикувано от: poisoner в May 11, 2005, 03:10
Още един проблем за който се сещам аз при превеждането от шльокавица на кирилица е че хората пищещи на шльокавица пишат с ужасно много правописни грешки, и така след превода може да се получи едно нищо.


Титла: конвертиране шльокавица -> нещо разбираемо
Публикувано от: vstoykov в May 13, 2005, 18:24
Цитат (poisoner @ Май 11 2005,04:10)
Още един проблем за който се сещам аз при превеждането от шльокавица на кирилица е че хората пищещи на шльокавица пишат с ужасно много правописни грешки, и така след превода може да се получи едно нищо.

Да, трябва да се прави първо автоматична корекция на грешките. За съжаление тази корекция няма как да работи много добре, но поне може да се направи речник с някои често срещани грешки.


Титла: конвертиране шльокавица -> нещо разбираемо
Публикувано от: vstoykov в Apr 11, 2006, 18:38
Тук има работеща програма с уеб интерфейс:
http://vstoykov.hit.bg/#62c


Титла: конвертиране шльокавица -> нещо разбираемо
Публикувано от: Italianeca в Apr 21, 2006, 01:22
Много ще е добре ако се намери паралелен текст на шльокавица и кирилица. Даже може да се създаде от съществуваща програма изхода на която да се поправи. Според моето скромно мнение трябва да се помисли за обучаващ (Machine Learning) алгоритъм. Все пак проблема е класически пример за автоматичен превод (канал на Шанън).

Поздрави


Титла: конвертиране шльокавица -> нещо разбираемо
Публикувано от: mhydra в May 09, 2006, 16:45
Цитат (vstoykov @ Март 20 2005,00:38)
Не е достатъчно да се направи съответствие на латинските букви с кирилски.

Пример:
Towa e primeren tekst na 6lyokavitsa.
qbalka, yabalka
Yordan Yordanov.
English text

Имах една такава подобна програма приблизително 200 реда.НАписана от някакъв Варненец. Опън Сорс, работеше много добре и разпознаваше всички комбинации от маймуница които можеш да си представиш.
Лошото е че посмъртно тази програма нямаше никакво развитие.
Нама коментари, няма обяснение кое за какво служи, нищо не е обяснено, правени някакви невъзможни неща по най-заобиколният начин.

Изобщо и направо беше истински ужас кода, изобщо не се четеше.
То нямаше и форматиране даже. Но все пак работеше. :D