« Отговор #11 -: Mar 21, 2005, 20:48 »
За мен лично задачата няма особена ценност като конкретна цел превод от шльокавица на кирилица. Просто отказвам да чета такива текстове и дори Babelfish да започне да ги превежда, пак ще ги игнорирам.
От друга страна, обаче, проблемът е интересен от алгоритмична гледна точка. Генерирането на всеобхватен речник на шльокавицата е causa perduta поради две причини. Първо, това е подход с прилагане на груба сила, лишен е от елегантност и не е оптимален от гледна точка на бързодействието. И второ, опасявам се че подобен речник няма да бъде еднозначен, т.е. транскрибирани по различен начин *различни* думи могат да дадат еднакъв краен резултат.
Като алтернатива бих предложил да се изследват не целите думи, а формата, в която са премахнати всички гласни букви. Ще се възползвам от един от твоите примери: "syrvyr" и "sarvar" - и двете думи се трансформират до една и съща форма, "srvr".
За съжаление проблемът оттук нататък става значително по-сложен. Не може да се ползва прост алгоритъм за сравнение, тъй като потребителите на шльокавица не са най-известни със своя правопис. Тук на помощ може да ни дойде мултивариантният статистически анализ. Ако си представим всяка дума като вектор в n-мерното пространство, където последователните букви задават съответните координати (примерно, като се ползва ascii индексът им), две думи могат да бъдат изследвани за сходство като бъде сравнен ъгълът, сключван от техните вектори.
Друг възможен подход е ползването на невронна мрежа. В този случай обаче ще бъде необходим *сериозен* труд за обучаване на самата мрежа.
Какъвто и подход да се избере, проблемът представлява чисто академичен интерес. От него би излязла чудесна бакалавърска теза по информатика. Но инак просто не си струва да се влагат такива големи усилия, за да се поощрява мързелът на определени личности.