не мисля че ще ти свърши работа защото...
It's more accurate than soundex() as it knows
the basic rules of English pronunciation.
ето ти сайт да си поиграеш малко онлайн (с втората форма дето е за сравняване)
http://www.searchforancestors.com/utility/metaphone.phpнапр.
kora и kur според тоя сайт 'звучат' доволно близко т.е. са еднакви - Да, само че фонетично и то само на английски където a,e,... и т.н. накрая обик. не се чете а и вътре гласните обик. са нещо неопределно м/у а,ъ,о,у,е,и (само без и-то
и то аз други гласни на БГ не се сещам).
(нямате си на представа как напр. из моя квартал произнасят Hyundai - то по близо до Хонда звучи понякога т.е. без е,и от гласните по-горе всико друго минава - според акцента)
също и обратния пример напр. wind във wind/rewind звучи различно I/AI което на БГ си се чете по еднакъв начин
wind [w
ind]
rewind [ri:´w
aind]
wild/wilderness е същата ситуация [w
aild]/[´w
ildənis]
още примери - по прицип на БГ има голямо значение дали сричката е затворена или отворена а и ударението също т.е. не е баш кат в английския ще трябва да си обучиш/създадеш собствен алгоритъм за БГ
тези звучат почти еднакво
за англичаните (поне според горния сайт) но не и за българите
vol/vole - различно ударение
maza/meze - еднакво ударение но според правилата на английския звучат еднакво (maze)
Какво общо имат биволите с футбола.. макар че пиенето и мезето обик. са в мазето
Да не говорим че англичаните нямат ЮЯЦЧШЩ и там според правилата на английския може да си мисли че са еднакви, а па ние нямаме техните гласни комбинации м/у а,е,ъ,о,у дет ги блеят кат офчици ма за тях са си различни.
П.П. и френско-говорящ не ти върши работа - любимият пример на учителката ми по френски
rose(роза) / rosse(кранта)
прозинасят се РОЗ/РОС обаче на мен като българин и двете все РОС ми излизат от устата каквото и да правя, обаче французойките как се обиждат кат ти си мислиш че им говориш за рози пък те си мислят че ги вземаш за дърти кранти... (ама това е извън темата вече)
П.П.П. Ще трябва сам да си го създадеш/тренираш. Българския е най-лесен ама явно българите най-мързеливи щото само български няма май - щото българския обик. четеш каквото виждаш ...тук таме с леко потъмняване и дублетни форми ама нейсе - български, свободен няма.
А да и като го направиш да не забравиш за лиценза - да го пуснеш под някой свободен