Автор Тема: Някой правил ли е Metaphone(), Soundex() на български?  (Прочетена 3177 пъти)

Naka

  • Напреднали
  • *****
  • Публикации: 3395
    • Профил
Някой правил ли е Metaphone(), Soundex() на български?

Искам да сравнявам и откривам приличащи си имена на BG.
В базата имам за всяка дума имам поле:
metaphone   char(7)

Понеже Metaphone алгоритъма е за Англиийски език, мисля да прекарам бг думите през транслитерация и след това през Metaphone()

Препоръки?
« Последна редакция: Sep 09, 2015, 18:08 от Naka »
Активен

Perl - the only language that looks the same before and after encryption.

remotexx

  • Напреднали
  • *****
  • Публикации: 3211
    • Профил
не мисля че ще ти свърши работа защото...
It's more accurate than soundex() as it knows the basic rules of English pronunciation.

ето ти сайт да си поиграеш малко онлайн (с втората форма дето е за сравняване)
http://www.searchforancestors.com/utility/metaphone.php
напр.
kora и kur според тоя сайт 'звучат' доволно близко т.е. са еднакви - Да, само че фонетично и то само на английски където a,e,... и т.н. накрая обик. не се чете а и вътре гласните обик. са нещо неопределно м/у а,ъ,о,у,е,и (само без и-то >:D и то аз други гласни на БГ не се сещам).
(нямате си на представа как напр. из моя квартал  произнасят Hyundai - то по близо до Хонда звучи понякога т.е. без е,и от гласните по-горе всико друго минава - според акцента)
също и обратния пример напр. wind във wind/rewind звучи различно I/AI което на БГ си се чете по еднакъв начин
wind [wind]
rewind [ri:´waind]
wild/wilderness е същата ситуация [waild]/[´wildənis]

още примери - по прицип на БГ има голямо значение дали сричката е затворена или отворена а и ударението също т.е. не е баш кат в английския ще трябва да си обучиш/създадеш собствен алгоритъм за БГ
тези звучат почти еднакво за англичаните (поне според горния сайт) но не и за българите
vol/vole      - различно ударение
maza/meze - еднакво ударение но според правилата на английския звучат еднакво (maze)

Какво общо имат биволите с футбола.. макар че пиенето и мезето обик. са в мазето  ;D

Да не говорим че англичаните нямат ЮЯЦЧШЩ и там според правилата на английския може да си мисли че са еднакви, а па ние нямаме техните гласни комбинации м/у а,е,ъ,о,у дет ги блеят кат офчици ма за тях са си различни.

П.П. и френско-говорящ не ти върши работа - любимият пример на учителката ми по френски
rose(роза) / rosse(кранта)
прозинасят се РОЗ/РОС обаче на мен като българин и двете все РОС ми излизат от устата каквото и да правя, обаче французойките как се обиждат кат ти си мислиш че им говориш за рози пък те си мислят че ги вземаш за дърти кранти... (ама това е извън темата вече)

П.П.П. Ще трябва сам да си го създадеш/тренираш. Българския е най-лесен ама явно българите най-мързеливи щото само български няма май - щото българския обик. четеш каквото виждаш ...тук таме с леко потъмняване и дублетни форми ама нейсе - български, свободен няма.
А да и като го направиш да не забравиш за лиценза - да го пуснеш под някой свободен  ;D [_]3
« Последна редакция: Sep 09, 2015, 21:17 от remotexx »
Активен

remotexx

  • Напреднали
  • *****
  • Публикации: 3211
    • Профил
по-скоро пробвай "открадни" някой източно-европейски
напр. този
Daitch-Mokotoff Soundex
http://ntz-develop.blogspot.com/2011/03/phonetic-algorithms.html

This algorithm was developed by two genealogist, Gary Mokotoff and Randy Daitch in 1985. They tried to achieve the best results with Eastern European (including Russian, Jewish) surnames.
This algorithm has little in common with the original Soundex, except that the result is still a sequence of digits. But now the first letter is also encoded as a digit.


и който не му отърва пак си го променя само за определени имена
Subsequently Alexander Beider and Stephen Morse developed Beider-Morse Name Matching Algorithm, aimed to reducing the number of "false positive" values in Daitch-Mokotoff Soundex results with Jewish (Ashkenazic) surnames.

така че на български няма да има ...докато не си направим.
« Последна редакция: Sep 09, 2015, 21:25 от remotexx »
Активен