Имам едно обяснение защо така се получава с 'Ханко Брат'
В машинният превод има едно нещо нещо което се нарича
Language model.
Предполагам, че също се ползва и при разпознаването на глас. Няма как да е друго.
Language model-а предствалява база данни с предварително изчислени(тренирани) фрази с вероятност.
Например:
"Линукс за ––––––"
Какво следва след това. Ами и без да е изчислен то я ясно, че с вероятност 90% Следва 'българи' . T.e. много е вероятно фразата да е "Линукс за Българи". По-малко вероятно да е "Линукс за Балъци" (звучи подобно)
А най-малко вероятно е да е Линукс за Американци".
Ако знаеш до някъде фразата може да предвидиш следваща дума.
Друг пример:
"Да ти ----- мамата". Е тук може да има почти само едно съвпадение.
Ta Language model-a е последната стъпка преди да излезе готовият текст. Алогритъма за разпознаване (или машинен превод) генерира множество хипотези/варянти с определена вероятност за това кое е чуло...След това тези варианти се сравняват с предварително тренирания Language model - и което е най-вероятното това излиза на края.
Language model-а се тренира върху огромен масив от текст. Като източник на текст най-добре работят, литературен текст, книги, описание. А най-зле са чатове и разговорен език.
Във въпросният 'Ханко Брат' сигурно има две много близки съвпадения.
'Хан Кубрат' и 'Ханко Брат'. Но явно в базата 'Ханко Брат' е било с по-висока вероятност. Окъде се е тренирал гого? Да не е от интернет....дето във фейса са се разпространявало много шеги и закачки за 'Ханко Брат'?
От друга страна ако е бил трениран с исторически текстове, където се споменава 'Хан Кубрат' - то няма да се обърка.
-----
Но това с Language model-a важи и за естественият интелект - (както вика ремо). Човек така разпознава с готови фрази - на нещо което му заприлича. Има си вътрешен LM. На всеки му се е случвало да ти кажат едно - ти да чуеш съвсем друго. А при хора с намален слух или стари хора - това е често явление.