Тема: Синтетичен глас (от „Изчезна ми Ѝ“) (Прочетена 19681 пъти)

remotexx · « -: Jun 05, 2020, 23:21 »

Тази тема започва като извънтемие в:

Изчезна ми "Ѝ" (Линукс Минт)

Самото мнение не е редактирано, освен добавяне на тази бележка.

гофи

и малко лирическо отклонение по въпроса за Voice Assistants и пр. ИИ
Кога ли ще се появи такъв и на български - уж (поне на теория) би трябвало да е по-лесно - българския не е синтетичен а е аналитичен език, освен това е и фонетичен, което доста улеснява нещата, та кога ли.. ще се появи някой ..Ганьо (Балкански) и колко ли време ще му отнеме докато влезе в час? напр. на:
- ..а бе аз моа ли не моа ти ...мамата?!
да отговаря:
- а бе и аз моя ли не моа ти ... мамата!?

ми така де - търсенето определя предлагането.

П.П.
https://www.vesti.bg/vicove/razni/373294-Na-dalechna-planeta-kaca-amerikansk
или както казват в пътеводителя (на галактическия стопаджия) - единствената промяна в новото издание (4242 г.) беше, че изразът 'мамата.. бравата...' беше заменен с 'Сири... мамата.. бравата... Сирииии..' - или Алекса, или Кортанаааа и накрая Костанааа...

https://chitanka.info/text/186/12
ПЪТЕВОДИТЕЛ НА ГАЛАКТИЧЕСКИЯ СТОПАДЖИЯ дефинира отдел „Пласмент“ на Сириуската кибернетична корпорация като „шайка безмозъчни типове, първите, които ще бъдат изправени пред стената, когато дойде революцията“, и дава бележка под линия в смисъл, че издателството е готово да разгледа молбите на всички желаещи да поемат длъжността кореспондент по въпросите на роботиката. Интересно е, че едно издание на ЕНЦИКЛОПЕДИЯ ГАЛАКТИКА, изпаднало след гърч във времето на бъдещето, отдалечено на хиляда години, определя отдел „Пласмент“ на Сириуската кибернетична корпорация като „шайка безмозъчни типове, първите, които бяха изправени пред стената, когато дойде революцията“.

go_fire · « **Отговор #1 -:** Jun 06, 2020, 14:43 »

Синтетичния глас има две измерения, когато говорим за компютри. Едното е генериране на глас, за което се говори тук. Но има и друго направление, което е разпознаване на глас. Там работят разните Алекси, Сирита и Кортани.

Добрата новина е, че Мозила работи и в двете направления. Получиха някакво финансиране преди около половин година. За целта са ангажирани и доста научни институти. Интересно е, че част от тях са европейски. Което значи, че в някакво бъдеще време може да ни огрее и нас.

=*=

Преди години едно момче, което туко що беше завършило МЕИ (или ТУ по сегашному) се беше заело сериозно по въпроса за „натурален“, генериран глас. Използваше екзотична теория, която пасваше на българското говорене. Стигна до някъде. Публикува нещото в hit.bg, ако не се лъжа. Пишеше го на C++. Обаче после стана като винаги. Глада надделя и той трябваше да зареже мечтата си.

Опитах се да го изровя, защото наистина беше интересно, а дваж по-интересна беше теорията. За съжаление Ixquick не ми помогна. Гългъл окончателно е успял да отреже Searx, а изглежда дори проклетия Qwant Lite. Та ми се наложи да го ползвам. Ами дори това не помогна. Не го намерих, а търсих близо час. Може би не съм знаел, какво да попитам. Както и да е.

=*=

Във форума открих две теми, където се е говорило по въпроса:

https://www.linux-bg.org/forum/index.php?topic=46636.0

и

https://www.linux-bg.org/forum/index.php?topic=15886.0

Но мисля, че сме го говорили и в други.

Въпросния Виктор също е писал:

http://bezmonitor.com/chetene/

Горе-долу сега положението е, каквото го е описал съвременния ни будител от последната връзка.

=*=

Това бяха двете ми стотинки от неденоминираните.

Naka · « **Отговор #2 -:** Jun 07, 2020, 11:43 »

Айде пак се отплеснахме. Ама да му мисли модератора. Той почна пръв.

Цитат на: go_fire в Jun 06, 2020, 14:43

Синтетичния глас има две измерения, когато говорим за компютри. Едното е генериране на глас, за което се говори тук. Но има и друго направление, което е разпознаване на глас.

Има и трето - Вокодери (voice + coder). Говориш в микрофона, а пък на говорителя излиза друго, друг глас или видоизменен. https://en.wikipedia.org/wiki/Vocoder

Тия дни попаднах на нещо уникално.
"I Gotta Wash My Hands!" Пародия на Beatles "I Want To Hold Your Hand"
https://www.youtube.com/watch?v=_C5_4TLrVII

Сега дали е вокодер или е много талантлив имитатор, много се чудя...Ама така го е направил че не може да се различи от оригинала. Подозирам много 'sofisticated' компютърна обработка. Какви ли програми е ползвал?

И още едно напълно синтетично.
Ievan polkka в изпълнение на Miku Hatsune
https://youtu.be/ldK1gQSSTSo

Miku Hatsune е виртуална артистка - певец. Обаче шапка им свалям на японците за рекламата. Измисли и име. Има си профайл. Да рекламираш толкова сложна програма под форма на виртуален артист е просто гениално.

Цитат

Age 16
Height 158cm
Weight 42kg
Favorite Genre J-Pops, Dance-Pops
Favorite Tempo 70～150BPM
Best Voice Range A3-E5

https://ec.crypton.co.jp/pages/prod/vocaloid/cv01_us
https://en.wikipedia.org/wiki/Hatsune_Miku

https://en.wikipedia.org/wiki/Vocaloid

remotexx · « **Отговор #3 -:** Jun 09, 2020, 18:00 »

Е го е, докато кажа и вече го научихме (ИИ) да казва Ханко Брат - скоро ще почне да казва и мамата - маматааа

ако си пуснете ауто генерираните субтитри нейде още в началото ще видите "ханку брат" нейде около 01:10
https://www.youtube.com/watch?v=xpPkDjUmTpA&t=70s

и за да не ровите пак откъде, но и да не кажете сега пък че правя реклама оттука го изрових филмчето
Русифицирани тулупи разказват българската история на тулупски език

още малко нереклами (от естествен интелект):
https://news.bg/regions/kak-han-kubrat-stana-hanko-brat.html
https://webstage.bg/socialni-temi/395-nazdrave-za-rambo-silek-artrit-lindgren-i-vsichki-drugi-ot-svitata-na-hanko-brat.html
https://petel.bg/NEGRAMOTNIYAT-POLITSAY-OT-PLOVDIV-VDAHNOVI-NOVI-BISERI-VAV-FEYSBUK-__31013

П.П. Някой знае ли какво трябва да се добави в адреса за да тръгва направо с ауто генерирани субтитри на някакаъв език - вече добавих времевата компонента, обаче ударих на камък с всичките тия (и нищо не работи): &cc_lang_pref=ru&cc_load_policy=1&yt:cc=on
и нищо не пороработи - https://webapps.stackexchange.com/questions/27669/is-there-any-way-to-force-subtitles-in-a-youtube-video

Naka · « **Отговор #4 -:** Jun 09, 2020, 20:18 »

Преди години даваха едно предаване по националната тв (май беше с Бойко Василев) за българите на хан Алцек в Италия и българските топоними в Италия.
Та там в едно от селата местните слушали как му викат на хана... Хан.... Кан... Кана..
Обаче на италиански това Кана звучало като куче.
И така и останало в съзнанието на местните. Като резултат в центъра на селото има паметник на куче.

Куче на италиянски

---
gof: правописка

Naka · « **Отговор #5 -:** Jun 10, 2020, 10:48 »

Имам едно обяснение защо така се получава с 'Ханко Брат'

В машинният превод има едно нещо нещо което се нарича Language model.
Предполагам, че също се ползва и при разпознаването на глас. Няма как да е друго.

Language model-а предствалява база данни с предварително изчислени(тренирани) фрази с вероятност.
Например:
"Линукс за ––––––"
Какво следва след това. Ами и без да е изчислен то я ясно, че с вероятност 90% Следва 'българи' . T.e. много е вероятно фразата да е "Линукс за Българи". По-малко вероятно да е "Линукс за Балъци" (звучи подобно)

А най-малко вероятно е да е Линукс за Американци".

Ако знаеш до някъде фразата може да предвидиш следваща дума.
Друг пример:
"Да ти ----- мамата". Е тук може да има почти само едно съвпадение.

Ta Language model-a е последната стъпка преди да излезе готовият текст. Алогритъма за разпознаване (или машинен превод) генерира множество хипотези/варянти с определена вероятност за това кое е чуло...След това тези варианти се сравняват с предварително тренирания Language model - и което е най-вероятното това излиза на края.

Language model-а се тренира върху огромен масив от текст. Като източник на текст най-добре работят, литературен текст, книги, описание. А най-зле са чатове и разговорен език.
Във въпросният 'Ханко Брат' сигурно има две много близки съвпадения.
'Хан Кубрат' и 'Ханко Брат'. Но явно в базата 'Ханко Брат' е било с по-висока вероятност. Окъде се е тренирал гого? Да не е от интернет....дето във фейса са се разпространявало много шеги и закачки за 'Ханко Брат'?
От друга страна ако е бил трениран с исторически текстове, където се споменава 'Хан Кубрат' - то няма да се обърка.

-----
Но това с Language model-a важи и за естественият интелект - (както вика ремо). Човек така разпознава с готови фрази - на нещо което му заприлича. Има си вътрешен LM. На всеки му се е случвало да ти кажат едно - ти да чуеш съвсем друго. А при хора с намален слух или стари хора - това е често явление.

jet · « **Отговор #6 -:** Jun 10, 2020, 14:45 »

Не помня откъде идваха
Рамбо Силек
и
Сър Пичук

go_fire · « **Отговор #7 -:** Jun 10, 2020, 19:55 »

Цитат на: jet в Jun 10, 2020, 14:45

Не помня откъде идваха
Рамбо Силек
и
Сър Пичук

Първото със сигурност е ученически „бисер“. Второто сефте го чувам. Прилича на лакардия от времето на соц-а.

4096bits · « **Отговор #8 -:** Jun 10, 2020, 20:18 »

Това се е превеждало като "Жена в любовта". От тук нататък, всички приказки са излишни.
https://www.youtube.com/watch?v=hQLGCX8D-1Y

Автор Тема: Синтетичен глас (от „Изчезна ми Ѝ“) (Прочетена 19681 пъти)

remotexx

Синтетичен глас (от „Изчезна ми Ѝ“)

go_fire

Синтетичен глас (от „Изчезна ми Ѝ“)

Naka

Синтетичен глас (от „Изчезна ми Ѝ“)

remotexx

Re: Синтетичен глас (от „Изчезна ми Ѝ“)

Naka

Re: Синтетичен глас (от „Изчезна ми Ѝ“)

Naka

Re: Синтетичен глас (от „Изчезна ми Ѝ“)

jet

Re: Синтетичен глас (от „Изчезна ми Ѝ“)

go_fire

Re: Синтетичен глас (от „Изчезна ми Ѝ“)

4096bits

Re: Синтетичен глас (от „Изчезна ми Ѝ“)