Така, за по-просто и за опит, инсталирах първо whisper.
Дръпна една камара библиотеки в процеса.
При първата проба с десет минутно аудио, само̀ си дръпна модела, който му бях посочил, което е дребно и хубаво удобство - medium. Гигабайт и половина.
Но не се получи почти нищо. Имаше някакъв обещаващ старт, но… По някое време целия дисплей замръзва, а аз нищо не мога да направя. Графичната карта е на сто процента натоварена и може би целия ресурс отива за изпълнението на задачката ( което ми хрумна като възможна причина едва сега, докато пиша това ).
Пробвах след това през tty.
Същата работа. Конзолата замръзва и до там. Дали работи нещо отдолу, нямам представа. Никакви странични съобщения.
Графичната ми карта е едва с 6 гига памет, а този модел изисква 5. Би трябвало да стане. На теория.
Опитът със small модел свърши работа в tty. Не съм го пробвал с терминал в графичната среда.
Смахнатото е, че имам 32 гига RAM на лаптопа, която изглежда не учавстваше много. Видях, че май може да се зададе устройство, което да се използва ( например CPU ), но още не съм пробвал. Сигурно ще стане и по-бавно така. Но тази памет поне би влязла в употреба.
Small моделът свърши учудващо добра работа, предвид че в речта на моменти бяха изяждани или сдъвкани звуци - английски акцент. Ползвах аудио, рипнато от видео в Тубата.
Пробвах първо оригиналния whisper, защото изобщо не съм се занимавал до този момент с ИИ.
Видях, че има различни файлови разширения за моделите.
С++ версията на @ggerganov изцяло на този език ли е, ще върви ли по-леко, в същата папка ли трябва да поставя дръпнатите модели ( ~/.cache/whisper ), ако реша да пробвам и това. Защото сигурно ще го направя. Човека е дал достатъчно инструкции, как се инсталира.
Защото искам да пробвам и medium, а защо не и големия модел, ако ми позволи да използвам наличната памет, а не само видео паметта. Тя е недостатъчна за големия модел, а и със средния не се получава засега. Да видя, каква е разликата в точността на текста.
Изглежда си си играл с whisperC++?, а не изключвам и да си самият @ggerganov, но поради някаква причина да говориш за себе с в трето лице 
Хаха, де да бях @ggerganov. Реално човекът е решил да пренапише tensor операциите и transformer API-то на c++ за по-голяма скорост и оптизизация на работа, понеже python не е от най-бързите.
Аз досега съм пускал whisper само със CPU, понеже видео картата ми е дърта и не поддържа nvidia cuda, или нещо подобно. Не знам при теб дали бачка GPU-то. Щом ти замръзва машината, предполагам, че превключва на CPU и затова замръзва дори в tty. Ако е така, просто ползвай small.
Относно файловите разширения, @ggerganov е решил да използва ggml binary формата понеже всичко е пакетирано в 1 файл:
https://github.com/ggerganov/whisper.cpp?tab=readme-ov-file#ggml-formatПробвай whisper.cpp и виж дали ще работи по-ефективно откъм CPU. Доста по-лесно се пуска, единствено трябва да си дръпнеш модела на ръка и да го сложиш в папката whisper.cpp/models
После пробвай с моя помощен скрипт да транскрибираш нещо:
https://gist.github.com/PaperNick/3a6fe78662ea7a1c7cc5c573db348ac1Ако ти работи бавно, можеш да пробваш с faster-whisper:
https://github.com/SYSTRAN/faster-whisperИ за него имам скрипт (брей много реклама си направих

)
https://gist.github.com/PaperNick/61cf16f0f1c5735d988c0703c25f3cf2