Страници: [1] 2 3 ... 10
 1 
 -: Днес в 01:42 
Започната от rado84 - Последна публикация от 4096bits
Ето я и оправията.
В GTK версията, че не ми се правеше виртуална среда и инсталация на библиотеки само за това.
Но и в Qt6 варианта би трябвало да е абсолютно същото.

Прави се също таблица и се прилага след това на текста с превода към думата.
На практика прави същото. Подменя едни символи с други.

Ето таблицата:

Код:
    mapping = {
        "\xa1": "æ",
        "\xa3": "ɔ",
        "\xa4": "ŋ",
        "\xa5": "θ",
        "\xa6": "ʃ",
        "\xa7": "ʊ",
        "\xa8": "ɛ",
        "\xa9": "ʒ",
        "\xad": "ð",
        "Ў": "æ", / тези ги добавих заради примера с plank
        "¥": "θ", / не ми се търсеше, на какво отговарят шеснайсетичните стойности. Може директно по този начин, ако трябва да се добавят още символи
    }

    trans_table = str.maketrans(mapping)

Този код може да се постави след декларацията на другите променливи.
След това trans_table се прилага към превода на думата, за се подменят символите чрез метода translate.

Ето и как би изглеждала цялата функция load_kbg_dat след промяната:

Код:
def load_kbg_dat(path):
    with open(path, "rb") as f:
        data = f.read()

    entries = {}
    parts = data.split(b"\x00")

    mapping = {
        "\xa1": "æ",
        "\xa3": "ɔ",
        "\xa4": "ŋ",
        "\xa5": "θ",
        "\xa6": "ʃ",
        "\xa7": "ʊ",
        "\xa8": "ɛ",
        "\xa9": "ʒ",
        "\xad": "ð",
        "Ў": "æ",
        "¥": "θ",
    }

    trans_table = str.maketrans(mapping)

    for part in parts:
        if not part:
            continue

        try:
            text = part.decode("utf-8")
        except:
            # Тук накрая се прилага таблицата и се прави подмяната на съответните символи
            text = part.decode("cp1251", errors="ignore").translate(trans_table)

        if "\n" not in text:
            continue

        word, translation = text.split("\n", 1)
        word = word.strip()
        translation = translation.strip()

        if not word:
            continue

        entries[word] = translation

    return entries

Мисля, че това е достатъчно инфо за Радо, за да се оправи по-натам.
Транскрипцията на превода на plank вече изглежда нормално.
Ще може да смени и снимките в GitHub.

 2 
 -: Днес в 01:18 
Започната от rado84 - Последна публикация от 4096bits
По-изчекнато е от cp1251.

Тези са си ебали мамата.  :D

Има директенна таблица (mapping)  за определен ascii символи към IPA.
Кода преглежда за такива и ги превежда.
Преглежда всеки символ.

Сега, не мога да ги обвинявам, защото тогава не зная, как се е правело и как са се вършели нещата.
След като са го кодирали в cp1251, явно повечето системи на това са разчитали, за да се оправят с кирилицата.
Както каза ти, Ремо, в тази кодировка няма IPA.

Ето, какво намерих:
Код:
// Declaration about transcription
const char Translator::TRANSCRIPTION_ANSI[] = "\241\242\243\244\245\246\247\250\251\255";
const char Translator::TRANSCRIPTION_UNICODE[10][8] = {
        "æ", "ə", "ɔ", "ŋ", "θ",
        "ʃ", "ʌ", "ε", "ʒ", "ð",
};

След това има една функция transformResult в която се намира и ето това нещо.

Код:
pu = (char*)strchr(TRANSCRIPTION_ANSI, c);
                        if ((htmlOutput) && (pu != NULL)) {
                                u = (pu - TRANSCRIPTION_ANSI);
                                j += appendString(TRANSCRIPTION_UNICODE[u], j);
                        } else {
                                dataBuffer[j++] = c;

Не разбирам изобщо от C++, но мисля, че е туй.
Сканира всеки байт, ако го има в TRANSCRIPTION_ANSI и htmlOutput е истина (което май си е така в повечето случаи за графични приложения. Това се проверява другаде в кода), заменя въпросния байт със съответното html entity от таблицата. Това в TRANSCRIPTION_UNICODE.

Значи, в променения код на Python няма функция, която да прави същото.
Там е използвано обикновено кодиране/декодиране. Вградените в Python методи.
Които в този случай, разбира се, се провалят.
Всичко се кодира директно, без да се прилага въпросната таблица/mapping-а.

 3 
 -: Днес в 00:34 
Започната от rado84 - Последна публикация от remotexx
Така става когато разчитаме изцяло 100% само на ИИто само да се оправи във всичко, а то.. разчита на правилни подсказки и насоки т.е. т'ва дето му викат пропмт (и кадърен промптаджия) ..все още - тук даже Никсъна е прав  [_]3

П.П. Е-е-е-х, а едно време дежурният виновен ни беше "задклавиатурното у-во" а сега веке ке да е промпта т.е. "промптаджията/ката"  ;D

и за да не плюем само по ИИто ето малко и за ЧИто
Алтернативата съм я кръстил "[insert framework here] 2-Way Dictionary".
1. 2-Way щото само 2 БД свари да открадне юнакът
2. Dictionary - предполага се че има (БД) за повече от един език, ама тук пък е забравил че само английско-бълргарски двупосочен речник е окрал

Така че оригиналния проект си е за предпочитане - за мен поне, пише си че е английско-български, двупосочен и нямат намерение да крадът БД (даже и те мисля че я ползват отделно т.е. е извън проекта - предполагам по лицензионни причини ..поне навремето си се сваляше отделно  - та колегата освен дето я краднал ами с пакетирането заедно със кода си ..не знам колко лицензионни споразумения е нарушил)

 4 
 -: Днес в 00:24 
Започната от rado84 - Последна публикация от remotexx
Не е до кодировка нито е до шрифт, нито една кодировка не поддържа IPA разширенията..в смисъл минимум заедно с латинициа и кирилица, само UTF-8 или нещо друго но Уникод т.е. без прекодиране няма да мине (като навремето Датекса прецакаха всички кирилиски шрифтове за целта и ги продадоха като кирилизатор - добре че беше Инжинера, че да има/ме правилен кирилизатор за Бозите)

Не знам точно какво е кодировката но виждам че е еднобайтова т.е. или cp-1251 (бозаджийската) или ISO-8859-5 (линукската) но  не е Уникод!

https://en.wikipedia.org/wiki/IPA_Extensions
ʃ æ ŋ и т.н. (не че ни трябват всичките)

 5 
 -: Mar 05, 2026, 23:41 
Започната от rado84 - Последна публикация от 4096bits
Ако се види оригиналния код, евентуално може да се разбере, какво става с транскрипцията.

Според мен в .dat файла е някаква мешавиция между cp1251 и utf-8.
Ако изобщо е cp1251, ами не някаква руска кодировка.
Не ги зная, колко са кирилските кодировки.

 6 
 -: Mar 05, 2026, 22:50 
Започната от ray - Последна публикация от remotexx
Е те тук ти е грешката че мислиш за ИИ като БД а то не е (баш така)
Аз пък твърдя че АКО е (било) обучено върху тези ЗНАНИЯ (напр. че точно тия -2 плюс точно тия +5 не е равно на +3) то е щяло да ги "запомни" т.е. отново опира до обучението т.е. БЗ (знания) а не БД (данни)

ето ти пример: what is Hitler + Italy - Germany
https://www.youtube.com/shorts/FJtFZwbvkI4

П.П. Е накрая тия знания (многомерни вектори, ама много многомерни, като знам че повечето хора не могат да си представят 4-5 размерно пространство как ви се струва ако минем към милиони размерности) се записват в БД но то реално си е база от знания

та тия числа вътре (в тия вектори) още се наричат тегла - задават връзките между тях т.е. знанията един вид, и ако е обучавано като юрист ще има по различно въждане т.е. тегла напр. върху това че котките имали 9 живота спрямо теглата на един уличен бандит... докато вотрия ще иска да провери практически то първия ще иска да го окошари за това (за ИИтата става дума тука) - държа да уточна че нямам представа могат ли да те окошарят за убийство на котка /по нашето законодателство/, но .. схващате идеята - теглата се натъманяват по време на обучението и.. ако обучите убиеец, то това и получавате.. сега защо няма мерак за обучение а юристи не знам (в китай имат) - та сега юристите (само си мислят че) са напред с материала.. докато ИИ не навлезе повсеместно и тогва ще разберат че всъщност са назад (пазят си работата ли що ли - но и това няма да ги спаси, еле па китайските вече заминаха)

та тия много размерности всъщност задават връзките и кое нещо колко е близо до друго нещо в някоя/и размерност/и - един вид разрез.. за по нагледно в 3Д всяка една 2Д развнина дава един разрез и тук стандартния пример с червеевите дупки за по бързо пътуване т.А до т.Б в 2Д равнина е през 3Д просто огъваш листа да ги почти допреш А и Б и скачаш от А до Б ..горе долу нещо такова е и с тия разрези (в познанието, според обучението обаче) а в 4Д среза е 3Д не мис емисли за 1 млн размерности какви и кокло срезове има като във всеки един от тях нещата се разместват (е в горния пример може да има срез в който и бандюгата и юриста да са еднакво съгласни ...напр. на по три ракии)  [_]3

та.. всичко е както си го обучиш, ако го научиш напр. че трепането на котки е добре и ще има бонус за всяка котешка кожа, то ще знае това, а ако го обучиш че трепането на котки не е добре и ще лежи в панделата то.. можа да стане зелелн п.дал ..ма може и юрист да стане  [_]3


най-просто казано
https://www.youtube.com/shorts/J4E3pPu35lg
т.е. тоа дето вие му викате разпознаване на образни напр. е само най-ниското ниво нов последния слой е по-скоро вкарване на смисъла в цялото нещо

Понякога простата математика ...не е просто математика
https://www.youtube.com/shorts/_Y3ui7vAMaQ

П.П. Между другото доскоро и учените мислеха като теб, че нема смисъл от много милиарди обучения че модела ще овърфит-ва точно тоя единствен случай, но.. оказва се че при много милионни размерности то си го запазва това овърфитващо моделче неиде в 1 млн и първата размерност и има вместимост за още няколко млн такива под-моделчета а във по-горните словете вече не подбира какво виждаме на картинката ами претегля модели и кой модел/познание най-добре фит-ва т.е. отговаря на текущия случай и т.н. нагоре по веригата

А хората са простичко устроени организми (стигат и едва няколко хил. реда код...е плюс няколко петабайта първоначална конфугирация пълна с... много джънк .. е и малко голи мацки но.. а бе предимно голи мацки и хормони)
https://youtu.be/UKcWu1l_UNw?t=944


ИИ от една страна и ген. Алфа от друга... срещата им май е по-близо от очакваното, като изненадата идва откъм ЧИ тоя път
https://www.youtube.com/watch?v=spzhm3awUTw

 7 
 -: Mar 05, 2026, 21:57 
Започната от rado84 - Последна публикация от remotexx
според ИИ...
Yes, you can switch from GPL to MIT, but you need to obtain agreement from all contributors to the project. If any contributors do not agree, you may need to remove their code or rewrite it.

Въпросът ми беше не за нова БД или добавяне към съществуващата  а за друг формат... по мои спомени на оригиналния сайт я има същата БД във формат за мобилни у-ва поне е съвместима с по известните речници...

т.е. хубаво е да се добавя към съществуващата БД но да е онлайн а не всеки за себе си само на неговия си телефон  ::)


Добре е да се оправи и транскрипцията - ето напр. от снимките от сайта му същата дума във по стария..набора на  Лилито я показва правилно а новия йок транскрипция
https://bgoffice.sourceforge.net/cgi-bin/obgoffice.cgi?word=plank&translate=Translate&dictionary=bg_en_dual
Като тук проблемът не е в избора на шрифт а че файловете не са UTF-8 (CP1251или ISO-8859 мисля) а ще трябва прекодиране (Щирлиц и .т.п.)

П.П. Те го те - мобилна версия на БД (при това забелязвам че поддържа както по стария формат .aar така и по-новия .slob) ..аз от толкоз отдавна си ги слагам на тел. тия че вече бях забравил откъде идват че аз просто ги копирам от стария тел. на новия (за когато няма обхват)
https://sourceforge.net/p/bgoffice/code/HEAD/tree/trunk/dictionaries/data/en-bg/mobile/

Гледам .aar е от 2015 а .slob е от 2023 г. явно има развитие проекта - ето така се прави

 8 
 -: Mar 05, 2026, 21:53 
Започната от ray - Последна публикация от Nik123
Не смесвай информиращ пост в профилиран по някаква тема форум, с научна статия :) Нещата са чисто практически, върху практически опит.
Тука например (в този форум) колко научно обосновани статии сме написали, вкл. и ти самият?

А иначе, е те тука се разминаваме:

"1. Не е (дборе) обучено върху вашите си специфични БД, някой от които може и да не са публични, а се е самообучавало върху каквото намери из нета (само за справка програмист-агентите са обучавани върху реален код /а не върху какво мислят потребителите за тоя код/)
 - най-вероятно щото на никой не му пука(ло) да го обучава върху правни и законодателни инициативи..."


Т.е. че ако щеш цялото изговорено, писано и записано право, барабар със съдебната практика и всички дебели учебници да вкараш в базата му данни, това си остава просто база данни, и каквито и щеш усъвършенствания на алгоритъма да му правиш, това си остава просто изчисляване на вероятности върху базата данни. Нито от това ще придобие разум, нито ще почне да разсъждава. И никакъв интелект няма да стане, а ще си остане просто изчисляващ софтуер, пък ако ще и свръхмегабогата да е базата данни. Да, вероятно прекрасно се справя в сфери, свързани с изчисления, но където си трябва разсъждение- не. Това ми е мнението, вкл. и от личен опит. Нали писах как Грока вместо да вземе предвид съвкупността от смекчаващи и отегчаващи вината обстоятелства, наказателен казус му зададох (и това съм писал по-назад в темата), и да определи индивидуализирано наказание, той просто елиминира по-малкия брой отегчаващи със същия брой от повечето смекчаващи и му останаха само смекчаващи вината обстоятелства. Прихвана ги един вид. Да, ама правото не е аритметика. Там не се смята ей-така, -2 + 5 = +3, а се иска мисловен процес, разсъждение и оценка на всичкото, така да го кажа, че ще стане лекция по наказателно. Защото ако са само + 3 смекчаващи, това е за наказание към (че и под) минимума. Но ако са -2 отегчаващи и +5 смекчаващи, вече си е за над минимума, нагоре, че  може и към среден размер, а за под минимума изобщо не може да се говори. И освен това, тези -2, +5, не са просто цифрички (аз за по-ясно ги изписах така) - всяко едно смекчаващо и/или отегчаващо вината обстоятелство си е индивидуално, спрямо извършеното престъпление, и дееца. Не става с изчисление. Някой път само едното отегчаващо евава мамата на петте смекчаващи, при определяне на наказанието.

Та така, аз свалих кюфтетата от скарата, айде  [_]3

 9 
 -: Mar 05, 2026, 21:52 
Започната от remotexx - Последна публикация от remotexx
Starship vs Dream Chaser
https://www.youtube.com/watch?v=I4YGQsAJ330

и как се правят 4 nm чиповете - с машинка за $400 000 000
https://www.youtube.com/watch?v=MiUHjLxm3V0

 10 
 -: Mar 05, 2026, 21:37 
Започната от go_fire - Последна публикация от remotexx
един по една...
https://www.youtube.com/watch?v=QYGlDBhbMtA

https://www.youtube.com/watch?v=OGF0CniAWRE

Страници: [1] 2 3 ... 10