Титла: Фонетични символи в gbgoffice Публикувано от: idn в Jan 19, 2008, 18:57 Инсталирах gbgoffice. Всичко работи освен изобразяването на фонетичните символи. Локализацията на компютъра ми е следната:
ivan@pluto:~$ locale -a bg_BG bg_BG.cp1251 bg_BG.utf8 C en_US.utf8 POSIX ivan@pluto:~$ locale LANG=bg_BG.UTF-8 LANGUAGE=en:bg_BG.UTF-8 LC_CTYPE="bg_BG.UTF-8" LC_NUMERIC="bg_BG.UTF-8" LC_TIME=C LC_COLLATE="bg_BG.UTF-8" LC_MONETARY="bg_BG.UTF-8" LC_MESSAGES=C LC_PAPER="bg_BG.UTF-8" LC_NAME="bg_BG.UTF-8" LC_ADDRESS="bg_BG.UTF-8" LC_TELEPHONE="bg_BG.UTF-8" LC_MEASUREMENT="bg_BG.UTF-8" LC_IDENTIFICATION="bg_BG.UTF-8" LC_ALL= Въпроси: 1) Какво трябва да направя за да се изобразяват коректно фонетичните символи за английското произношение? В kbgoffice имаше възможност за избор на фонт и SA.ttf изобразяваше коректно фонетичните символи. 2) Какъв е енкодинга на базата данни на речника bg-en.dat? Може ли да се редактира и кодира в уникод и как? Има ли такава версия някъде? 3) Ако gbgoffice изисква bg_BG.CP1251, мога ли да накарам само тази програма да използва този локал и как? И накрая, искам да благодаря на всички работили по проекта БГ офис за полезната програма която са създали. Предварително благодаря и за Вашите отговори. Иван Титла: Фонетични символи в gbgoffice Публикувано от: triplek в Jan 19, 2008, 19:09 LC_ALL=bg_BG.CP1251 gbgoffice
![]() Титла: Фонетични символи в gbgoffice Публикувано от: tarator в Jan 19, 2008, 20:01 Мдаа, малоумно е базата да е все още кодирана с windows-1251.
Титла: Фонетични символи в gbgoffice Публикувано от: idn в Jan 19, 2008, 21:03 До triplek:
Бладаря за помоща. Изпълних командата но няма промяна в изобразяването на фонетичните символи. Проверих също, че мога да изобразявам на екрана текст който е windows-1251 кодиран, т.е. имам инсталиран такъв фонт. Титла: Фонетични символи в gbgoffice Публикувано от: neter в Jan 20, 2008, 12:31 Проблемът не е точно в задаването на LC_ALL, тъй като при мен кирилицата в gbgoffice се изобразява правилно и при cp1251, и при utf-8 (странно, но не ми се разучава сега точно това). Не виждам обаче, къде има фонетични символи в английското произношение. idn, би ли дал една снимка, за да видим точно в какво се изразява проблемът ти, за да търсим решението му?
![]() Титла: Фонетични символи в gbgoffice Публикувано от: triplek в Jan 20, 2008, 17:06 Титла: Фонетични символи в gbgoffice Публикувано от: idn в Jan 21, 2008, 07:45 Благодаря на neter i triplek за отговорите.
Пакетът за които пита triplek го нямах инсталиран. М$-ските фонтове ги копирах директно от Уиндоус, инсталирани са и са регистрирани в defoma. Проблема не е в липсата им.
ги показва всичките, включително и SA font (ot SA dictionary под Win). След инсталирането на msttcorefonts и рестартиране на Х нищо не се промени. Искам да подчертая отново, че при мен всичко се изобразява правилно с изключение на десеттина фонетични символи. Фонетичните символи за които говоря се срещат само в en-bg.dat, в квадратни скоби. Мисля, разбирам къде се крие проблема. За правилното изобразяване на фонетичните символи в gbgoffice е необходим фонт които има едновременно Latin1, Cyrillic и International Phonetic Alphabet. Доколкото ми е известно това е само SA font, които се инсталира от едноименния речник под Уиндоус. Доколко този фонт и кодовата му таблица отговарят на някави стандарти и колко е достъпен ми е трудно да преценя. Ето таблица на използваните и правилните фонетични символи: The phonetic symbols codes used in gbgoffice wrong right CP1251 UTF-8 hex hex code code test word A0 00F0 that A1 00E6 back A2 0259 theatre A3 0254 hot A4 014B sing A5 0275 thank A6 0283 shut A7 028C shut A8 025B hair A9 0292 pleasure Забележете още, че фонетичното означение на думи като the, that, then в настоящата база данни на речника се изписва грешно, защото 0xA0 e 'blank'! Това е значителна неточност! От нивото на моите ограничени знания мисля, че за да се реши този проблем трябва да станат две неща: 1) Да се направи фонт които има латиница, кирилица и международните фонетични символи (значи задължително да използва Уникод). Просто не виждам как ще стане това, но ако все пак някой някога се заеме да го прави нека мисли по-глобално, че има и други езици освен английския, и утре някои ще "намери" френска, испанска или немска база данни които ще се използват от същия този gbgoffice, та да се включат там и ударените символи от тези езици и използваните от тях фонетични символи. 2) Да се прекомпилира базата(те) данни на БГ офис да използват Уникод. Тези които разбират повече нека си кажа думата и ме поправят ако греша. Любопитен съм има ли някой който е успял да издокара фонетичните символи така както са в един печатен речник или така както бяха в SA dictionary под Win. Ако има такъв нека каже как го е постигнал. Титла: Фонетични символи в gbgoffice Публикувано от: idn в Jan 21, 2008, 08:01
променя само менютата на латиница,
няма никакъв 'визуален' ефект върху gbgoffice Базата данни на речника е в двоичен вид. Няма как да се промени кодирането и чрез горните команди. Титла: Фонетични символи в gbgoffice Публикувано от: neter в Jan 21, 2008, 08:44 Ахааа, ей, наблюдателен си. Да си кажа честно хич не ги видях
![]() ![]() Титла: Фонетични символи в gbgoffice Публикувано от: remotex в Jan 21, 2008, 09:50 ...може би това ще помогне (поне на един познат помогнаха при Кирилица и фонетични разширения, за латиницата не знам, но нея май си я имат почти всички шрифтове по подразбиране)
http://en.wikipedia.org/wiki/Linux_Libertine Ако не тези то MS Arial Unicode, който за съжаление вече не е свободен както едно време (интересно който си го има от едно време какво може.. или не може да прави с него...) Колкото до обръщането на БД в Уникод (или поне поддръжката на различни кодировки)... работи се по въпроса, но засега няма желаещи да помагат. За предварителен преглед (и при проблеми с шрифта сваляте от препратката по-горе). http://bgoffice.svn.sourceforge.net/viewvc....ed.ucs2 и не се стресирайте от датата (2 years - Initial import) - една птичка пролет не прави. download и задайте кодировка "Кирилица 1251" напр. http://bgoffice.svn.sourceforge.net/viewvc....ion=225 защото са качени като бинарни - за да запази sourceforge кодировката и затова сървъра ги обслужва само като Уникод УТФ8 страници За съжаление не съм открил още свободен контрол който да поддържа необходимите стандарти за да покаже така форматирана страницата (както файърфокс напр.) - затова бях в режим на дълго изчакване и след като най-после излезе официално новото КДЕ 4, като се появи официално и по хранилищата на разни дистрибиции ще бъде тествано и .. да се надяваме че скоро ще има нова версия на речника (асистента или както там му казват сега) - само за КДЕ4+ ..останалите със старата а също и тези които искат пълнотекстово търсене т.е. те пък или ще трябва да сложат по-стара версия или новата но да си добавят и старите БД (чист текст), защото новия формат е HTML с цел да се запазят не само кодировките/уникод но и ФОРМАТИРАНЕТО Титла: Фонетични символи в gbgoffice Публикувано от: idn в Jan 22, 2008, 07:43 Трябва да се отдаде заслуженото на хора като Димов, Раднев и останалите които допринасят за подобряването на такъва безпорно полезена програма като БГ офис. Горните линкове са пример как трябва да изглежда електронния речник. Друг е въпроса дали HTML е най-подходящият формат.
Титла: Фонетични символи в gbgoffice Публикувано от: remotex в Jan 22, 2008, 09:00 Съгласен съм с idn, че HTML не е точно най-подходящия формат за БД, жалко че нямаше повече хора като него с повече предложения когато се обмисляха другите възможни варианти и така решението както винаги (по тия земи) падна на плещите на разработчиците, но пък е много лесно да се конвертира към произволен друг формат със или без форматирането ( стремил съм се към максимална съвместимост със стандарта така че конвертирането не би следвало да е проблем - който не вярва да ги тества тези примерни страници на w3c validatora:
http://validator.w3.org/check?v....ri=http Все още "This Page Is Valid HTML 4.0 Transitional!" :-) ) Сега по въпроса защо не е направо УТФ8 ами 1251 защото заема много по-малко място :) УТФ8 ставаше 2 до 3 пъти по-голям файл а и в 1251 няма проблем съвсем малкото уникод символи да се кодират по стандарта напр.
Вече всичко останало е до браузер и изобразяване в него... и по някой др. дребен проблем с подбора на шрифтове :) |