Отпечатай - Фонетични символи в gbgoffice

Титла: Фонетични символи в gbgoffice
Публикувано от: idn в Jan 19, 2008, 18:57

Инсталирах gbgoffice. Всичко работи освен изобразяването на фонетичните символи. Локализацията на компютъра ми е следната:

ivan@pluto:~$ locale -a
bg_BG
bg_BG.cp1251
bg_BG.utf8
C
en_US.utf8
POSIX
ivan@pluto:~$ locale
LANG=bg_BG.UTF-8
LANGUAGE=en:bg_BG.UTF-8
LC_CTYPE="bg_BG.UTF-8"
LC_NUMERIC="bg_BG.UTF-8"
LC_TIME=C
LC_COLLATE="bg_BG.UTF-8"
LC_MONETARY="bg_BG.UTF-8"
LC_MESSAGES=C
LC_PAPER="bg_BG.UTF-8"
LC_NAME="bg_BG.UTF-8"
LC_ADDRESS="bg_BG.UTF-8"
LC_TELEPHONE="bg_BG.UTF-8"
LC_MEASUREMENT="bg_BG.UTF-8"
LC_IDENTIFICATION="bg_BG.UTF-8"
LC_ALL=

Въпроси:

1) Какво трябва да направя за да се изобразяват коректно фонетичните символи за английското произношение? В kbgoffice имаше възможност за избор на фонт и SA.ttf изобразяваше коректно фонетичните символи.

2) Какъв е енкодинга на базата данни на речника bg-en.dat? Може ли да се редактира и кодира в уникод и как? Има ли такава версия някъде?

3) Ако gbgoffice изисква bg_BG.CP1251, мога ли да накарам само тази програма да използва този локал и как?

И накрая, искам да благодаря на всички работили по проекта БГ офис за полезната програма която са създали. Предварително благодаря и за Вашите отговори.

Иван

Титла: Фонетични символи в gbgoffice
Публикувано от: triplek в Jan 19, 2008, 19:09

LC_ALL=bg_BG.CP1251 gbgoffice

Титла: Фонетични символи в gbgoffice
Публикувано от: tarator в Jan 19, 2008, 20:01

Мдаа, малоумно е базата да е все още кодирана с windows-1251.

Титла: Фонетични символи в gbgoffice
Публикувано от: idn в Jan 19, 2008, 21:03

До triplek:

Бладаря за помоща. Изпълних командата но няма промяна в изобразяването на фонетичните символи. Проверих също, че мога да изобразявам на екрана текст който е windows-1251 кодиран, т.е. имам инсталиран такъв фонт.

Титла: Фонетични символи в gbgoffice
Публикувано от: neter в Jan 20, 2008, 12:31

Проблемът не е точно в задаването на LC_ALL, тъй като при мен кирилицата в gbgoffice се изобразява правилно и при cp1251, и при utf-8 (странно, но не ми се разучава сега точно това). Не виждам обаче, къде има фонетични символи в английското произношение. idn, би ли дал една снимка, за да видим точно в какво се изразява проблемът ти, за да търсим решението му?

Титла: Фонетични символи в gbgoffice
Публикувано от: triplek в Jan 20, 2008, 17:06

Да не би да ти липсват шрифтове?? Този пакет имаш ли го инсталиран??

dpkg -l | grep msttcorefonts

Титла: Фонетични символи в gbgoffice
Публикувано от: idn в Jan 21, 2008, 07:45

Благодаря на neter i triplek за отговорите.

Пакетът за които пита triplek го нямах инсталиран. М$-ските фонтове ги копирах директно от Уиндоус, инсталирани са и са регистрирани в defoma. Проблема не е в липсата им.

Примерен код

fslsfonts -server unix/:7101

ги показва всичките, включително и SA font (ot SA dictionary под Win). След инсталирането на msttcorefonts и рестартиране на Х нищо не се промени. Искам да подчертая отново, че при мен всичко се изобразява правилно с изключение на десеттина фонетични символи.

Фонетичните символи за които говоря се срещат само в en-bg.dat, в квадратни скоби.

Мисля, разбирам къде се крие проблема. За правилното изобразяване на фонетичните символи в gbgoffice е необходим фонт които има едновременно Latin1, Cyrillic и International Phonetic Alphabet. Доколкото ми е известно това е само SA font, които се инсталира от едноименния речник под Уиндоус. Доколко този фонт и кодовата му таблица отговарят на някави стандарти и колко е достъпен ми е трудно да преценя.

Ето таблица на използваните и правилните фонетични символи:

The phonetic symbols codes used in gbgoffice

wrong right

CP1251 UTF-8
hex hex
code code test word

A0 00F0 that
A1 00E6 back
A2 0259 theatre
A3 0254 hot
A4 014B sing
A5 0275 thank
A6 0283 shut
A7 028C shut
A8 025B hair
A9 0292 pleasure

Забележете още, че фонетичното означение на думи като the, that, then в настоящата база данни на речника се изписва грешно, защото 0xA0 e 'blank'! Това е значителна неточност!

От нивото на моите ограничени знания мисля, че за да се реши този проблем трябва да станат две неща:

1) Да се направи фонт които има латиница, кирилица и международните фонетични символи (значи задължително да използва Уникод). Просто не виждам как ще стане това, но ако все пак някой някога се заеме да го прави нека мисли по-глобално, че има и други езици освен английския, и утре някои ще "намери" френска, испанска или немска база данни които ще се използват от същия този gbgoffice, та да се включат там и ударените символи от тези езици и използваните от тях фонетични символи.

2) Да се прекомпилира базата(те) данни на БГ офис да използват Уникод.

Тези които разбират повече нека си кажа думата и ме поправят ако греша. Любопитен съм има ли някой който е успял да издокара фонетичните символи така както са в един печатен речник или така както бяха в SA dictionary под Win. Ако има такъв нека каже как го е постигнал.

Титла: Фонетични символи в gbgoffice
Публикувано от: idn в Jan 21, 2008, 08:01

Примерен код

LANG=C gbgoffice

променя само менютата на латиница,

Примерен код

LC_ALL=C gbgoffice

няма никакъв 'визуален' ефект върху gbgoffice

Базата данни на речника е в двоичен вид. Няма как да се промени кодирането и чрез горните команди.

Титла: Фонетични символи в gbgoffice
Публикувано от: neter в Jan 21, 2008, 08:44

Ахааа, ей, наблюдателен си. Да си кажа честно хич не ги видях

Ами ще потърсим решение на проблема, ако междувременно не се появи нова версия на gbgoffice, в който тези фонетични символи се изобразяват правилно. За момента мога да ти препоръчам kbgoffice, който използва същата база данни и символите се виждат както трябва. Работи безпроблемно и под gtk среда, като в gtk среда единствено липсва функционалността за минимизиране в tray-а :ok:

Титла: Фонетични символи в gbgoffice
Публикувано от: remotex в Jan 21, 2008, 09:50

...може би това ще помогне (поне на един познат помогнаха при Кирилица и фонетични разширения, за латиницата не знам, но нея май си я имат почти всички шрифтове по подразбиране)
http://en.wikipedia.org/wiki/Linux_Libertine
Ако не тези то MS Arial Unicode, който за съжаление вече не е свободен както едно време (интересно който си го има от едно време какво може.. или не може да прави с него...)

Колкото до обръщането на БД в Уникод (или поне поддръжката на различни кодировки)... работи се по въпроса, но засега няма желаещи да помагат.
За предварителен преглед (и при проблеми с шрифта сваляте от препратката по-горе).
http://bgoffice.svn.sourceforge.net/viewvc....ed.ucs2
и не се стресирайте от датата (2 years - Initial import) - една птичка пролет не прави. download и задайте кодировка "Кирилица 1251" напр.
http://bgoffice.svn.sourceforge.net/viewvc....ion=225
защото са качени като бинарни - за да запази sourceforge кодировката и затова сървъра ги обслужва само като Уникод УТФ8 страници
За съжаление не съм открил още свободен контрол който да поддържа необходимите стандарти за да покаже така форматирана страницата (както файърфокс напр.) - затова бях в режим на дълго изчакване и след като най-после излезе официално новото КДЕ 4, като се появи официално и по хранилищата на разни дистрибиции ще бъде тествано и .. да се надяваме че скоро ще има нова версия на речника (асистента или както там му казват сега) - само за КДЕ4+ ..останалите със старата а също и тези които искат пълнотекстово търсене т.е. те пък или ще трябва да сложат по-стара версия или новата но да си добавят и старите БД (чист текст), защото новия формат е HTML с цел да се запазят не само кодировките/уникод но и ФОРМАТИРАНЕТО

Титла: Фонетични символи в gbgoffice
Публикувано от: idn в Jan 22, 2008, 07:43

Трябва да се отдаде заслуженото на хора като Димов, Раднев и останалите които допринасят за подобряването на такъва безпорно полезена програма като БГ офис. Горните линкове са пример как трябва да изглежда електронния речник. Друг е въпроса дали HTML е най-подходящият формат.

Титла: Фонетични символи в gbgoffice
Публикувано от: remotex в Jan 22, 2008, 09:00

Съгласен съм с idn, че HTML не е точно най-подходящия формат за БД, жалко че нямаше повече хора като него с повече предложения когато се обмисляха другите възможни варианти и така решението както винаги (по тия земи) падна на плещите на разработчиците, но пък е много лесно да се конвертира към произволен друг формат със или без форматирането ( стремил съм се към максимална съвместимост със стандарта така че конвертирането не би следвало да е проблем - който не вярва да ги тества тези примерни страници на w3c validatora:
http://validator.w3.org/check?v....ri=http
Все още "This Page Is Valid HTML 4.0 Transitional!" :-) )
Сега по въпроса защо не е направо УТФ8 ами 1251 защото заема много по-малко място :) УТФ8 ставаше 2 до 3 пъти по-голям файл а и в 1251 няма проблем съвсем малкото уникод символи да се кодират по стандарта напр.

Примерен код

æ == ae

Вече всичко останало е до браузер и изобразяване в него... и по някой др. дребен проблем с подбора на шрифтове :)

Linux за българи: Форуми

Linux секция за начинаещи => Настройка на програми => Темата е започната от: idn в Jan 19, 2008, 18:57