Автор Тема: Фонетични символи в gbgoffice  (Прочетена 4904 пъти)

idn

  • Участници
  • ***
  • Публикации: 7
    • Профил
Фонетични символи в gbgoffice
« -: Jan 19, 2008, 18:57 »
Инсталирах gbgoffice. Всичко работи освен изобразяването на фонетичните символи. Локализацията на компютъра ми е следната:

ivan@pluto:~$ locale -a
bg_BG
bg_BG.cp1251
bg_BG.utf8
C
en_US.utf8
POSIX
ivan@pluto:~$ locale
LANG=bg_BG.UTF-8
LANGUAGE=en:bg_BG.UTF-8
LC_CTYPE="bg_BG.UTF-8"
LC_NUMERIC="bg_BG.UTF-8"
LC_TIME=C
LC_COLLATE="bg_BG.UTF-8"
LC_MONETARY="bg_BG.UTF-8"
LC_MESSAGES=C
LC_PAPER="bg_BG.UTF-8"
LC_NAME="bg_BG.UTF-8"
LC_ADDRESS="bg_BG.UTF-8"
LC_TELEPHONE="bg_BG.UTF-8"
LC_MEASUREMENT="bg_BG.UTF-8"
LC_IDENTIFICATION="bg_BG.UTF-8"
LC_ALL=

Въпроси:

1) Какво трябва да направя за да се изобразяват коректно фонетичните символи за английското произношение? В kbgoffice имаше възможност за избор на фонт и SA.ttf изобразяваше коректно фонетичните символи.

2) Какъв е енкодинга на базата данни на речника bg-en.dat? Може ли да се редактира и кодира в уникод и как? Има ли такава версия някъде?

3) Ако gbgoffice изисква bg_BG.CP1251, мога ли да накарам само тази програма да използва този локал и как?

И накрая, искам да благодаря на всички работили по проекта БГ офис за полезната програма която са създали. Предварително благодаря и за Вашите отговори.

Иван
Активен

triplek

  • Напреднали
  • *****
  • Публикации: 564
    • Профил
Фонетични символи в gbgoffice
« Отговор #1 -: Jan 19, 2008, 19:09 »
LC_ALL=bg_BG.CP1251 gbgoffice '<img'>
Активен

Debian Lenny/sid

tarator

  • Напреднали
  • *****
  • Публикации: 849
    • Профил
Фонетични символи в gbgoffice
« Отговор #2 -: Jan 19, 2008, 20:01 »
Мдаа, малоумно е базата да е все още кодирана с windows-1251.
Активен

A gentleman is one who is never rude unintentionally. - Noel Coward

idn

  • Участници
  • ***
  • Публикации: 7
    • Профил
Фонетични символи в gbgoffice
« Отговор #3 -: Jan 19, 2008, 21:03 »
До triplek:

Бладаря за помоща. Изпълних командата но няма промяна в изобразяването на фонетичните символи. Проверих също, че мога да изобразявам на екрана текст който е windows-1251 кодиран, т.е. имам инсталиран такъв фонт.
Активен

neter

  • Global Moderator
  • Напреднали
  • *****
  • Публикации: 3408
  • Distribution: Debian, SailfishOS, CentOS
  • Window Manager: LXDE, Lipstick
    • Профил
    • WWW
Фонетични символи в gbgoffice
« Отговор #4 -: Jan 20, 2008, 12:31 »
Проблемът не е точно в задаването на LC_ALL, тъй като при мен кирилицата в gbgoffice се изобразява правилно и при cp1251, и при utf-8 (странно, но не ми се разучава сега точно това). Не виждам обаче, къде има фонетични символи в английското произношение. idn, би ли дал една снимка, за да видим точно в какво се изразява проблемът ти, за да търсим решението му? '<img'>



Активен

"Да си добре приспособен към болно общество не е признак за добро здраве" - Джиду Кришнамурти

triplek

  • Напреднали
  • *****
  • Публикации: 564
    • Профил
Фонетични символи в gbgoffice
« Отговор #5 -: Jan 20, 2008, 17:06 »
Да не би да ти липсват шрифтове?? Този пакет имаш ли го инсталиран??

dpkg -l | grep msttcorefonts
Активен

Debian Lenny/sid

idn

  • Участници
  • ***
  • Публикации: 7
    • Профил
Фонетични символи в gbgoffice
« Отговор #6 -: Jan 21, 2008, 07:45 »
Благодаря на neter i triplek за отговорите.

Пакетът за които пита triplek го нямах инсталиран. М$-ските фонтове ги копирах директно от Уиндоус, инсталирани са и са регистрирани в defoma. Проблема не е в липсата им.
Примерен код
fslsfonts -server unix/:7101

ги показва всичките, включително и SA font (ot SA dictionary под Win). След инсталирането на msttcorefonts и рестартиране на Х нищо не се промени. Искам да подчертая отново, че при мен всичко се изобразява правилно с изключение на десеттина фонетични символи.

Фонетичните символи за които говоря се срещат само в en-bg.dat, в квадратни скоби.

Мисля, разбирам къде се крие проблема. За правилното изобразяване на фонетичните символи в gbgoffice е необходим фонт които има едновременно Latin1, Cyrillic  и International Phonetic Alphabet. Доколкото ми е известно това е само SA font, които се инсталира от едноименния речник под Уиндоус. Доколко този фонт и кодовата му таблица отговарят на някави стандарти и колко е достъпен ми е трудно да преценя.

Ето таблица на използваните и правилните фонетични символи:

The phonetic symbols codes used in gbgoffice

wrong   right

CP1251  UTF-8
hex     hex
code    code    test word

A0      00F0    that
A1      00E6    back
A2      0259    theatre
A3      0254    hot
A4      014B    sing
A5      0275    thank
A6      0283    shut
A7      028C    shut
A8      025B    hair
A9      0292    pleasure

Забележете още, че фонетичното означение на думи като the, that, then  в настоящата база данни на речника се изписва грешно, защото 0xA0 e 'blank'! Това е значителна неточност!  

От нивото на моите ограничени знания мисля, че за да се реши този проблем трябва да станат две неща:

1) Да се направи фонт които има латиница, кирилица и международните фонетични символи (значи задължително да използва Уникод). Просто не виждам как ще стане това, но ако все пак някой някога се заеме да го прави нека мисли по-глобално, че има и други езици освен английския, и утре някои ще "намери" френска, испанска или немска база данни които ще се използват от същия този gbgoffice, та да се включат там и ударените символи от тези езици и използваните от тях фонетични символи.

2) Да се прекомпилира базата(те) данни на БГ офис да използват Уникод.

Тези които разбират повече нека си кажа думата и ме поправят ако греша. Любопитен съм има ли някой който е успял да издокара фонетичните символи така както са в един печатен речник или така както бяха в SA dictionary под Win. Ако има такъв нека каже как го е постигнал.
Активен

idn

  • Участници
  • ***
  • Публикации: 7
    • Профил
Фонетични символи в gbgoffice
« Отговор #7 -: Jan 21, 2008, 08:01 »
Примерен код
LANG=C gbgoffice

променя само менютата на латиница,
Примерен код
LC_ALL=C gbgoffice

няма никакъв 'визуален' ефект върху gbgoffice

Базата данни на речника е в двоичен вид. Няма как да се промени кодирането и чрез горните команди.
Активен

neter

  • Global Moderator
  • Напреднали
  • *****
  • Публикации: 3408
  • Distribution: Debian, SailfishOS, CentOS
  • Window Manager: LXDE, Lipstick
    • Профил
    • WWW
Фонетични символи в gbgoffice
« Отговор #8 -: Jan 21, 2008, 08:44 »
Ахааа, ей, наблюдателен си. Да си кажа честно хич не ги видях '<img'> Ами ще потърсим решение на проблема, ако междувременно не се появи нова версия на gbgoffice, в който тези фонетични символи се изобразяват правилно. За момента мога да ти препоръчам kbgoffice, който използва същата база данни и символите се виждат както трябва. Работи безпроблемно и под gtk среда, като в gtk среда единствено липсва функционалността за минимизиране в tray-а  ':ok:'
Активен

"Да си добре приспособен към болно общество не е признак за добро здраве" - Джиду Кришнамурти

remotex

  • Напреднали
  • *****
  • Публикации: 344
    • Профил
Фонетични символи в gbgoffice
« Отговор #9 -: Jan 21, 2008, 09:50 »
...може би това ще помогне (поне на един познат помогнаха при Кирилица и фонетични разширения, за латиницата не знам, но нея май си я имат почти всички шрифтове по подразбиране)
http://en.wikipedia.org/wiki/Linux_Libertine
Ако не тези то MS Arial Unicode, който за съжаление вече не е свободен както едно време (интересно който си го има от едно време какво може.. или не може да прави с него...)

Колкото до обръщането на БД в Уникод (или поне поддръжката на различни кодировки)... работи се по въпроса, но засега няма желаещи да помагат.
За предварителен преглед (и при проблеми с шрифта сваляте от препратката по-горе).
http://bgoffice.svn.sourceforge.net/viewvc....ed.ucs2
и не се стресирайте от датата (2 years     - Initial import) - една птичка пролет не прави.  download и задайте кодировка "Кирилица 1251" напр.
http://bgoffice.svn.sourceforge.net/viewvc....ion=225
защото са качени като бинарни - за да запази sourceforge кодировката и затова сървъра ги обслужва само като Уникод УТФ8 страници
За съжаление не съм открил още свободен контрол който да поддържа необходимите стандарти за да покаже така форматирана страницата (както файърфокс напр.) - затова бях в режим на дълго изчакване и след като най-после излезе официално новото КДЕ 4, като се появи официално и по хранилищата на разни дистрибиции ще бъде тествано и .. да се надяваме че скоро ще има нова версия на речника (асистента или както там му казват сега) - само за КДЕ4+ ..останалите със старата а също и тези които искат пълнотекстово търсене т.е. те пък или ще трябва да сложат по-стара версия или новата но да си добавят и старите БД (чист текст), защото новия формат е HTML с цел да се запазят не само кодировките/уникод но и ФОРМАТИРАНЕТО
Активен

idn

  • Участници
  • ***
  • Публикации: 7
    • Профил
Фонетични символи в gbgoffice
« Отговор #10 -: Jan 22, 2008, 07:43 »
Трябва да се отдаде заслуженото на хора като Димов, Раднев и останалите които допринасят за подобряването на такъва безпорно полезена програма като БГ офис. Горните линкове са пример как трябва да изглежда електронния речник. Друг е въпроса дали HTML е най-подходящият формат.
Активен

remotex

  • Напреднали
  • *****
  • Публикации: 344
    • Профил
Фонетични символи в gbgoffice
« Отговор #11 -: Jan 22, 2008, 09:00 »
Съгласен съм с idn, че HTML не е точно най-подходящия формат за БД, жалко че нямаше повече хора като него с повече предложения когато се обмисляха другите възможни варианти и така решението както винаги (по тия земи) падна на плещите на разработчиците, но пък е много лесно да се конвертира към произволен друг формат със или без форматирането ( стремил съм се към максимална съвместимост със стандарта така че конвертирането не би следвало да е проблем - който не вярва да ги тества тези примерни страници на w3c validatora:
http://validator.w3.org/check?v....ri=http
Все още "This Page Is Valid HTML 4.0 Transitional!" :-) )
Сега по въпроса защо не е направо УТФ8 ами 1251 защото заема много по-малко място :) УТФ8 ставаше 2 до 3 пъти по-голям файл а и в 1251 няма проблем съвсем малкото уникод символи да се кодират по стандарта напр.
Примерен код
&#230; == ae

Вече всичко останало е до браузер и изобразяване в него... и по някой др. дребен проблем с подбора на шрифтове :)



Активен

Подобни теми
Заглавие Започната от Отговора Прегледи Последна публикация
Проблем с инсталацията на deb пакет на gbgoffice
Настройка на програми
mikis 7 2437 Последна публикация Jan 27, 2005, 12:56
от
gbgoffice
Настройка на програми
carnophage 8 3373 Последна публикация Jan 22, 2006, 10:52
от
Gbgoffice проблем
Настройка на програми
rip_darkman 13 3495 Последна публикация Sep 15, 2006, 14:03
от danchev
Gbgoffice
Настройка на програми
frost1 10 3750 Последна публикация Dec 28, 2006, 13:47
от frost1
Транскрипция в GbgOffice
Настройка на програми
PaperNick 7 2398 Последна публикация Jan 19, 2013, 18:50
от PaperNick