Въведение в уникод (превод) | СЪВЕТИ

Начало

Вход/Регистрация

Помощ

Новини
Актуална тема
Linux портали
Какво е Линукс?
Въпроси-отговори
Форуми
   •Трудова борса
   •Конкурс
Статии
   • История
   • Съвети
   • Идеи/Мнения
   • Разработки
   • Програми
   • Игри
Дистрибуции
   •Поръчка на CD
Made In BG
Файлове
Връзки
Галерия
Конференции

Външен вид
Предложения
Направи си сам

За нас
Линукс за българи ЕООД
Линк към нас
Предложения

Подкрепяно от:

	СЪВЕТИ

Съвети>Основни знания и средства

Въведение в уникод (превод)

от Rumen_Yotov(11-11-2004)

рейтинг (22) [ добре ] [ зле ]

Вариант за отпечатване
Въведение в уникод
http://software.newsforge.com/article.pl?sid=04/10/27/1628230

Уникод или Универсален Набор от Символи (УНС) е разработен да реши веднъж завинаги проблемите с наличието на много съществуващи набори от символи използвани при писане на текст на различни езици. Той е набор от символи, чиято цел е да бъде над-множество (да обхваща) всички други използвани преди това, като съдържа в себе си всеки символ, използван при писане на който и да е език (включително и много 'мъртви' езици) както също и други символи, използвани в математиката и инженерните науки. Всеки един набор символи може без загуба да бъде преобразуван към уникод, както ще видим по-късно.

ASCII, символният набор, базиран на 7-битови цели числа, беше и все още е много разпространен. Докато неговият капацитет от 128 символа беше достатъчен по времето на неговото създаване през 1960-те години, растящата популярност на персоналните компютри по целият свят направи ASCII неудобен за хората, говорещи и пишещи много различни езици с помощта на много различни азбуки.

По-новите 8-битови символни набори, като фамилията ISO-8859, е способна да представи 256 символа (реално по-малко, тъй като не всички могат да се използват при печат). Това решение бе достатъчно добро за значителна част от практическите нужди, но тъй като всеки символен набор съдържа символи, необходими за писане на няколко езика, не съществуваше начин да се използват в един документ символи от два различни езика, които използват символи от две различни символни набора. В случая с обикновени текстови файлове друг проблем бе как да се накара софтуера автоматично да разпознава кодирането; в повечето случай бе необходима намесата на човек който да посочи кои символни набори са използвани във всеки един файл. Друг един изцяло нов проблем е свързан с използването на азиатските езици при компютрите; не-латинските символи поставиха нови предизвикателства, дължащи се на факта, че някои езици се нуждаят от повече от 256 символа, други пишат от дясно на ляво, както и някои други характеристики които не бяха отчетени от съществуващите стандарти.

Уникод има за цел да разреши всички тези проблеми.

Две организации поддържат уникод стандарта -- Уникод Консорциум (УК) и Международната Организация по стандартизация (ИСО). Имената Уникод и ISO/IEC 10646 са еквивалентни когато се споменава за този символен набор (обаче определението на Уникод Консорциумът за уникод определя стандарт за повече от един единствен набор символи -- той също така включва стандарт за писане на двупосочен текст и други особености, свързани с тези неща).

Уникод кодирания

Уникод определя (относително голям) брой символи и на всеки от тях присвоява уникален номер, уникод-код, чрез който символа може да бъде адресиран. Начина за съхранение на тези кодове на диск или в паметта на компютър е въпрос на кодиране. Най-разпространените Уникод кодирания се означават с UTF-n, където UTF означава Уникод Формат за Трансформация, а n е число определящо броя битове в основната единица, използвана от кодирането.

Забележете, че Уникод променя предположението, което бе вярно в течение на много години и по-точно че един байт винаги представлява един символ. Както ще видите единичен Уникод символ често се представя от повече от един байт, тъй като броя на Уникод символите надхвърля 256, което е броя различни стойности които могат да се кодират в рамките на един байт. Съответно трябва да се прави разлика между броя на символите и броя на байтовете в даден текст.

Две много разпространени кодирания са UTF-16 и UTF-8. При UTF-16, което се използва от съвременните версии на Microsoft Windows системите, всеки символ е представен от една или две 16-битови (двубайтови) думи. Юникс-подобните операционни системи, включително и Линукс използват друга схема на кодиране, наречена UTF-8, където всеки Уникод символ е представен като един или повече байтове (общо до четири; по-стара версия на стандарта разрешава до шест).

UTF-8 има няколко интересни свойства, които го правят подходящ за тази цел. Първо, ASCII символите се кодират по един и същ начин при ASCII и при UTF-8. Това значи, че всеки един ASCII текстови файл също така е и коректно кодиран UTF-8 Уникод текстови файл, представляващ същият текст. В допълнение когато се кодират в UTF-8 символи, заемащи повече от един байт, символите от ASCII набора никога не се използват. Това гарантира между другите неща, че ако софтуерен код обработва подобен файл като чист ASCII, не-ASCII символите се игнорират или в най-лошият случай се третират като случаен боклук, но те не могат да бъдат прочетени като ASCII символи (което може случайно да доведе до формално коректен, но потенциално проблемни конфигурационни опции в конфигурационен файл или да доведе до други непредвидени резултати). Имайки предвид важността на текстовите файлове в Юникс тези характеристики за важни. Благодарение на начинът по който UTF-8 е разработен, стари конфигурационни файлове, шел-скриптове и дори много голяма част от по-стар софтуер могат да работят коректно с Уникод текст въпреки, че Уникод е разработен години след като те са били създадени.

Как Линукс обработва Уникод

Когато казваме, че Линукс система "може да работи с Уникод", ние обикновено имаме предвид че са изпълнение няколко условия:

* Уникод символи могат да се използват в имената на файлове.
* Основният системен софтуер е способен да работи с Уникод файлови имена, Уникод стрингове под формата на параметри и други.
* Потребителският софтуер , като текстови редактори може да изобразява и редактира Уникод файлове.

Благодарение на характеристиките на UTF-8 кодирането, ядрото на Линукс, най-вътрешната и намираща се на най-ниско ниво част от операционната система може да работи с Уникод файлови имена, без дори да се налага потребителя да 'казва' че се използва UTF-8. Всички символни стрингове, включително файлови имена се обработват от ядрото по такъв начин, че за него те изглеждат само като стрингове от байтове. По този начин няма значение и не е необходимо да знае дали двойка последователни байтове трябва логически да се обработят като два символа или като един символ. Единственият риск за 'излъгване' на ядрото ще бъде, например име на файл което съдържа многобайтов Уникод символ, кодиран по такъв начин, че един от използваните байтове да представлява слеш (/) или някакъв друг символ, който има специална употреба в имената на файлове. За щастие както вече отбелязахме, UTF-8 никога не използва ASCII символи за кодиране на многобайтови символи, така че нито 'слеш' нито някой друг специален символ може да се появи като част от име и следователно не съществува риск свързан с използване на Уникод в имена на файлове.

Файловите типове, които не са били предвидени за работа с Юникс-и, като тези използвани от Windows са по-различни, както ще видим по-нататък.

Потребителските програми (в Линукс) използват така наречената информация от локала (locale information) за да могат правилно да преобразуват байтовете към символи както и за други задачи, като определяне езика за съобщения на дадено приложение и форматите за дата и време. Това се определя от стойностите на специални променливи от обкръжението. Коректно написани приложения трябва да могат да използват UTF-8 стрингове вместо ASCII стрингове автоматично, ако локала го посочва.

Повечето приложения за краен потребител когато да работят с Уникод символи включително приложения, написани за десктоп-средите GNOME и KDE, фамилиите продукти OpenOffice.org и Mozilla и други. Обаче, Уникод е повече от само един символен набор -- той въвежда правила за комбиниране на символите, двупосочно писане, и други допълнителни възможности, които не винаги се поддържат от масово-използваният софтуер.

Някои програми за команден ред имат проблеми с многобайтовите символи. Например, 'tr' винаги предполага, че един символ се представя като един байт независимо от локала. Също така, използваните шелове като 'Bash' (и други програми използващи 'getline' библиотеката както изглежда) често се объркват когато многобайтови символи се вмъкват в команден ред и след това се изтриват чрез 'Backspace' или 'Delete' клавишите.

Ако използването на Уникод Ви звучи примамливо, можете да прочетете (друга статия) и да научите как да инсталирате и използвате Уникод в Линукс.

Постоянно актуализирана версия на настоящата статия можете да намерите на страницата на автора.
Date 2004.11.01 3:00
Author StoneLion
Topic

Michał Kosmulski е студент във Варшавския университет и Варшавския университет за технологии.

Връзки:
1. "ISO-8859 family" - http://en.wikipedia.org/wiki/ISO_8859
2. "Unicode Consortium" - http://en.wikipedia.org/wiki/Unicode_Consortium
3. "International Organization for Standardization" - http://en.wikipedia.org/wiki/International_Organization_for_Standardization
4. "Unicode" - http://en.wikipedia.org/wiki/Unicode
5. "ISO/IEC 10646" - http://en.wikipedia.org/wiki/ISO_10646
6. "UTF-16" - http://en.wikipedia.org/wiki/UTF-16
7. "UTF-8" - http://en.wikipedia.org/wiki/UTF-8
8. "updated version of this article" - http://hektor.umcs.lublin.pl/~mikosmul/computing/articles/linux-unicode.html
9. "Michał Kosmulski" - http://hektor.umcs.lublin.pl/~mikosmul/
10. "Warsaw University" - http://www.uw.edu.pl/en/
11. "Warsaw University of Technology" - http://www.pw.edu.pl/english/index.html

<< Инсталиране на TrueType шрифтове в Gnome | Възможности за сертификатната измама в X.509 >>

Коментар от: dino asa (a) spnet< dot >net Дата: 18-11-2004

[ Други коментари]

Една забележка, която е достатъчно сериозна и не е коректно да се пропуска когато се говори за използване на UTF-8 Linux локали. Преди да се предприеме такава стъпка трябва да се знае, че след нея ще може да се работи с информация само в две кодови таблици - UTF-8 и ISO-8895-1. Това означава, че ще имате кирилица само там, където тя вече е Unicode.

Действително една част от програмите (относително малка, основно когато сред разработчиците има такива, живеещи в страна с нелатинска азбука) поддържат прекодиране в реално време, но и това е свързано с неудобството да се настройва ръчно всяка една от тях.

В останалите популярни операционни системи за десктоп (Windows, MacOS X, BeOS, eCom Station) използването на Unicode, когато не работите с ISO-8895-1 латиница не е проблем. За целта е предвидено да се указва, като коя кодова страница трябва да се третира всичко, което не е Unicode. За съжаление такава възможност във Linux/*BSD няма.

На практика това означава, че още дълги години UTF-8 локалите няма да са реално приложими у нас. Същевременно проблемите, свързани с използване на UTF-8, когато се работи примерно с CP1251 локал са значително по-малко. Най често те са свързани с некоректно показване на преведените съобщения в конзолни програми.

Разбира се на автора може да се прости, че не е отбелязал тази "подробност". Както почти всички почитетели на свободния софуер, чиито роден език се покрива от ISO-8895-1 той вероятно не се е замислял по въпроса, или в краен случай го приема за нечий чужд проблем.
Редактиран на: 18-11-2004@1:32

лента за задачи >>

Коментари: (общо 2) Оценени с или повече [Пълен преглед>>]

[Добави коментар]

Важна особеност на UTF-8 локалите в Linux. [18-11-2004] {1/Неутрален}
лента за задачи [12-05-2007] {1/Неутрален}

МЕНЮ

Търсене

Добавяне

ЗАГЛАВИЯ

Подробно ръководство за ipfw nat

Mikrotik + Openvpn + android

Как работи DNS, част 3 - инсталация на DNS cache сървър.

Периодична таблица на дистрибуциите на Linux ...

Как работи DNS, част 2 - Топология, Authoritative servers

Интервю на „Линукс за българи“ с Хюсеин Исмаил

Jabber (XMPP) сървър под Debian Squeeze

Как работи DNS, част 1 - Resolvers и Cache сървъри.

Debian, realtek RTL8111/8168B и wireless конфигурация

Въведение в daemontools (DJB Way)

Персонализиране на външния вид на Ubuntu 11.10

DNSCurve, NaCl, CurveCP - съвременен поглед върху защитата н

sbopkg

Първа помощ за десктоп с Линукс... част втора

Първа помощ за десктоп с Линукс

Не на Скйап

Инсталиране и конфигуриране на Wive на Edimax EW-7209APg

Сигурно електронно банкиране с Firefox и Linux

Основи на iptables

За уеб браузъра и неприкосновеността на личния Ви живот

Маскиране на VPN тунел

Електронен подпис на Банксервиз под Ubuntu 9.10 и 10.04

Електронен подпис за работа под Linux и OpenSSL

FreeBSD 8.0 Обединение на няколко мрежови интерфейса в един

ПОДКАТЕГОРИИ

Десктоп

Сигурност

Кирилизация

Основни знания и средства

FreeBSD

Linux дистрибуции

АРХИВ

05 - 2022
01 - 2017
03 - 2016
11 - 2012
10 - 2012
09 - 2012
04 - 2012
12 - 2011
05 - 2011
03 - 2011
12 - 2010
07 - 2010
04 - 2010
03 - 2010
01 - 2010
10 - 2009
09 - 2009
08 - 2009
06 - 2009
04 - 2009
02 - 2009
12 - 2008
09 - 2008
05 - 2008
04 - 2008
03 - 2008
02 - 2008
01 - 2008
12 - 2007
11 - 2007
10 - 2007
09 - 2007
07 - 2007
05 - 2007
03 - 2007
02 - 2007
01 - 2007
11 - 2006
10 - 2006
09 - 2006
08 - 2006
07 - 2006
06 - 2006
05 - 2006
04 - 2006
03 - 2006
02 - 2006
01 - 2006
12 - 2005
11 - 2005
09 - 2005
08 - 2005
07 - 2005
06 - 2005
05 - 2005
04 - 2005
02 - 2005
01 - 2005
12 - 2004
11 - 2004
10 - 2004
09 - 2004
08 - 2004
07 - 2004
06 - 2004
05 - 2004
04 - 2004
03 - 2004
02 - 2004
01 - 2004
12 - 2003
11 - 2003
10 - 2003
08 - 2003
07 - 2003
06 - 2003
04 - 2003
03 - 2003
02 - 2003
01 - 2003
12 - 2002
11 - 2002
09 - 2002
08 - 2002
06 - 2002
05 - 2002
04 - 2002
02 - 2002
01 - 2002
11 - 2001
10 - 2001
09 - 2001
08 - 2001
06 - 2001
05 - 2001
03 - 2001
02 - 2001
01 - 2001
10 - 2000
09 - 2000
08 - 2000
07 - 2000
06 - 2000
05 - 2000
03 - 2000
02 - 2000
01 - 2000
-

ВРЪЗКИ

Linux за начинаещи

	© 2011-... Асоциация "Линукс за българи" © 2007-2010 Линукс за българи ЕООД © 1999-2006 Slavej Karadjov Ако искате да препечатате или цитирате информация от този сайт прочетете първо това Външния вид е направен от MOMCHE Code Version: 1.0.8 H (Revision: 23-09-2011)

Изпълнението отне: 1 wallclock secs ( 0.18 usr + 0.01 sys = 0.19 CPU)