Тема: обръщане на масив в PHP (Прочетена 12012 пъти)

nov_chovek · « -: Feb 11, 2011, 15:19 »

Здравейте, още едно тъпо нещо, което ми вгорчава живота.

Принципно имам масив на ПХП, който играе ролята за транслитериращ масив:

Код

GeSHi (PHP):
function cyr2lat ($string) {
$table = array(
'а'=>'a', 'б'=>'b', 'в'=>'v', 'г'=>'g', 'д'=>'d',
'е'=>'e', 'ж'=>'j', 'з'=>'z', 'и'=>'i', 'й'=>'y',
'к'=>'k', 'л'=>'l', 'м'=>'m', 'н'=>'n', 'о'=>'o',
'п'=>'p', 'р'=>'r', 'с'=>'s', 'т'=>'t', 'у'=>'u',
'ф'=>'f', 'х'=>'h', 'ц'=>'c', 'ч'=>'ch', 'ш'=>'sh',
'щ'=>'sht', 'ъ'=>'a', 'ь'=>'', 'ю'=>'yu', 'я'=>'ya',
'А'=>'A', 'Б'=>'B', 'В'=>'V', 'Г'=>'G', 'Д'=>'D',
'Е'=>'E', 'Ж'=>'J', 'З'=>'Z', 'И'=>'I', 'Й'=>'Y',
'К'=>'K', 'Л'=>'L', 'М'=>'M', 'Н'=>'N', 'О'=>'O',
'П'=>'P', 'Р'=>'R', 'С'=>'S', 'Т'=>'T', 'У'=>'U',
'Ф'=>'F', 'Х'=>'H', 'Ц'=>'C', 'Ч'=>'Ch', 'Ш'=>'Sh',
'Щ'=>'Sht', 'Ъ'=>'A', 'ь'=>'', 'Ю'=>'Yu', 'Я'=>'Ya',
);
 
return strtr($string, $table);
}

понеже не ми се играе да преписвам пак цялата азбука исках да ползвам функцията array_flip(), която сменя местата на ключа и стойността на всеки елемент т.е. по този начим ще имам с едно писане транслитерация в двете посоки.

Функцията наистина общъща местата, обаче през strtr($string, $table); не минават правилно utf-8 кирилските букви. Някакви идеи как да го направя така че да работи?

ivanatora · « **Отговор #1 -:** Feb 11, 2011, 15:58 »

http://bg.php.net/mb_strstr
Подобни Multibyte функции има алтернативи на повечето функции за работа със низове.

VladSun · « **Отговор #2 -:** Feb 11, 2011, 16:10 »

Нещо не ми харесва това

Как ще се транслитерира право и обратно "схващане" при условие, че
Х => H
С => S

но

SH => Ш

ivo3d · « **Отговор #3 -:** Feb 11, 2011, 18:58 »

VladSun, ти отрепа всичко детско в мене... Никога не бях се замислял за тия думи... По принцип като я правя тая простотия с масивите слагам тия букви "ш", "щ" и т.н. в началото, така че да хване първо тях, обаче за тоя случай не ми го побира акълът... Освен с някакви предварително въведени думи, ама това пак си е рисковано...

nov_chovek, ти защо реши да използваш strstr? Аз тия функция я използвам да намеря дали в някой низ се съдържа друг низ, и в частни случаи за да ми върне къде точно се намира тоя низ... Да нямаш предвид str_replace?

ivo3d · « **Отговор #4 -:** Feb 11, 2011, 19:03 »

Сега изпробвах всичките преводачи от латиница към кирилица, които намерих в нета - ни един не работи както трябва... Явно наистина това освен с предварително зададени думи няма как да се реши.

А на теб защо точно ти трябва, ако точно искаш да правиш транслитерация ще имаш проблеми, обаче ако превеждаш думи за да търсиш после по тях е една съвсем различна история.

VladSun · « **Отговор #5 -:** Feb 12, 2011, 00:00 »

Цитат на: ivo3d в Feb 11, 2011, 18:58

VladSun, ти отрепа всичко детско в мене... Никога не бях се замислял за тия думи... По принцип като я правя тая простотия с масивите слагам тия букви "ш", "щ" и т.н. в началото, така че да хване първо тях, обаче за тоя случай не ми го побира акълът... Освен с някакви предварително въведени думи, ама това пак си е рисковано...

Няма просто решение за този проблем според мен.

Цитат на: ivo3d в Feb 11, 2011, 18:58

nov_chovek, ти защо реши да използваш strstr? Аз тия функция я използвам да намеря дали в някой низ се съдържа друг низ, и в частни случаи за да ми върне къде точно се намира тоя низ... Да нямаш предвид str_replace?

Не е strstr, a strtr - http://php.net/manual/en/function.strtr.php

ivo3d · « **Отговор #6 -:** Feb 12, 2011, 15:31 »

А, вярно... Между другото, на abv транслатора е написан както трябва... Дори ако примерно напишеш нещо от сорта на "Vie ste ste tam" първото "ste" става "ще", а второто "сте"... Не е като да не са си поиграли...

nov_chovek · « **Отговор #7 -:** Feb 14, 2011, 11:59 »

окей, направих го, но както каза VladSun не се случват нещата поради комбинацията на букви в думите.

Мислите ли, че може да се направи някакъв php клас, който да подава читава транслитерация от кирилица на латиница?

Ако има навити съм готов да дам някой лев (в разумни граници), като след това кода може да се пусне GPL или там както прецени кодера. Ако има мераклии нека пишат лично съобщение.

Naka · « **Отговор #8 -:** Feb 14, 2011, 13:33 »

Проблема е сериозен.
Транслитерация обратно от Lat->Cyr както беше казано е невъзможна, понеже латиницита има много по малко символи и при правата транслитерация Cyr -> Lat се губи информация.

тук са много хубаво описани изискванията:
http://bg.wikisource.org/wiki/Закон_за_транслитерацията

Обаче не става с просто заместване на стрингове щото според закона има изключения:

ИЯ в края на думата става ia а не ya
Например София -> Sofia а НЕ Sofiya

другото изключение е етнонима БЪЛГ, който трябва да се транслитерира BULG а не BALG

България -> Bulgaria а не Balgariya

Има и още подробности:
Ако трябва да се запазят Малките и големите букви, така както е в оригиналният кирилски стринг - става още по сложно например:
ЖРЕБЧЕВО->ZhREBChEVO
в този случай просто заместване на Ж с Zh и Ч с Ch не изглежда хубаво щото имаме мешаница на главни и малки букви в превода.
Дали ще бъде главна или малка буква зависи от това каква е следваща буква в кирилският стринг.

А и освен това този закон явно по подразбиране приема че това е транслитерация към Английски. Ако преведените стрингове на латиница трябва да се четат от немец изобщо няма да изглежда правилно.
на немски е:
Ж -> Sch
Х -> Ch
Ц -> Z
Ч -> Tsch
Ш -> Sch
Щ -> Scht

Т.е. за другите езици са необходими и различни таблици.

nov_chovek · « **Отговор #9 -:** Feb 14, 2011, 14:08 »

принципно искам да транслитерирам съществителни собствени имена (вкл. градове, улици и т.н.), които не се превеждат, а се транслитерират. Значи с кофти задача съм се хванал

Naka · « **Отговор #10 -:** Feb 14, 2011, 14:19 »

Имам такова работещо решение и точно за такова го правих. Даже мислех да го пускам публично, но се замотах.......

Обаче изисква pcre-то да е компилирано (заради кирилцата) с
./configure --enable-utf8 --enable-unicode-properties

в fedora/RH --enable-unicode-properties липсва.

например без това $str=preg_replace('/(бълг)/ui', 'bulg', $str);
модификатора /u няма да работи

и разни други работи с кирилицата и preg_replace не работеха. Не открих и никакво друго алтернативно решение освен пркомпилирането на pcre.

Ако искаш ще го пусна тук, но трябва да го вадя от код и може да пропусна някоя зависмост. 3-4 функции са

nov_chovek · « **Отговор #11 -:** Feb 14, 2011, 14:28 »

Naka, много ще съм ти благодарен ако го направиш! Ако трябва ще прекомпилирам.

Naka · « **Отговор #12 -:** Feb 14, 2011, 14:45 »

Добре де ще вадя.

transliteration.php

Код

GeSHi (PHP):
<?php
// този файл и всички локализиращи файлове са кодирани в utf-8
 
// в този файл се описват масивите за транслитерация от $cyr към различните езици
 
$bg = 	  array('А', 'а',
		'Б', 'б',
		'В', 'в',
		'Г', 'г',
		'Д', 'д',
		'Е', 'е',
		'Ж', 'ж',
		'З', 'з',
		'И', 'и',
		'Й', 'й',
		'К', 'к',
		'Л', 'л',
		'М', 'м',
		'Н', 'н',
		'О', 'о',
		'П', 'п',
		'Р', 'р',
		'С', 'с',
		'Т', 'т',
		'У', 'у',
		'Ф', 'ф',
		'Х', 'х',
		'Ц', 'ц',
		'Ч', 'ч',
		'Ш', 'ш',
		'Щ', 'щ',
		'Ъ', 'ъ',
		'Ь', 'ь',
		'Ю', 'ю',
		'Я', 'я');
// АБВГДЕЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЬЮЯ
// ABCDEFGHIJKLMNOPQRSTUVWXYZ
// abcdefghijklmnopqrstuvwxyz
 
 
// http://bg.wikisource.org/wiki/Закон_за_транслитерацията
// правилата са за превод към латиница, но се подразбира English
// за другите езици (например Немски) важат други правила, които не са описани в закона.
//
// (2) Буквеното съчетание „ия“, когато е в края на думата, се изписва и предава чрез „ia“. Sofia
// Чл. 6. Името на българската държава се изписва и предава на латиница в съответствие с установената // традиция: България — Bulgaria
// Bulgaria Bulgarska, Bulgarski
 
// $table_ia/bulg изключения.
// Тези 2 таблици се използват за транслитерация само след цялостен match на стринга 'ия' или 'бълг'
// как точно се мачва (например накрая на думата за 'ия') се определя от самият preg_replace()
// идеята на използването им е, че така може да се запази Case-а на оригиналните букви.
$table_ia=array('и'=>'i',
		'я'=>'a',
		'И'=>'I',
		'Я'=>'A');
 
$table_bulg=array('б'=>'b',
		'ъ'=>'u',
		'л'=>'l',
		'г'=>'g',
		'Б'=>'B',
		'Ъ'=>'U',
		'Л'=>'L',
		'Г'=>'G');
 
$en = 	  array('A', 'a',
		'B', 'b',
		'V', 'v',
		'G', 'g',
		'D', 'd',
		'E', 'e',
		'Zh','zh',
		'Z', 'z',
		'I', 'i',
		'Y', 'y',
		'K', 'k',
		'L', 'l',
		'M', 'm',
		'N', 'n',
		'O', 'o',
		'P', 'p',
		'R', 'r',
		'S', 's',
		'T', 't',
		'U', 'u',
		'F', 'f',
		'H', 'h',
		'Ts','ts',
		'Ch','ch',
		'Sh','sh',
		'Sht','sht',
		'A', 'a',
		'Y', 'y',
		'Yu','yu',
		'Ya','ya');
 
 
// http://de.wikipedia.org/wiki/Kyrillisches_Alphabet#Bulgarisch
// но: България — Bulgaria
// правилото за ия (ia) се запазва в края на думата
$de = 	  array('A', 'a',
		'B', 'b',
		'W', 'w',
		'G', 'g',
		'D', 'd',
		'E', 'e',
		'Sch','sch',
		'S', 's',
		'I', 'i',
		'J', 'j',
		'K', 'k',
		'L', 'l',
		'M', 'm',
		'N', 'n',
		'O', 'o',
		'P', 'p',
		'R', 'r',
		'S', 's',
		'T', 't',
		'U', 'u',
		'F', 'f',
		'Ch', 'ch',
		'Z','z',
		'Tsch','tsch',
		'Sch','sch',
		'Scht','scht',
		'A', 'a',
		'J', 'j',
		'Ju','ju',
		'Ja','ja');
?>

Naka · « **Отговор #13 -:** Feb 14, 2011, 14:50 »

Код

GeSHi (PHP):
require "transliteration.php";
// твърди параметри за експорт;
$GLOBALS['bg']=$bg;
$GLOBALS['table_ia']=$table_ia;
$GLOBALS['table_bulg']=	$table_bulg;
 
function mb_is_upper($str)
{
// препинателните знаци, шпация, '', и край на реда
// се третират като главни букви и за тях тази функция връща 'true'
$upper = mb_strtoupper($str,'UTF-8');
 
return $str === $upper;
}
 
/*
function ia_function($matches)
{
// as usual: $matches[0] is the complete match
// $matches[1] the match for the first subpattern
//
// за достъп към елемент от стринга не може да се използва формата $str[1] - работи само за ASCII
// не може да се използва и substr() - работи само за ASCII
 
$str=$matches[0];
// print '|'.mb_substr($str,0,1,'UTF-8').mb_is_upper(mb_substr($str,0,1,'UTF-8')).'|';
 
if (mb_is_upper(mb_substr($str,0,1,'UTF-8'))) $ret='I'; else  $ret='i';
if (mb_is_upper(mb_substr($str,1,1,'UTF-8'))) $ret.='A'; else  $ret.='a';
 
return $ret;
}
 
function bulg_function($matches)
{
// Тази функция предполага че всички замествания на 'бълг' се състоят от по 1-ин символ
// например за всички езици Ъ->1символ(А); Следствие на това е,
// че не нужна проверка за следващият символ за запазване на 'casе'-а, както се прави в replace_function()
// global $bg, $target;
 
$S1=$matches[1]; // 'бълг'
 
// print $S1;
 
if (mb_is_upper(mb_substr($S1,0,1,'UTF-8'))) $ret='B'; else  $ret='b';
if (mb_is_upper(mb_substr($S1,1,1,'UTF-8'))) $ret.='U'; else  $ret.='u';
if (mb_is_upper(mb_substr($S1,2,1,'UTF-8'))) $ret.='L'; else  $ret.='l';
if (mb_is_upper(mb_substr($S1,3,1,'UTF-8'))) $ret.='G'; else  $ret.='g';
 
return $ret;
}
*/
 
function ia_function($matches)
{
// as usual: $matches[0] is the complete match
// $matches[1] the match for the first subpattern
//
// за достъп към елемент от стринга не може да се използва формата $str[1] - работи само за ASCII
// не може да се използва и substr() - работи само за ASCII
global $table_ia;
 
$S1=$matches[1];
 
$ST=strtr($S1,$table_ia);
 
return $ST;
}
 
function bulg_function($matches)
{
// Тази функция предполага че всички замествания на 'бълг' се състоят от по 1-ин символ
// например за всички езици Ъ->1символ(А); Следствие на това е,
// че не нужна проверка за следващият символ за запазване на 'casе'-а, както се прави в replace_function()
global $table_bulg;
 
$S1=$matches[1]; // 'бълг'
 
// print '|'.$S1;
// 0.43 сек. (10000 цикъла) strtr($S1,$table);
// 0.70 сек. (10000 цикъла) str_replace()
// 1.42 сек. (10000 цикъла) 8 броя $str=preg_replace('/б/u', 'b', $S1);
// 2.62 сек. (10000 цикъла) 4 броя проверки (mb_is_upper(mb_substr($S1,0,1,'UTF-8'))) $ret='B'; else  $ret='b';
// 5 сек.    (10000 цикъла) най-бавно чрез цикъл и търсене в масива $bg, $target
 
$ST=strtr($S1,$table_bulg);
 
return $ST;
}
 
 
function replace_function($matches)
{
global $bg, $target;
 
$S1=$matches[1];
$S2=$matches[2];
//print '|'.$S1.$S2.'|';
 
// ако не е намерен символа в бг таблицата връща самият символ например:ы
if ( ($key = array_search($S1, $bg)) === FALSE ) return $S1;
 
$ST=$target[$key];
 
// print '['.$S1.']'.($key & 1);
// print '['.$S1.']'.mb_strlen($ST,'UTF-8');
 
// бърза проверка за главна буква: $key(четно 0,2,4)-главна;   $key(нечетно 1,3,5)-малка;
// проверка за четност
// ($key & 1) - 1 нечетно; 0 четно;
 
// ЖРЕБЧЕВО->ZhREBChEVO
//         ->ZH...CH...
// Ако текущият заместван символ е главна буква (и заместващият я стринг е с повече от 2 букви)
// И следващият символ е главна буква то целият заместващ я стринг се капитализира Zh->ZH
// проверката за mb_strlen($ST,'UTF-8')>1 се предодврати ненужното извикване на mb_is_upper($S2)
if ( (!($key & 1) AND mb_strlen($ST,'UTF-8')>1) AND mb_is_upper($S2)) return mb_strtoupper($ST,'UTF-8');
 
return $ST;
}
 
 
function transliterate($cyrstr, $lang, $STRICT_CASE=true)
{
// връща транслителиран стринг към съответният език
// транслитерационните масиви трябва да се заредени предварително.
 
// STRICT_CASE задава дали да се запазват case-а на буквите както е при оригиналния текст
// STRICT_CASE = true 	Запазва се case-а
// STRICT_CASE = false	Не се запазва case-а. Всичко се конвертира към малки букви
// и накрая се капитализира първата буква на всяка дума.
 
// STRICT_CASE == true е 6 пъти по-бавен от без STRICT_CASE
// 6.4 сек. (10000 цикъла) transliterate('жжжжжж', 'en', false);
// 35  сек. (10000 цикъла) transliterate('жжжжжж', 'en', true);
 
$target=$GLOBALS[$lang];
// това е нужно за _callback функциите
$GLOBALS['target']=$target;
 
// pcretest -C
//
// https://bugzilla.redhat.com/show_bug.cgi?id=457064
// http://gaarai.com/2009/01/31/unicode-support-on-centos-52-with-php-and-pcre/
// http://bugs.centos.org/view.php?id=3252
//
// Compilation failed: PCRE does not support \L, \l, \N, \U, or \u 
// трябва пакета да се прекомпилира със %configure --enable-utf8 --enable-unicode-properties
//  --enable-utf8 е зададено в src.rpm но --enable-unicode-properties не е
 
setlocale(LC_CTYPE,'bg_BG.utf8');
 
// документация
// http://www.pcre.org/pcre.txt
// \b	matches a word boundary (only ASCII letters recognized - all with values less than 256 )
// \p{Cyrillic} -- match Cyrillic letter
// \P{Cyrillic} -- match NON Cyrillic letter
// \p{L} 	letter
// \p{Ll}	Lower case letter
// \p{Lu}	Upper case letter
 
 
if ($STRICT_CASE)
{
// !!! за да работи правилно case-insensitive трябва да има задължително u за модификатор /xxx/ui
// [^a-zA-Zа-яА-Я0-9]|$ маркира край на думата - всеки не буквен знак или край на стринга $
//$str=preg_replace('/ия(?=[^a-zA-Zа-яА-Я0-9]|$)/ui', 'ia', $cyrstr);
 
// Заменя ия->ia в края на думите като запазва малките и големите букви в оригиналния текст
$str=preg_replace_callback('/(ия)(?=[^a-zA-Zа-яА-Я0-9]|$)/ui', 'ia_function', $cyrstr);
 
// етнонима 'бълг' - незвисимо къде е се транслителира като 'bulg', частен случай е България-Bulgaria
$str=preg_replace_callback('/(бълг)/ui', 'bulg_function', $str);
 
// ВАЖНО! (?=.?) е Lookahead assertion за всякакъв символ .? 0 или 1 път.
// Въпреки че целият израз е в скоби той не се захваща и не може да се използва като $2
// Но когато патъна вътре в Lookahead израза е обграден в скоби (?=(.?)) той се захваща като $2
// Като при това целият израз си остава Lookahead, без да оказва влияние на целият патън
// това е захващане на 1 пореден Кирилски символ $1 + инфо за следващият символ в $2 (какъвто и да е той)
// /(\p{Cyrillic})(.?)/ - това по същият начин захваща $1 и $2 но скача на +2 знака при следващият цикъл
// докато комбинацията с Lookahead скача на +1 - т.е. обхожда всеки пореден знак
$str=preg_replace_callback('/(\p{Cyrillic})(?=(.?))/u', 'replace_function', $str);
 
}
else 
{
$str=preg_replace('/(ия)(?=[^a-zA-Zа-яА-Я0-9]|$)/ui', 'ia', $cyrstr);
$str=preg_replace('/(бълг)/ui', 'bulg', $str);
$str=str_replace($GLOBALS['bg'], $target, $str);
$str=mb_convert_case($str, MB_CASE_TITLE, "UTF-8");
}
 
return $str;
}

Мисля че това е всичко.
първо трябва да заредиш масивите. transliterate.php

и след това:
transliterate('Това е само пример, София, България', 'en', false);

ако $STRICT_CASE==false игнорира спазването на всички малки и големи букви и работи много бързо. Ако обаче $STRICT_CASE==true работи много бавно щото гледа малките и големите букви да съвпадат точно и в транслителираният стринг.
Например: въведен стринг тип хакерско писане:
transliterate('ЖрЕбЧеВо', 'en', true);
ще го транслителира правилно така
ZhRеBchEvO

общо взето транслитерацията (при не спазване на CASE-a) се извършва само от това:

Код

GeSHi (PHP):
{
$str=preg_replace('/(ия)(?=[^a-zA-Zа-яА-Я0-9]|$)/ui', 'ia', $cyrstr);
$str=preg_replace('/(бълг)/ui', 'bulg', $str);
$str=str_replace($GLOBALS['bg'], $target, $str);
$str=mb_convert_case($str, MB_CASE_TITLE, "UTF-8");
}

ако успееш да оправиш кодировките и locale-тата всичко би трябвало да работи. Не мога да се сетя входящият стринг transliterate($cyrstr ..... дали беше в cp1251 или в utf-8

ivo3d · « **Отговор #14 -:** Feb 14, 2011, 15:30 »

А това не е ли само от кирилица към латиница?

Аз едно време бях правил един клас, който транслитерира кирилски низ към всичките възможни изписвания на латиница (примерно "живея" - zhiveq, jiveq, zhiweq, jiveq, zhiveya, jiveya и .т.н. да не ги изреждам всичките). Върши работа при търсене, ама за твоя случай мисля че няма да може да помогне. Общо взето от кирилица към латиница е лесно, но обратното няма да стане без някакви предварително въведени граматически правила.

Автор Тема: обръщане на масив в PHP (Прочетена 12012 пъти)

nov_chovek

обръщане на масив в PHP

ivanatora

Re: обръщане на масив в PHP

VladSun

Re: обръщане на масив в PHP

ivo3d

Re: обръщане на масив в PHP

ivo3d

Re: обръщане на масив в PHP

VladSun

Re: обръщане на масив в PHP

ivo3d

Re: обръщане на масив в PHP

nov_chovek

Re: обръщане на масив в PHP

Naka

Re: обръщане на масив в PHP

nov_chovek

Re: обръщане на масив в PHP

Naka

Re: обръщане на масив в PHP

nov_chovek

Re: обръщане на масив в PHP

Naka

Re: обръщане на масив в PHP

Naka

Re: обръщане на масив в PHP

ivo3d

Re: обръщане на масив в PHP