На скоро писах подобно нещо - задачата се оказа доста интересна добре, че открих сетлокал на ПХПто
'>. Използвал съм речник с произволни думи - потребителя сам си въвежда речника подробността е че към всяка дума е прикрепена тежест при зареждането му от базата данни сортирането е по тежест ( колкото е по-голяма тежестта на думата толкова по-малка е вероятността да се използва - просто и удобно) и съответно с речник от 40-50 думи се постига почти отличен резултат. Истинската трудност изпитах когато ми казаха, че програмчето бърка голямите и малките букви в някои думи - оказа се, че поради специфики на текста има голями букви и в края и в началото и то неопределен брой е това неможах да се сетя как да го направя финно и засега проблема стои...
Погледнах статията с алгоритъма за думите но не разбрах много каква връзка има с чист превод от шлйокавица.
Базата която ползвам е МойСКЛ езика ПХП на машина 450П2, с 256мв доста дискове но и накачуркано каково ли не апачите, днс, днцп, времеви разносвач
'>, самба и общовзето бачка добре. С база от 60000 реда всеки със средно 60 символа и 4-5 думи се справя за 12-15мин ако не е натоварена с друго.
Ако има нещо пишете на
iv@acnielsen.bg