Informativni prevod

Tako zovemo mogućnost da se prevedu čitave rečenice i članci s jednog jezika na drugi. Prevod zaista nije (i još neko vreme neće ni biti) savršen, ali omogućava čitaocu da na opštem nivou shvati o čemu se radi u članku ili na web stranici. U sadašnje vreme nudimo ovu mogućnost za prevod s engleskog ili nemačkog na srpski. Kvalitet prevoda s engleskog može da se poredi sa projektima Google Translate i Microsoft Bing, kvalitet prevoda s nemačkog je nešto bolji iz razloga što se prevodi direktno s nemačkog na srpski, a nikako preko engleskog kao što to rade alati američkih firmi.

Jezički deo

Za ovu svrhu nam više nisu dovoljni samo rečnik i morfologija. Treba rešiti tri osnovna problema:

  1. Izbor ispravnog značenja, što se odnosi na sve višeznačne reči
  2. Red reči u rečenici, npr. u engleskom je red reči manje više čvrsto određen, u srpskom je mnogo slobodniji
  3. Idiomatičnost i druge atipičnosti pojedinih jezika

Drugim rečima, kod prevođenja celih rečenica pred nama stoji jezik u celoj svojoj lepoti, istoriji, ali nažalost i složenosti. Razvoj alata za prevođenje u poslednjim godinama je delimično odustao od potrage za savršenim teoretskim opisom jezika i prešao u oblast statistike i korpusa. Proces mašinskog prevoda možete jednostavno da zamislite na sledeći način:

Međutim, treba priznati da trenutno stanje razvoja kod nas i u svetu još uvek ne pruža kvalitet koji bi mogao da zameni prevodioca. Živi prirodni jezik je naprosto toliko složen i jezici poput engleskog i srpskog su toliko principijelno različiti, da postojeći alat može dobro da služi za informativni prevod, ali za sam proces prevođenja nema velik doprinos - u tu svrhu se koriste CAT alati.

Programsko rešenje

Za statistički prevod u poslednje vreme koristimo pretežno alat Moses, rezultat dugogodišnjeg razvoja nekoliko evropskih univerziteta na čelu sa University of Edinburgh. On pruža osnovnu platformu, a dodavanjem modela prevođenja i jezičkih modela od njega nastaje funkcionalan sistem za prevođenje. Veličina modela i konfiguracija određuju hardversku zahtevnost. Jednostavna konfiguracija s malim modelima je u stanju da funkcioniše čak i u hardverski relativno ograničenim uslovima, no, na izlazu onda ne možemo da očekujemo nikakva čuda. S druge strane, previše složena konfiguracija ili konfiguracija sa previše velikim modelima može da prevodi jedinu rečenicu neprihvatljivo dugo čak i na vrhunskom serveru. Konfiguracija koja daje lepe rezultate zahteva desetine GB memorije, što zaista zna biti limitirajući faktor kvaliteta i brzine prevoda. Modele prevođenja i jezičke modele pripremamo na meru prema tome kakvi će se tekstovi prevoditi. Tu govorimo o tzv. domenu, npr. domen tekstova automobilske industrije. Što je domen uži i dostupni korpusi veći, to je prevod kvalitetniji. Pri pripremi modela imamo prednost upotrebe vlastitih korpusa, dvojezičnih rečnika, baza podataka stručne terminologije, morfoloških modela i tehnika njihovog kombinovanja, što nam omogućava da postižemo bolje rezultate sa manjim modelima.