Automatsko dopunjavanje dijakritičkih znakova
Ovo je poznato većini od nas. Po navici pišemo beleške, mejlove, a ponekad i druge poslovne tekstove bez dijakritičkih znakova, ili nam ih u takvom obliku šalju kolege. A onda, kad takav materijal treba da sredimo u konačan tekst koji mora da bude gramatički i stilski savršen, nas očekuje nezahvalan i naporan posao - dopunjavanje kvakica i crtica na potrebna mesta. A ponekad i treći put prolazimo kroz tekst i nailazimo na greške koje ni program za kontrolu pravopisa nije otkrio jer reč bez dijakritičkih znakova takođe postoji.
Upravo ovaj problem rešavaju drugi jezički alati Lingea. Nudimo dva nivoa rešenja:
- Modul koji za bilo koju reč bez dijakritičkih znakova nalazi sve ispravne srpske reči s dijakritičkim znakovima
- Potpuno automatsko rešenje koje je uz pomoć statističkog jezičkog modela u stanju da prevede čitav tekst bez dijakritičkih znakova na ispravan oblik.
Jezički deo
Osnova rešenja je opet formalan opis morfologije, uz čiju pomoć možemo da za bilo kakvu reč bez dijakritičkih znakova nađemo sve ispravne srpske reči. Takvih reči može da bude i više, npr. za reč seci, to su reči seći, šeći ili slobodno i prva varijanta. Dakle, ukoliko želimo da je rešenje potpuno automatsko, moramo da uključimo još nešto, a to su statističke metode koje su osnovane na obimnom korpusu ispravno napisanih srpskih tekstova. Uz njihovu pomoć znamo da prema kontekstu okoline reči ili cele rečenice nađemo onu najverovatniju varijantu. No, na ovom mestu valja upozoriti da u nekim specijalnim slučajevima čak ni vrlo napredna rešenja neće znati da se snađu. Razmotrite na primer rečenicu:
Kuce vise nismo videli.
Ovde stvarno ne znate da li autor opisuje odlazak iz sela ili nestanak životinje.
Programsko rešenje
Prvi deo je vrlo jednostavan. To je funkcija koja za bilo koju reč vraća sve mogućnosti reči s dijakritičkim znakovima. Koristi samo morfološki leksikon datog jezika, čija je veličina maksimalno 1 MB.
Drugi deo je memorijski zahtevniji. On se služi jezičkim modelom čija se veličina kreće u gigabajtima. Na ulazu može da bude i tekst u html formatu, modul ostavlja sve html oznake bez promene, samo dopunjava svoje oznake koje obeležavaju promenjene reči.