Prepoznavanje jezika

Za pretraživanje tekstova na raznim jezicima, koji su dostupni na internetu, korisno je da znamo na kojem jeziku je napisan određen deo teksta (npr. rečenica, pasus). Tako pretraživač može lako da preskoči nerelevantne tekstove na neželjenim jezicima ili da razvrsta rezultate pretraživanja prema jeziku.

Jezički deo

Firma Lingea se već niz godina bavi razvojem jezičkih alata za više od 20 jezika. Neki jezici mogu da se prepoznaju i prema tipičnom pismu, dakle, naš alat ukupno ispravno detektuje preko 30 evropskih i azijskih jezika.

Programsko rešenje

Modul za prepoznavanje jezika radi sa odlomkom teksta od bar nekoliko reči. Razlog tome je činjenica da što je zadati tekst duži, to je veća verovatnoća ispravnog prepoznavanja jezika. Na primer, reči on time mogu se naći u engleskoj rečenici The train arrived on time, ali i u srpskoj rečenici On time podrazumeva nešto drugo. Ili npr. reč slanina postoji u istom obliku u većini slovenskih jezika, a ako ne uzmemo u obzir dijakritičke znakove (što je čest slučaj kod tekstova na internetu) javlja se i u rumunskom. Reč smetana ne samo da postoji, nego ima i isto značenje u finskom i u češkom - dva potpuno različita jezika. Međutim, ako zanemarimo ove veštački skovane primere, rečenica od 10-20 reči treba da bude sasvim dovoljna za ispravno prepoznavanje jezika.

Dostupne funkcije