Analiza teksta

Sposobnost obrade podataka i informacija je danas bitnija nego ikada pre. Bez obzira da li ste tek osnovana firma, udruženje, iskusni preduzetnik ili velika zemlja. Sve zanima npr. kako su mušterije zadovoljne proizvodom ili kako percipiraju brend, ili koje teme su osetljive za određene grupe, npr. za penzionere ili poljoprivrednike. Problematikom obrade informacija se danas bavi veliki broj alata i aplikacija sa različitim metrikama i funkcijama. U daljem tekstu ćete naći ključne komponente sa kojima ćete se sigurno sresti i u sopstvenom radu, npr. tokom ekspanzije u druge zemlje.

Vrste reči

Ova funkcija može odrediti vrstu svake reči ponaosob. Posebni alat će označiti imenice, prideve, brojeve i glagole, ili će omogućiti da iz dalje analize isključite predloge, veznike i rečce. Osim toga može da odredi i vrstu zamenica, brojeva, priloga i veznika, a u slučaju da odabrana reč može imati više značenja, ova funkcija će ponuditi sve opcije. Funkcioniše pouzdano za više od 30 podržanih jezika.

Lematizacija

Ova funkcija će odrediti osnovni oblik odabrane reči. Na raspolaganju je više modova rada, te je npr. u slučaju glagolskih imenica i prideva moguće odrediti glagol iz kog su izvedeni. Morfološki rečnici većine jezika sadrže više od 100 000 gramatičkih osnova reči, dok se baze za ostale jezike neprekidno dopunjavaju iz naših rečnika i aktuelnih korpusa. Sa specifičnostima lematizacije u različitim jezicima se možete upoznati u članku Formalna morfologija.

Morfologija

Lematizacija i određivanje vrste reči svakako nisu sve što možemo da ponudimo, a često nisu ni dovoljne za kvalitetnu analizu. Za svaku reč je takođe moguće prikazati sve gramatičke kategorije, tj. rod, broj i padež u slučaju imenica, zamenica i prideva, odnosno vreme, vid i način za glagole, uz dodatne kategorije i informacije o svakoj reči ukoliko konkretni jezik tako nalaže. Jedna od glavnih prednosti Lingea alata jesu uniformne oznake za sve jezike, kao što je isto označavanje padeža (npr. finski i estonski jezik imaju 14 padeža), vrsta zamenica ili različitih glagolskih načina u romanskim jezicima.

Segmentacija

Izvorni tekst koji je namenjen za dalju obradu (npr. automatski prevod, analizu rečenice, data mining) obično je potrebno podeliti na rečenice. Većinu slučajeva je moguće rešiti pomoću interpunkcije i velikih slova, ali situaciju često komplikuju vlastite imenice i skraćenice, npr. K. H. Borovski. U nekim jezicima (npr. kineski i japanski) takođe je potrebno podeliti samu rečenicu, jer se, za razliku od evropskih jezika, u njima ne koriste razmaci između reči. Za rešavanje ovakvih zadataka koristimo opsežne rečnike u kombinaciji sa algoritmima i različitim tehnikama heuristike.