Dallimi i Entiteve të Emëruara në Shqip

Temë masteri në programin e studimit Master i Shkencave në Teknologji Informacioni, F.SH.N., U.T.

Studenti: Gridi Kono

Abstrakt

Dallimi i entiteve të numëruara (named entity recognition) ka të bëjë me identifikimin e emrave të personave, shteteve, ndërmarrjeve, vendndodhjeve gjeografike (qytet, shtet, mal, etj.), etj. në një tekst. Ky proces ndihmon në ofrimin e shërbimeve të specializuara në lidhje me gjetjen e informacionit nga burime të ndryshme. Gjithashtu mundëson analizën semantike të teksteve duke nxjerrë në pah fakte të ndryshme, p.sh. “Konferenca e Transportit Ballkanik do të mbahet në Tiranë”.

Detyra e kësaj teme është eksperimentimi me mjetet ekzistuese për përpunimin e gjuhës natyrore për dallimin e entiteve në gjuhën shqipe. Teknologjitë që mund të përdoren janë Apache OpenNLP, Standford NLP, ose Python NTLK. Të trija këto teknologji kanë nevojë për modele të “trajnuara” teksti për funksionimin e dallimit të entiteve të numëruara.

Objektivat e temës përfshijnë krijimin e një modeli trajnues me të paktën 15 mijë fjali në të, si dhe testimin e tij në disa tekste të shkruara në gjuhën shqipe.