Krijimi i një bashkësie të dhënash (dataset) për testimin e algoritmeve të klasifikimit dhe grupimit të lajmeve

Temë masteri në programin e studimit Master i Shkencave në Teknologji Informacioni, F.SH.N., U.T.

Studenti: Arben Myrtaj

Abstrakt

Algoritmet e klasifikimit të lajmeve, klasifikojnë lajmet sipas temave të cilat trajtojnë (politikë, sport, biznes, kulturë, etj.), ndërsa algoritmet e grupimit të lajmeve (clustering) grupojnë lajmet që përshkruajnë të njëjtën ngjarje. Për të testuar saktësinë dhe performancën e tyre, përdoren metrika standarde të vlerësimit të sistemeve të gjetjes së informacionit si precision apo recall. Realizimi i kësaj të fundit realizohet nëpërmjet bashkësive të të dhënave (dataset) të etiketuara sipas rezultatit të pritshëm (pra lajmet që flasin për të njëjtën ngjarje janë të grupuara, gjithashtu çdo lajm është i klasifikuar sipas temës që trajton).

Detyra e kësaj teme është krijimi i një bashkësie të dhënash të etiketuara për lajmet shqip të botuara nga media të ndryshme në internet. Bashkësia duhet të jetë e ngjashme me bashkësi të tilla të krijuara për gjuhë të tjera. Për këtë temë duhet të krijohet një aplikacion që lehtëson procesin e krijimit të këtyre të dhënave si dhe të sigurohet cilësia e këtyrë të fundit.

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut elit tellus, luctus nec ullamcorper mattis.

Ut elit tellus, luctus nec ullamcorper mattis, pulvinar dapibus leo.

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut elit tellus, luctus nec ullamcorper mattis, pulvinar.

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut elit tellus, luctus nec ullamcorper mattis.