Krijimi i një bashkësie të dhënash (dataset) për testimin e algoritmeve të klasifikimit dhe grupimit të lajmeve
Temë masteri në programin e studimit Master i Shkencave në Teknologji Informacioni, F.SH.N., U.T.
Studenti: Arben Myrtaj
Abstrakt
Algoritmet e klasifikimit të lajmeve, klasifikojnë lajmet sipas temave të cilat trajtojnë (politikë, sport, biznes, kulturë, etj.), ndërsa algoritmet e grupimit të lajmeve (clustering) grupojnë lajmet që përshkruajnë të njëjtën ngjarje. Për të testuar saktësinë dhe performancën e tyre, përdoren metrika standarde të vlerësimit të sistemeve të gjetjes së informacionit si precision apo recall. Realizimi i kësaj të fundit realizohet nëpërmjet bashkësive të të dhënave (dataset) të etiketuara sipas rezultatit të pritshëm (pra lajmet që flasin për të njëjtën ngjarje janë të grupuara, gjithashtu çdo lajm është i klasifikuar sipas temës që trajton).
Detyra e kësaj teme është krijimi i një bashkësie të dhënash të etiketuara për lajmet shqip të botuara nga media të ndryshme në internet. Bashkësia duhet të jetë e ngjashme me bashkësi të tilla të krijuara për gjuhë të tjera. Për këtë temë duhet të krijohet një aplikacion që lehtëson procesin e krijimit të këtyre të dhënave si dhe të sigurohet cilësia e këtyrë të fundit.
Lorem ipsum dolor
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut elit tellus, luctus nec ullamcorper mattis.
Luctus nec ullamcorpe glavrida
Ut elit tellus, luctus nec ullamcorper mattis, pulvinar dapibus leo.
Nec ullamcorper mattis
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut elit tellus, luctus nec ullamcorper mattis, pulvinar.
Ut elit tellus luctus
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut elit tellus, luctus nec ullamcorper mattis.