Indeksimi i bazave të të dhënave NoSQL nëpërmjet indekseve tf-idf

Temë masteri në programin e studimit Master i Shkencave në Informatikë, F.SH.N., U.T.

Studenti: Dienis Mustafaj

Abstrakt
Indekset tf-idf janë një mjet kyç në implementimin e indekseve për sistemet e gjetjes së informacionit (information retrieval). Ato janë përdorur me sukses si indeks mbështetës në motorë kërkimi, sisteme rekomandimi, etj. Bazat e të dhënave NoSQL shmangin tabelat e gjendura tek bazat e të dhënave relacionale duke përdorur kryesisht koleksione hierarkike dokumentesh në vend të tyre. Ato përdoren gjerësisht në sistemet e informacionit që prodhojnë një fluks të madh të dhënash, duke qenë se ofrojnë një performancë të lartë për veprimet e ruajtjes së të dhënave.

Detyra e kësaj teme është implementimi i një indeksi tf-idf mbi një koleksion dokumentesh të ruajtura në një bazë të dhënash NoSQL. Konteksti i supozuar është një sistem rekomandimi. Duhen identifikuar teknologji për implementimin e indeksit në fjalë si dhe të bazës së të dhënave NoSQL. Indeksi duhet të jetë i pavarur nga baza e të dhënave që do të përdoret, duke u konsideruar si një modul i jashtëm. Duhet eksperimentuar me indeksimin e veçorive të ndryshme të dokumenteve në fjalë. Pjesë e temës është dhe matja e performancës së prototipit të zhvilluar duke simuluar kushte të ngjashme me situata reale.