Žurnál 3

V tejto fáze sa pokúšame vytvoriť klustre pre užívateľov (pomocou fuzzy c-means).
Táto časť sa vzhľadom na kvantitu dát javí ako pomerne problematická vec. Keďže sa jedná o prácu nad cca 100 000 000 hlasovaní, 500 000 užívateľov a cca 17 700 filmov. Čiže pri klustrovaní sa pohybujeme v 17 700 rozmernom priestore, čo je pomerne obrovský priestor.

Po niekoľkých pokusoch, boli vytvorené pomocné štruktúry v databáze, kvôli ľahšej manipulácii nad dátami.

Ďalším problematickým faktorom bol fakt, že hlasovania nie sú homogénne vzhľadom na filmy. Tým máme na mysli to, že hlasovanie nie je u každého užívateľa pre všetky filmy. A vzhľadom na definíciu Fuzzy-c-means, bolo potrebné upraviť dané vzťahy a to výpočet vzdialenosti ku klustru. V prípade vzdialenosti bola zvolená euklidovská metrika, a však tak, že do vzdialenosti sa zarátajú iba rozmery, ktoré sú definované nie len pre cluster ale aj pre samotný film.

Aktuálny stav uviazol vzhľadom na kvantitu dát a nevyhnutnosť optimalizácie algoritmu. Pôvodná myšlienka bola použitie pre rátanie db, ale tu bol obrovský časový overhead, preto bolo nevyhnutné preniesť (skoro) všetky operácie do RAM a pri tom neprekročiť hw limity PC (cca. 1.5GB RAM). Čo vedie k pomerne neprehľadnému a však funkčnému algoritnu. Daným postupom sa zatiaľ výkon algoritmu oproti prvým pokusom posunul asi o 3 rády, a však aj pri aktuálnom stave to bude potrebovať pár hodín, na to aby to zbehlo.

Čiže čoskoro by sa už mohli objaviť prvé rukolapné výsledky.

Unless otherwise stated, the content of this page is licensed under Creative Commons Attribution-ShareAlike 3.0 License