V tejto fáze sa pokúšame vytvoriť klustre pre užívateľov (pomocou fuzzy c-means).
Táto časť sa vzhľadom na kvantitu dát javí ako pomerne problematická vec. Keďže sa jedná o prácu nad cca 100 000 000 hlasovaní, 500 000 užívateľov a cca 17 700 filmov. Čiže pri klustrovaní sa pohybujeme v 17 700 rozmernom priestore, čo je pomerne obrovský priestor.
Po niekoľkých pokusoch, boli vytvorené pomocné štruktúry v databáze, kvôli ľahšej manipulácii nad dátami.
Ďalším problematickým faktorom bol fakt, že hlasovania nie sú homogénne vzhľadom na filmy. Tým máme na mysli to, že hlasovanie nie je u každého užívateľa pre všetky filmy. A vzhľadom na definíciu Fuzzy-c-means, bolo potrebné upraviť dané vzťahy a to výpočet vzdialenosti ku klustru. V prípade vzdialenosti bola zvolená euklidovská metrika, a však tak, že do vzdialenosti sa zarátajú iba rozmery, ktoré sú definované nie len pre cluster ale aj pre samotný film.
Aktuálny stav uviazol vzhľadom na kvantitu dát a nevyhnutnosť optimalizácie algoritmu. Pôvodná myšlienka bola použitie pre rátanie db, ale tu bol obrovský časový overhead, preto bolo nevyhnutné preniesť (skoro) všetky operácie do RAM a pri tom neprekročiť hw limity PC (cca. 1.5GB RAM). Čo vedie k pomerne neprehľadnému a však funkčnému algoritnu. Daným postupom sa zatiaľ výkon algoritmu oproti prvým pokusom posunul asi o 3 rády, a však aj pri aktuálnom stave to bude potrebovať pár hodín, na to aby to zbehlo.
Čiže čoskoro by sa už mohli objaviť prvé rukolapné výsledky.