Piotr+Łuczak

Formalny tytuł (może ulec zmianie): Wizualizacja grup zainteresowań. Piotr Łuczak, 199569@fizyka.umk.pl

Popatrzeć na stronę Marcina Lamparskiego oraz na stronę [|Pawła Matykiewicza] z [|podobieństwami stron WWW].

Plan pracy:


 * Filtr H: html=>tekst, by odrzucić wszystkie znaczniki.
 * Utworzyć posortowaną listę pojęć pojawiających się w dokumentach Wikipedii powiązanych z daną dziedziną; np. "electrical engineering"; utworzyć listę pojęć - słów i kolokacji, np. power engineering, power systems, itd, to są w większości pojęcia, które mają swoje strony Wikipedii i linki do nich.
 * Zamiast algorytmów tworzenia rdzeni zostawić najczęstszą formę wyrazu.
 * Filtr P: Z listy usnąć wyrazy potoczne, np. profesional, telephone itd, dodając je do stop-listy. Powstanie lista referencyjna R.
 * Fitr R: Na analizowanej stronie S: utworzyć posortowaną listę pojęć, zostawić tylko te, które są na liście referencyjnej, zapisać wynik w postaci wektora częstości pojęć V(S); obejrzeć co zostało.
 * Obliczyć miarę podobieństwa stron Dij=D(Si,Sj)= cos(V(Si),V(Sj))=V(Si)*V(Sj)/|V(Si)|*|V(Sj)|
 * Zrobić wizualizację za pomocą Touchgraph pokazując powiązania powyżej progu zdefiniowanego przez użytkownika, np. Dij>0.2, im większe Dij tym bliżej.

W dalszym etapie dodamy synonimy do pojęć referencyjnych, rozszerzając pierwotną reprezentację, pozostała część pozostanie bez zmian.

W kolejnym etapie spróbujemy wyróżnić podtematy, czyli spójne podzbiory pojęć w S, takie które np. pojawiają się na jednej stronie Wiki, i zaproponować oceny podobieństwa dla poszczególnych tematów. Wtedy filtrowanie będzie dla różnych list referencyjnych (Filtry Ri), dla każdego tematu oddzielnych, reszta algorytmu bez zmian.