similarity

Zgodnie z praca //"Computing Semantic Similarity Using Ontologies"// implmentuje miare podobienstwa "poszerzania grafu". W naszym wypadku uzywam Wikipedii gdzie koncepcje wystepujace na stronach to artykuly. Kategorie uzywane sa do poszerzania (relacji pomiedzy artykulami). We wspomnianej pracy proponowane sa 3 kryteria stopu poszerzania grafu dla 2 dokumentów:
 * [Graph spreading]**

1) zadana ilosc iteracji. 2) kiedy istnieje droga z kazdej koncepcji dokumentu o mniejszej ilosc koncepcji do dowolnej koncepcji dokumentu drugiego (metoda dobra gdy nie ma wspolnych kategorii np. Wikipedia, w Wordnecie sa). [|small.png] W tym przykladzie (2 dokumenty z division of circuits) widac ze wszystkie koncepcje z jednego dokumentu mozna polaczyc z koncepcja "optics" w drugim dokumencie. Nie sa to jednak najkrotsze drogi pomiedzy koncepcjami. 3) az do wyczerpania relacji (brak rodzicow w kategoriach). [|full.png] Troche tego duzo ale jak sie przyjrzec wyglada to dosyc sensownie. Pozniej bede szukal najkrotszych drog miedzy koncepcjami. Minus - troche wolno to sie wszystko liczy.

Ok, udalo mi sie zaimplementowac podobienstwo. Tak wyglada graf podobienstwa zredukowany za pomoca Wegierskiego algorytmu optymalizacyjnego dla 2 dokumentów. [|matched_hungarian.gif]

Pracuje intesywnie nad programem, ktory pozwoli mi porownac rozne miary podobienstwa, metody grupowania oraz odpytywanie o zainteresowania i ich wizualizacje. Najwiekszy problem, albo raczej najwiecej czasu zabiera mi implementacja wszystkich algorytmow potrzebnych do przeprowadzenia badan do ostatniego rozdzialu. Jest to nieuniknione gdyz ciezko zrobic badania i porownac wyniki na roznych pakietach dm. Tutaj screen z programu z edytorem relacji (grafu) w akcji. [|screen.png]
 * [Program]**

- poczatkowym zalozeniem bylo ze w programie bedzie mozna odznaczac koncepcje juz po wizualizacji, a zmiany na biezaco wplywac beda na wyglad. Nie jest to mozliwe do zrealizowania gdyz zadna z testowanych przezemnie metod nie daje wynikow w krotkim czasie i nie jest to wina mojej wizualizacji. Dane oczywiscie mozna sobie wyedytowac odzielnie i ponownie przeprowadzic dzialanie. - juz na seminarium doszlismy do konkluzji ze standardowe oceny wynikow w klasteryzacji (np. cluster purity itp.) nie sa dobre, gdyz dziedziny (divisions) sie o siebie zazebiaja. **W takim razie co dobrym testem porownawczym?** Czy zrobic ankiete i zapytac ludzi o ocene podobienstwa miedzy zbiorami koncepcji (dokumentami) w skali 0-100? Tak bylo we wspomnianej pracy.
 * [Komentarze]**

[|Finding Experts By Semantic Matching of User Profiles.pdf]**
 * [Publikacja i pytania]

- Miary podobienstwa sa niejasne. Na stronie 8 powiedziane jest, ze zbior krawedzi E' to podbior wszyskich krawedzi E pomiedzy koncepcjami w 2 dokumentach okrojony za pomoca algorytmu wegierskiego. W takim razie jesli pomiedzy dwiema koncepcjami istnieje maksymalnie jedna sciezka po optymalizacji to dlaczego w liczniku miar podobienstwa moga byc sumy po sciezkach?

- Czy kryterium stopu jest prawidlowe jesli sciezka z koncepcji k1 z dokument d1 prowadzi do koncepcji k2 z dokumentu d2 przez inna koncepcje k3 z dokumentu d1 lub d2?

- Algorytm wegierski. Co autor rozumie przez stwierdzenie ze suma na stronie 8 jest optymalna? Czy znaczy to, ze szukamy za pomoca algorytmu wegierskiego najkrotszych sciezek czy najdluzszych?

Wyslalem e-mail z prosba o program i dane.