lamparski

=__//Witam na mojej stronie!//__=

Autor: **Marcin Lamparski**

Semantyczne podobienstwo stron internetowych
Analiza semantyczna stron internetowych pozwalająca na graficzną wizualizację powiązań stron, które dotyczą tych samych tematów, zarówno dla określonego projektu, jak i pokazanie grup wspólnych zainteresowań dla zadanych tematów.

Projekt został rozpoczęty wcześniej przez [|Pawła Matykiewcza] i [|tu jest parę przykładów.]

Pokrewne projekty: [|Przestrzenie semantyczne i gry słowne]

Plan:
 * Porozmawiać z Pawłem, użyć jego skryptów w Perlu i programów do wstępnego przetwarzania stron WWW;
 * w pierwszym kroku powtórzyć jego pracę z drzewami MST i Touchgraphem
 * rdzenie wyrazów - lepiej zamieniać na podstawowe formy;
 * użyć filtru do słów kluczowych, stop-lista, tylko na nich zrobić wizualizację
 * rozważyć inne formy wizualizacji, standardowe MST, program Pajak?
 * dodać wygładzanie semantyczne czyli rodziców i inne relacje z ontologii; użyć najpierw Wordnetu?
 * dodać identyfikację tematów; jedna strona zawiera wiele różnych tematów.

Efekt końcowy: powiązania strony opisującej projekt z innymi stronami, znalezionymi w Internecie.

Potencjalnie przydatne: projekty internetu semantycznego; ulepszenie systemów klasteryzujących strony internetowe, np. Carrot2, A9, Clusty, Mooter, Brainboost.

Dobre darmowe [|narzędzia do analizy tekstu] oraz [|Text-Garden Text-Mining Software Tools]

Linki do [|AI in Information Retrieval and Language Processing]

Normalizacja po długości |X| by można było zrobić MDS, co spowoduje zamianę odległosici Euklideas na miarę kosinusową.

Rainbow: kompilacja stwarza problemy? Co można z tym zrobić?

Dane pierwotne: mamy strony oficjalne i prywatne + spis publikacji. Jest teraz 6 oddziałów z EEE i 4 divisions z SCE na NTU. Dodać strony prywatne + publikacje; Google Scholar da listę publikacji, będa współuatorzy, pisma i nazwy artykułów. Zroić frazy rzeczownikowe jako kandydatów na nowe koncepcje = kolokacje par słów, lub uzyć algorytmu ADIOS? http://adios.tau.ac.il/

Użyć listy słów pojedynczych i par słów. Jak to teraz wygląda w MDS?

Spróbujmy nieco prostszy algorytm. powinno być tu więcej możliwości kontroli:

Filtrujemy tagi HTML, używamy stop-listy, odrzucamy końcówki (stemming). Obliczamy częstości słów, par słów i trójek, zostawiamy występujące mina>2 razy szukamy w Wordnecie, jeśli sens jest niejednoznaczny to pytamy który, wybieramy numer, np: 1: (n) rocket, projectile (any vehicle self-propelled by a rocket engine) 2: (n) rocket, rocket engine (a jet engine containing its own propellant and driven by reaction propulsion) 3: (n) rocket, roquette, garden rocket, rocket salad, arugula, Eruca sativa, Eruca vesicaria sativa (erect European annual often grown as a salad crop to be harvested when young and tender) 4: (n) rocket, skyrocket (propels bright light high in the sky, or used to propel a lifesaving line or harpoon) 5: (n) skyrocket, rocket (sends a firework display high into the sky)
 * Wykrywamy frazy, tj: kolokacje dwóch lub więcej słów:
 * Zatwierdzamy frazy:

B(nr strony,nr koncepcji).
 * Tagujemy Wordnet sens nr 1, fraza,
 * Pozostałe przeglądamy by zaznaczyć "named entities", czyli nazwiska, miasta, instytucje itp, które też zostają.
 * Dokument ma teraz otagowane koncepcje i nazwy; ponumerujmy je i zróbmy binarną macierz

Gotowe.

Pytamy: Q: Who is interested in rockets? Zamiana rockets=>rocket, sprawdzenie w Wordnecie: jest 5 sensów słowa rakieta. A: Określ jakimi: 1 Sprawdzamy full hyponym (synset) dla rocket-WN1, jest tam rocket, missle, Exocet itd rocket => zbior synonimów {term_i}, jesli dany term jest na liscie dla naszego zbioru dokumentów szukamy wszystkich wierszy B(nr dok,term_i)=1 Pokazujemy linki do wszystkich dokumentów.

Tu widać słabość Wordnetu bo nie ma ani cosmic rocket, missile rocket, military czy weapon itd. ale nic lepszego chyba nie ma. Może jest jakiś porządny tezaurus, który mógłby to zastąpić? Uzupełnianie Google?

Pokaż graficznie najbardziej podobne strony, czyli te, które dzialą max liczbę otagowanych koncepcji. Zmniejsz próg podobieństwa i pokaż większe grupy. Wybierz indywidualną stronę i pokaż wszystkich, którzy interesują się przynajmnej 3 koncepcjami które są na tej stronie. Pookaż wszystkich, którzy intersują się koncepcją C (to działa jak zwykłe szukanie ale semantyczne, po sensach koncepcji).
 * Odpowiadamy na następujące pytania:

Postep Postep2 Similarity

A new way to collect content and connect with people who share your interests. Use Twine to track, find, and share what interests you. Twine ties it all together by topic, so you can have it in one place.

http://www.twine.com/tour/overview

Ciekawy news o komercyjnych poczynaniach w kierunku semantycznego internetu z zestawieniem kto co ma: [|Dobre perspektywy biznesowe dla Semantycznej Sieci] Drugim publicznym analizatorem po Calais Viewer jest Semantic Miner (NLP) firmy Ontos, który ma porywnywalnie słabą baze wiedzy i wykrywa głównie named entities: [|Ontos Semantic Miner] Wiodący dostawca komercyjnej reklamy semantycznej [|Cogito]

[|praca_magisterska.pdf]- pierwsze kroki w pisaniu pracy, informacji zaledwie na 2 strony, ale w sumie 10 stron :) = =