Michał+Gawarkiewicz

=[ Praca magisterska ]=

W punkcie 4.1.2 (Wyniki) dodałem kawałki tabelek z uzyskanymi danymi, krótki opis, dwa przykłady tekstów i wskazanie skąd jakie cechy zostały otrzymane, krótkie omówienie dwóch pojawiających się tam błędów. W kolejnym akapicie dopisałem najczęściej występujące cechy. Poprawiłem ze trzy błędy stylistyczne (językowe).
 * [2010-06-24]**

[2010-06-22] Poprawki po otrzymaniu uwag od profesora Ducha

Programy, dane źródłowe (opisy tekstowe), wyniki (grafy, pliki csv, z trójkami oav, wektorami wCRK, arff do Weki), zwinięte w archiwum: [|mgr-Michal-Gawarkiewicz.zip]

[2010-06-19] Uzupełnienie wg. sugestii profesora Bały (dopisałem trochę w czwartym rozdziale)

[2010-06-10]

[2009-06-27]

Cele:

 * 1) Ogólnie o systemach wyszukiwania i gromadzenia informacji
 * 2) O ontologiach, związkach i różnicach z pamięcią semantyczną
 * 3) Ogólnie o pamięci semantycznej
 * 4) Konkretnie o różnych modelach pamięci semantycznej (gromadzeniu i wyszukiwaniu informacji):
 * Network models
 * Feature models
 * Associative models
 * Statistical models
 * 1) Nawiązanie do biologii
 * Co wiadomo o realizacji pamięci semantycznej w mózgu
 * Zaburzenia pamięci
 * 1) Implementacja (w Pythonie?), porównanie wyników i analiza efektywności wybranych modeli. Przykładowe realizacje:
 * Przygotowanie i eksport zgromadzonych danych do dalszej "obróbki" (na przykładzie psów). Szczegóły zostaną ustalone z Bartkiem Sikorskim (macierz cech binarnych?)
 * Wykorzystanie zgromadzonych danych w prostym systemie porównującym obiekty z określonej dziedziny, np.:
 * możliwość porównania ofert kilku firm świadczących tą samą usługę
 * "psy": pokaż cechy wspólne/różnice pomiędzy dwoma rasami
 * 1) Krótkie nakreślenie dalszych możliwości pracy w tym temacie
 * Wydaje mi się, że przy wykorzystaniu dobrego modelu mogłoby być możliwe stworzenie pamięci na podstawie tekstów pisanych w różnych językach
 * Więcej ciekawych pomysłów i pytań pewnie się nasunie podczas pisania pracy

[Linki]
http://research.microsoft.com/en-us/projects/mindnet/default.aspx

[20q]
http://stage.20q.net/flat/rbqanda.html http://v3.espacenet.com/publicationDetails/description;jsessionid=78E979C4FBBD377AEB8A7FFF9EF93292.espacenet_levelx_prod_2?CC=EP&NR=1710735A1&KC=A1&FT=D&date=20061011&DB=&locale=

[ Aktualności ]
http://news.stanford.edu/news/2010/february15/manning-aaas-computers-021910.html http://www.sciencedaily.com/releases/2010/03/100316235821.htm http://web.mit.edu/newsoffice/2010/ai-unification.html = = =[ Referaty z książki ]= =[ Psy ]=
 * [|Notatki] z pierwszej części książki Foundations of Statistical Natural Language Processing - Christopher D. Manning
 * [|Notatki] - rozdział 9 (Modele Markova)
 * [|Notatki] - rozdział 10 (Part-of-Speech Tagging)
 * [|Notatki] - rozdział 13 (Statistical Alignment and Machine Translation)
 * Prosta [|"zadawarka pytań"] do danych Bartka.
 * Dane z wikipedii:okazały się istotnie różne od tych z fci.be, a co za tym idzie mało przydatne do weryfikacji cech uzyskanych przez Bartka (nawet jak opisywały tę samą część psa to najczęściej mówiły o innych własnościach - np. tam gdzie u Bartka była mowa o kształcie to tu pojawiały się informacje o kolorze). Zamieszczam [|różnice], do których udało mi się na szybko dojść.
 * [|data4.csv] - cechy z pliku dane3.csv porozbijałem na cechy binarne tam gdzie występowały zbiory cech. Tam gdzie można było zostawić cechę niebinarną - zostawiałem.

[opisy z fci.be]

 * Napisałem od zera "wyciąganie" danych z opisów psów z fci.be. Starałem się możliwie jak najmniej rzeczy robić ręcznie, dzięki czemu mogło powstać rozwiązanie bardziej uniwersalne. Otrzymane rezultaty: pojawia się znacznie więcej cech opisujących rasy, jednak w wielu cechach u wielu psów brakuje danych. Drugim wyróżnikiem jest chyba lepsze radzenie sobie z zaprzeczeniami (teraz w wielu cechach pojawiły się dodatkowo negacje "not ..."). Trzecią, chyba najważniejszą cechą charakteryzującą te dane jest nieco zmienione podejście do hierarchizacji i opartym na niej uzupełnianiem cech - dotąd wszystkie psy z jednej grupy wrzucaliśmy do jednego worka, teraz spróbowałem uzupełniać cechy najpierw na poziomach sekcji. Otrzymane dane:
 * [|20091206breedsNotHierarchical.csv] - dane bez uzupełniania cech z innych ras
 * [|20091206breedsHierarchical_upTo2.csv]- dane z kopiowanymi cechami jedynie na poziomie podsekcji (mało)
 * [|20091206breedsHierarchical_upTo1.csv] - dane z kopiowanymi cechami na poziomie podsekcji i sekcji (średnio)
 * [|20091206breedsHierarchical.csv] - wartości cech były uzupełniane wszędzie, gdzie to było możliwe (dużo). W Terrierach ciągle w blisko połowie cech brakuje wartości, z drugiej strony w grupie "Pinscher and Schnauzer" sporo cech udało się uzupełnić.
 * [|20091216 groupped.csv] - cechy "zwinięte" do 10 grup

[opisy z http://www.cycfoundation.org/concepts/Dog]

 * [|cycfoundation_dog.csv] - dane z http://www.cycfoundation.org/concepts/Dog. Widać, że opisy tworzone były przy użyciu szablonów. Cechy tam wymienione nie są cechami dystynktywnymi.
 * dla każdej rasy było zawartych tylko kilka (średnio około 5) cech je opisujących

[opisy w Wordnet]

 * miałem nadzieję, że uda mi się dokonać hierarchizacji posiadanych już opisów psów wg Wordnetu.
 * tamtejszy porządek jest lepszy (bardziej szczegółowy) od tego z fci.be (gdzie rasy są hierarchizowane raczej pod względem funkcjonalnym)
 * dałoby to możliwość bardziej prawidłowego uzupełniania cech "w górę w hierarchii" (generalizowania)
 * niestety, w Wordnecie zostały ujęte tylko 29 rasy spośród naszych 323 (mieszanie hierarchi z Wordnetu i FCI wydaje się być złym pomysłem)

[nowe dane (2010-03-08)]

 * [|breedsActiveSearch.7z]
 * algorytm aktywnego wyszukiwania z pracy Juliana - poprawiony i trochę rozwinięty; ciągle generujący sporo błędów
 * poprawki literówek - inspirowane poprzez Levenshtein distance (bazujące na algorytmie Wagnera-Fishera) + wkład własny
 * wyszukiwanie antonimów (z pomocą WordNetu), automatyczne wyodrębnianie cech binarnych na podstawie antonimów
 * np. z "eyes" zostały wyodrębnione m.in. "eyes (full/empty)", "eyes (large/small)", "eyes (round/square)"
 * dzięki temu liczba cech jednostkowych została podwojona
 * może się do przydać dalej przy drzewach decyzyjnych
 * na wiki zamieściłem dane z wyszczególnionymi tak cechami, oraz bez tego (czyli w standardowej formie); zamieściłem także pliki *.oav - w formacie object;attribute;value. Jest w nich to samo co w plikach *.csv.
 * w danych jest sporo błędów i niedoskonałości - nie poddawałem ich dalszej ręcznej obróbce


 * [|20100308-wyniki.7z]
 * sprawdziłem co Weka powie o tych nowo wygenerowanych danych. Zostawiłem tylko cechy oparte o antonimy (tzn. wywaliłem z danych blisko połowę cech). Dla takich danych Correctly Classified wyniosło 86%, jednak Recall w wielu rasach wciąż jest zerowy (Rottweiler np. w 9 cechach miał po 2 dopuszczalne wartości, stąd wystąpił w pliku arff aż 512 razy).
 * Wygenerowałem też deskryptory dla 29 ras występujących jednocześnie w WordNecie (z dziedziczeniem cech z psów wyżej w hierarchii wordnetowej) i opisach FCI (łącząc cechy z obu źródeł), postępując dalej tak jak wyżej.
 * Correctly Classified: 90%, jednak w blisko połowie ras recall jest zerowy
 * Te same dane poddane pobieżnemu ręcznemu oczyszczeniu (usunięcie cech niezrozumiałych, nieodnoszących się do wyglądu):
 * Correctly Classified: 78%, recall zerowy w (na oko) 60% ras
 * [|psy.ods] ręcznie zrobione przez nas opisy psów na podstawie zdjęć i opisów na www.dogsindepth.com


 * Korpus z opisów psów: [|corpus.7z]


 * [|20100502 graphs.7z] - Model pamięci semantycznej w postaci grafu dla trzech pojęć (dog, cat, chair; dla psa są 2 pliki - w jednym są ujęte wszystkie psy, w drugim tylko te na których ostatnio się skupiliśmy). Relacje typu "hypernym" wzięte są z WordNetu; "have" oraz "is" osiągnięto dzięki algorytmowi aktywnego szukania, z opisów tekstowych będących definicjami pojęć w WordNecie (tzn. są to skromne, 2-zdaniowe opisy).