[ Praca magisterska ]

Temat:

Akwizycja i weryfikacja wiedzy w systemach dialogu z użytkownikiem

Szkic planu:
  1. Ogólnie o zagadnieniu
  2. Akwizycja wiedzy
    1. sposoby akwizycji danych ??
    2. akwizycja wiedzy poprzez grę
      • szblony interakcji
  3. Weryfikacja wiedzy
    1. aktualizacja wiedzy przy pomocy odpowiedzi użytkownika
    2. proces generalizacji wiedzy
    3. ocena dialogów do akwizycji wiedzy ??
    4. oczyszczanie pamięci semantycznej
    5. ocena jakości pamięci ??
    6. problemy ??
      • logika rozmyta
      • dyskretyzacja
      • niejednoznaczność pojęć
  4. Implementacja
  5. Podsumowanie + pomysły na przyszłość


[ REFERATY ]

[ referat 1 ]

Informacje ogólne o NLP i Internecie semantycznym

Linki:
- http://en.wikipedia.org/wiki/Natural_language_processing
- http://en.wikipedia.org/wiki/Vocoder
- http://www.impactlab.com/2008/03/15/joseph-fabers-amazing-talking-machine-of-1845/
- http://en.wikipedia.org/wiki/Loebner_Prize
- http://en.wikipedia.org/wiki/Turing_test
- http://en.wikipedia.org/wiki/Artificial_Linguistic_Internet_Computer_Entity
- http://en.wikipedia.org/wiki/ELIZA
- http://en.wikipedia.org/wiki/Semantic_Web
- http://simile.mit.edu/wiki/Piggy_Bank
- pluginy firefoxa do internetu semantycznego

[ referat2 ]

Probabilistic context free grammar

[ PSY ]

[ Podejście z hierarchizacją cech ]




Statystyki:
- średnia: 28,553
- max: 33
- min: 7

[ Gra ]

Zaimplementowałem akwizycje danych do gry Piotra. W trakcie gry w momencie podawania cechy jaki i wartości pojawiają się podpowiedzi podobnie

Zasady akwizycji:
  • w trakcie gry w momencie podawania cechy jaki i wartości pojawiają się podpowiedzi podobnie jak to jest w przypadku google suggest w celu zwiększenia ujednolicenia wprowadzanych danych do bazy
  • po zakończeniu gry, jeżeli dana rasa została odgadnięta to na podstawie ilości pytań przyznawane są pkt poszczególnym cechą jak i ich wartością:
      • 1 - 5 pytań: 4pkt
      • 6 - 10 pytań: 3pkt
      • 11 – 15 pytań: 2pkt
      • 16 -20 pytań: 1pkt
  • jeżeli gra zakończyła się niepowodzeniem w poszczególnych cechach i wartościach zostaje odjęty 1pkt

W grze dodatkowo miałem zamiar zaimplementować spell checker'a, jednak znalazłem tylko jedną odpowiednią bibliotekę, która niestety jest płatna.


[ ARFF ]

- Pliki danych z podstawowymi cechami przygotowane pod analizę drzew decyzyjnych.
Zbiory wartości cech zostały zastąpione przez pojedyncze wartości najczęściej występujące w danych.
Dane Piotra i moje zawierają cechy: tail length, tail set, hair length, hair shape, hair softly, ears size, ears position, ears build,head
Dane Michała: ears, hair, tail, head

[ Drzewa decyzyjne ]

Po głębszej analizie drzew i danych omawianych na ostatnim seminarium okazuje się, że metoda zastępowania zbioru wartości cech przez pojedyncze wartości najczęściej występujące w danych powoduje dodatkowe błędy, gdyż niektóre cechy opisane są za pomocą wartości o przeciwstawnych znaczeniach (np. [ Cairn terrier | hair length -> long, short ], [ Artois hound | hair shape -> straight,wavy,curly ]) co może powodować przypisanie złej wartości cechy do rasy psa (np Cairn terrier). Dodatkowo wyżej wymieniony problem komplikuje proces decyzyjny, ponieważ na przykład w poddrzewach analizowane są 2 rasy z czego jedna nie ma prawa tam się znajdować.

Analizując rasę psa czasami dochodzi się do niejednoznaczności. Dla Irish terrier długość ogona opisana jest jako krótka, jednak na zdjęciu można zaobserwować, że ogon jest co najmniej średni, a w stosunku do całej postury psa (według mnie i Piotra ) bliżej mu do długiego aniżeli krótkiego. Dobrym rozwiązaniem mogłoby być zwiększenie deskryptorów opisujących poszczególne cechy.

Brak wartości dla konkretnych cech jak i błędy w wygenerowanych danych powodują, że np takie rasy jak Pyrenean mastiff, Black and tan coonhound oraz Affenpinscher trafiają do jednego "koszyka".

Przy aktualnych danych ciężko jednoznacznie stwierdzić która z cech pomogła by przy procesie decyzyjnym. Na pierwszy rzut oka wydaje się, że może być to wielkość. Jednak może się okazać, że przy uzupełnionych jak i poprawnych danych część problemów może się samoistnie rozwiązać.

Drzewa decyzyjne:



[ MDS ]


MDS dla danych przygotowanych manualnie na podstawie http://www.i-love-dogs.com


mdspoprawione.png

- bez uwzględnienia wysokości
mdspoprawionebezsize.png

- bez uwzględnienia koloru
mdspoprawionebezkoloru.png

- bez uwzględnienia wysokości i koloru
mdspoprawionebez.png