MI009

Nowości:

Gry opracowane na seminarium:
 * podobieństwo
 * pytania

[], kilka polski botów.

[] Warto się przyjrzeć filozofii Freebase [] Freebase users have created [|bases about all kinds of things]. Have a look around and join in or [|start your own.] Wiecej niz wizualizacja … []

[|ESP Game], or human computing, labeling images | [|Louis van Ahn] prace na temat human computing.

[|Google image labeler]

[|Factory CyC trivia game]

[|Gra w 20 pytań] [|Informacja o tym, że 20q to sieć neuronowa - od autora.] [|Patent algorytmu do 20q.]

[|Bixo - narzędzia do analizy tekstów] w sieci.

[|Fido żyje!]

[|Connextions] i inne takie serwisy: konieczne będzie uporządkowanie ontologiczne i semantyczne treści.

Search Engines: Microsoft Kumo in May? Yahoo [|SearchMonkey] and Yahoo [|Boss] personalized search.

[|Hakia semantic search]

[|TextRunner] searches hundreds of millions of assertions extracted from 500 million high-quality Web pages:

[|Semantic Atlas], English/French

System [|IBM Watson Q/A] zamierza grać w jeopardy.

The [|Elsevier Grand Challenge]: Knowledge Enhancement in the Life Sciences is a contest created to improve the way scientific information is communicated and used.

[|Wolfram Alpha] już w maju!

[|google-web-plusbox] [|Recommender systems] S. Edelman, ConText, ADIOS, [|Boosting Unsupervised Grammar Induction] by Splitting Complex Sentences on Function Words. Hecht-Nielsen Confabulation, algorytm do n-gramów.

[|Museum of Speech Analysis and Synthesis].

Google zrobil duze postepy: uzywa dopelnien i klasteryzacji

Pluginy do annotacji semantycznej: [|ClearForest Gnosis] i [|Piggy Bank] David Huynh, Stefano Mazzocchi, and David Karger. [|Piggy Bank]: Experience the Semantic Web Inside Your Web Browser. International Semantic Web Conference (ISWC) 2005. [|Layerd graph ranking], Semantha page.

[|Habbo - wirtulny świat].

ALICE pozwala teraz na pamiętanie skojarzeń: Sun is hot and yellow. What is hot and yellow?

[|Meaningful] Synonym and Association Generation (used in MT and Search/Text Mining)

[|Szuka uzycia slowka brain wszedzie w Wordnecie] [|How is screen related to virus] ? [|XTractor], world's first 'freely' accessible Web2.0 platform for manually mined scientific data

MS Chief Research and Strategy officer Craig Mundie [|demonstrated a software-based robot] that uses a combination of visual and voice recognition as well as speech synthesis to handle basic tasks. Microsoft itself plans to use the software robot to handle shuttle requests in its own buildings, which typically have a pair of receptionists to handle visitors and shuttle requests.

[|Morfessor]: a method that learns to split words into morphemelike units called morphs based on plain text and general learning principles (MDL or MAP learning). See a demo at

[|WordICA]: a method that creates feature vectors for words based on unsupervised learning. Work on statistical machine translation, both within language and across languages (see our experimental translation demo at http://cog.hut.fi/smtdemo )

Have you recently written a paper, but you're not sure to which journal you should submit it? Or are you an editor, and do you need to find reviewers for a particular paper? [|Jane by Biosemantics] can help!

[|Knewco] is the first company to combine the emerging phenomenon of Community Annotation with a system that enables on-line Knowledge Tracking and Discovery.

[|Within the Concept Web] [|Semantifind] [|The Semantic Indexing Project], NITLE, Middlebury College.

[|ORGANIC]: Self-Organized Recurrent Neural Learning for Language Processing

Inguaris - boty i gry erotyczne ... [|Modelka] mimo, że jest tylko wirtualną kochanką, dzięki zastosowaniu sztucznej inteligencji uwiarygadnia się, staje się bardziej atrakcyjna.

[|Dżin zgaduje o jakiej osobie myślimy].

[|Magpie], the semantic filter, free program, uses ontology infrastructure to semantically markup web documents on-the-fly.

=== Materiały:

1. Strony Wiki, pod mi007.wikispaces.com, jedna ogólna + strony dla każdego + moje strony [|AI in Information Retrieval and Language Processing]

2. Przegląd haseł w Wikipedia, wersja polska i ang.

hasła: semantic web, NLP nat lan proc,WSD, Statistical NLP, odnosniki tam się znajdujące, przekrój dziedziny.

3. Referowanie rozdziałów z książek, później artykuły. Manning 2 książki, Foundation of Statistical Lang. Processing (1999); Info retrival (draft, 2008). Materiały do referowania: pod moją stroną w /tmp

4. Narzedzia do analizy tekstów.

Lista odnośników: [|AI in Information Retrieval and Language Processing] [|NLP Tools] [|Text Processing, retrieval, clusterization, classification]

5. Projekty

[|Computational creativity] [|Neurocognitive approach to language] [|Przestrzenie semantyczne i gry słowne] [|Zhumanizowane Interfejsy] [|Medical information retrieval]

Inne projekty: [|www.a-i.com] Podejścia kolaboracyjne: gry sieciowe.

6. Analiza tekstów i semantyczny Internet - możliwe tematy.

Tematy dotyczące analizy informacji tekstowych, realizowane w ramach projektów: DigiScience EU (złożony w maju 2007, ale nie zatwierdzony), neuroinformatyki z Brain Science Institute, Riken (Tokio), analizy tekstów medycznych (Cincinnati, OH), grantu UE, który złożymy w marcu 2009, grantu zamawianego w ramach "Innowacyjnej Gospodarki" (z pieniędzy unijnych).

Interesuje nas zwłaszcza podejście nerokognitywne do analizy języka.

Projekt Marcina Lamparskiego był już zaawansowany ale od pół roku nic się w nim nie zmieniło ...


 * Gra w 20 pytań jako podstawa do wielu zastosowań.

Trudno jest nam opisać obiekty na tyle jednoznacznie by trafić na te same słowa kluczowe, na które zareaguje druga osoba lub program. Dlatego lepiej jest zadawać serię pytań, minimalną liczbę konieczną do precyzyjnego ustalenia infromacji. Np. w systemie pomocy na temat sieci komputerowej na końcu stoi człowiek, kóry musi zwykle wymienić sporo listów by dokładnie się dopytać o co użytkownikowi chodzi. Jeśli ma problemy z pisaniem w jakimś katalogu, to jak się podłacza do niego? Podsumowanie informacji tak, by sprawa stała się jednoznaczna, wymaga:

1. Listy problemów (pojęć). 2. Cech, które dają się zastosować do problemu. 3. Pytań na temat tych cech, które dają w danym momencie (tzn po uzyskaniu odpowiedzi na poprzednie pytania) najwięcej informacji. 4. Po uzyskaniu wszystkich odpowiedzi podsumownaie wysyłane jest do administratora.

Inne zastosowanie: widzimy roślinę i usiłujemy określić, jak się nazywa. Można zacząć od rozróżnienia drzew, jako programu wspomagającego naukę botaniki.


 * Szukanie semantyczne informacji w bazach tekstowych.

Data mining, czyli drążenie danych lub dogłębna analiza baz danych, jest obecnie bardzo modnym terminem. Wiąże się ono również z inteligentnymi metodami wyszukiwania informacji w dużych, tekstowych bazach danych i metodami szukania semantycznego, a więc uchwytującego sens, a nie tylko słowa kluczowe, zawarte w pytaniach. Reprezentacja symboli jako wektorów w wielowymiarowych przestrzeniach pozwala na uchwycenie sensu tych symboli w postaci konfiguracji i odległości wektorów między sobą. Pozwala to na rozstrzygnięcie niejednoznaczności sensu symboli ([|word-sense disambiguation]).

Należy porównać różne metody zamiany informacji symbolicznej na wektorową (np. dobieranie odległości do probabilistycznych miar odległości), włączając w to niesymetryczne miary podobieństwa. Miary podobieństwa powinny być zależne od pytań i kontekstu. Jest wiele efektów, badanych przez lingwistów, można też porównać metody hierarchicznej klasyfikacji oparte na sieciach samoorganizujących się (SOM), które ostatnio zastosowano do analizy informacji z grup dyskusyjnych w internecie. Bardzo ważną rzeczą jest "semantyczne wygładzanie" przez dodawanie nowych pojęć nadrzędnych z ontologii, synonimów i innych pojęć, które odpowiadają aktywacji pól semantycznych.

Temat zazębia się z uczeniem maszynowym,szczególnie z metodami kernelowymi.


 * Porównanie sposobów reprezentacji informacji o pojęciach.

Informacja symboliczna, np. pojęcia opisane w Wordnecie, jest niezbędna ale nie pomaga w automatycznym tworzeniu skojarzeń. Pozwalają na to reprezentacje wektorowe, tworzone w oparciu o statystyczną analizę kontekstu, metod spektralnych typu LSA, lub wykorzystując słowniki, encyklopedie (Wikipedię) i inne źródła infromacji strukturalnych. Który sposób jest najlepszy? Jak określić współczynniki wektorów by nie utracić informacji o podobieństwie pojęć a jednocześnie zapewnić rozróżnialność pojęć podobnych do siebie?

Istnieje potencjalna reprezentacja pojęć i reprezentacja aktualna, zależna od kontekstu. Sieci neuronowe trudno przeskalować do realnych problemów analizy języka, jak zrobić rep. wektorowe? LSA lokalnie dla danej kategorii tesktów może być rozwiązaniem.


 * Wykorzystanie informacji a priori do kategoryzacji tekstów.

Kategoryzacja tekstów wymaga wstępnej wiedzy o dziedzinie, z której te teksty pochodzą. Informacja zawarta w podręcznikach, np. opisujących jakieś choroby, biologiczne organizmy, lub jakiś kraj, jest bardzo bogata i w typowym tekście znajdziemy tylko mały podzbiór wszystkich pojęć, jakie stanowią szersze tło. Reprezentacja wiedzy w postaci prototypowych wektorów nie może uzywać naiwnych miar podobieństw, ale z takich wektorów da się odczytać informację za pomocą logiki progowej dla określonych typów pojęć, np. odnoszących się do bakterii w tekstach biomedycznych. Należy dokonać kategoryzacji zbioru tekstów biomedycznych korzystając z wiedzy a priori i odpowiednich funkcji podobieństw.


 * Klasteryzacja (biclustering) i wizualizacja informacji.

Wyróżnienie poszczególnych tematów (topics) w tekście, klasteryzacja/wizualizacja podobieństwa semantycznego stron internetowych w rozbiciu na poszczególne tematy, szukanie grup wspólnych zainteresowań (social networks), wizualizacja całych grup i związków pomiędzy indywidualnymi osobami.

http://www.is.umk.pl/projects/mir.html http://www.fizyka.umk.pl/publications/kmk/05-Connect.html http://www.fizyka.umk.pl/ftp/incoming/duch/Wizualizacja/ http://www.fizyka.umk.pl/ftp/incoming/duch/Teksty/

Wisual Wordent http://wordventure.eti.pg.gda.pl/ Wisal Wiki http://semanticspaces.eti.pg.gda.pl:8888/wikiparser/


 * Automatyczne tworzenie bibliografii do projektów.

Blisko związane z poprzednim tematem, wymaga analizy tekstu, rozbicia na tematy, analizy abstraktów prac przechowywanych w określonych repozytoriach przy wykorzystaniu ontologii domenowej. Szczególnie interesują nas ontologie do neuronauk, gdyż mamy już krajowy węzeł neuroinformatyczny.

Ogólne prace o tekstach są tu: http://www.fizyka.umk.pl/ftp/incoming/duch/Teksty/


 * Dodawanie słów kluczowych i wizualizacja dokumentów.

Porzadkowanie dużych zbiorów artykułów lub książek stanowi duży problem. Jednym z rozwiązań jest dodawanie plików-komentarzy do właściwych plików i katalogów, zawierających słowa kluczowe, ręcznie wpisane lub automatycznie generowane na podstawie abstraktów książek lub artykułów. Lokalny system wyszukiwawczy powinen wtedy pokazać dynamicznie wszystkie obiekty, które mają wybrane słowa kluczowe. Podobna technologia stosowana jest w systemach "desktop search", np. Google desktop, ale nie wykorzystuje fraz specyficznych dla danej dziedziny. Wirtualny katalog powinien pokazywać te obiekty, które chcemy, np. osobno artykuły filozoficzne na temat świadomości i artykuły neuronaukowe na temat świadomości, a nie wszystkie jednocześnie. Dodatkowo system powinien być odporny na literówki i przekręcenia kolejności wyrazów.


 * Identyfikacji informacji o osobach (lub ogólniej "named entity") w sieci.

Poszukiwanie informacji o osobach, np. autorach jakiejś pracy, może być trudne, zwłaszcza jeśli mają popularne nazwiska. Można jednak próbować filtrować dokumenty coraz dokładniej zadając dodatkowe pytania i konstruując lepsze kwerendy, których użytkownicy nie potrafią sami napisać. Praca wymaga stworzenia programu, który będzie pomagał zebrać maksymalnie dużo informacji o danej osobie, zwłaszcza o autorach prac naukowych. Jest to bardzo ważne zagadnienie praktyczne i wymaga opanowania technologii internetowych.


 * Narzędzia do prostej anotacji semantycznej.

Internet jest nadal zbiorem połaczonych stron a nie połączonych obiektów; nie mamy sieci semantycznej. Proste narzędzia do tworzenia annotacji dla nazw własnych (nazwisk, nazw instytucji, produktów czy miejsc) mogą znacznie ułatwić proces szukania. W ostatnich latach było sporo takich projektów i pojawiła się idea GGG, Giant Global Graph, łączącego wszystkie obiekty. Pełna automatyzacja jest trudna ale częściowa, wymagająca potwierdzenia przez użytkownika, wystarczy do tego, by połaczyć ze sobą strony zawierające specyficzne obiekty. Rob McCool, Rethinking Internet.


 * Pamięci semantyczne jako podstawa do sterowania chatterbotem.

Chatterboty nie mają żadnej reprezentacji pojęć, posługując się najczęsciej szablonami. Pamięć semantyczna pozwala im zadawać inteligentne pytania podtrzymując sensowny dialog. Szukanie informacji przez dodawanie pytań w celu lepszego sprecyzowania tematu; rozwoj systemu dialogu z awatarem, gry słowne.

Notatki do projektu Przestrzenie semantyczne i gry słowne i do projektu HIT, Zhumanizowane Interfejsy. Nasza praca o awatarach Przykład bota na stronach internetowych (Julian Szymański)


 * Organizacja informacji w sieci

Neuroinformatyka i inne dziedzny, w których usiłuje się zintegrować heterogenicznych bazach danych, przede wszystkim opisów tekstów.

[|International Neuroinformatics Coordiantion Facility]. [|Neuroinformatyka.pl] [|Neuroinformatyka, portal Polski]


 * Szukanie i automatyczna naprawa martwych linków.

Znacza część powiązań między stronami WWW zmienia adresy lub całkiem znika; czasami strony są tylko przesunięte lecz nadal istnieją. Praca wymaga stworzenia programu, który będzie znajdywał brakujące strony i dodawał nowe linki lub zamieniał istniejace linki na linki wywołujące szukarki z odpowiednimi słowami kluczowymi tak, by żadane strony pojawiły się jako pierwsze i by można było automatycznie do nich przejść. Jest to bardzo ważne zagadnienie praktyczne i wymaga opanowania technologii internetowych.

5.03 - książka p. Gawarkiewicz; linki p. Sikorski. [|Notatki] z pierwszej części książki Foundations of Statistical Natural Language Processing - Christopher D. Manning (Michał Gawarkiewicz)

Opisz psa tak by dalo się jak najszybciej zgadnąć. Człowiek zwraca uwagę na charakterystyczne cechy, a gra 20Q na ogólne. Lepiej od razu zapytać o konkretne cechy wyrózniające? Zawody ludzie-program. Czy własny opis pozwoli na szybszą identyfikację niż zadawanie pytań? Gra: człowiek opowiada, a drugi zgaduje; potem maszyna wybiera tą rasę i generuje pytania na nie opowiadając: kiedy szybciej człowiek zgadnie? Czy sposób opowiadania przez maszynę jest równie efektywny co opowiadania przez ludzi?

Problem ogólny: klasy opisów werbalnych i obrazy im odpowiadające.

Składanie z elementów obrazu psa. Pamiętanie obiektów w pamięciach asocjacyjncyh, które dzielą wiele cech wymaga zwracania uwagi na cechy odróżniające.

Inverse base effect PC + PR + I dla psów? Na zdjęciach? Cech I nie da się wyeliminować?