niedziela, 26 lutego 2012

IUI (wykład 3)

 
 

26 lutego 2012

13:17

 
 

J S.

 
 

Historia i Definicja inteligencji

  • Zdolność do rozwiązywania testów psychologicznych (Edwin Boring, 1923);
  • Powstały liczne testy sprawdzające zdolnośći intelektualne i nadające mu pewną rangę (liczbę) - np. test Wechslera (1939);
  • Pojęcie sztucznej inteligencji w procesie inżynierskim zaproponował John McCarthy (1956) :
    • Celem jest algorytmizacja działań mogących uchodzić za inteligentne.
  • Inteligencja obliczeniowa - proces efektywnego przekształcania informacji związany w pewsnym stopniu z wiedzą (o języku)
  • Sztuczna AI - modelowanie umysłu człowieka (podejście wizjonerskie)
  • Roger Penrose zaproponował 4 podejścia do definiowania sz. i. (z czego tylko 2 pierwsze podejścia a nawet pierwsze tylko zapewnia powodzenie )

     
     

  • Turing - test,
    • rezultatem tego testu jest konkurs chaterbotów - komisja przeprowadza dialog z botami (osoba nie wie czy rozmawia z człowiekiem czy programem - ma to ocenić );
    • Dialog polega na zadawaniu pytań z dziedziny ogólnej (poznanie świata)
    • Pytanie:
      • Czy boty oszukują ludzi ?
      • Czy zbliżają się do pułapu gdzie granica między botami a ludźmi zaczyna się zacierać?

         
         

         
         

  • Chiński pokój
    • Mamy zbiór reguł jak odpowiadać na znaczki otrzymane na kartce po chińsku;
    • Siedzimy w pokoju zamkniętym
    • Otrzymujemy instrukcje na kartce w języku chińskim
    • Mamy zareagować na dane instrukcje w języku nie znanym na podstawie słownika reguł odpowiedzi
      • Pytanie czy to jest inteligencja (czy jest to jej wyraz)??

         
         

         
         

  • Kreatywność
    • Budujemy algorytmy działające w sposób kreatywny;
    • Wychodzimy od etymologii słowa - "twórczy"
    • Kreatywność to zdolność użycia naszy ch zasobów obliczeniowych do tego aby eksplorować je i wytwarzać nowe wartości które dotychczas nie były w nich zapisane
    • Typy kreatywności:
      • h-creativity - coś co jeszcze nie było znane ludzkości
      • P- creativity - coś co nie jest dla nas znane ale znane było innym
      • E-creativity - tworzymy zbiór elementów nieznanych nam - to co wydaje się nam ciekawe przyjmujemy za kreatywne
      • T-creativity

         
         

  • Przykłady działań kreatywnego działania algorytmów w informatyce w przeszłości:
    • Pokonanie arcymistrza szachowego przez program
      • Kreatywność w programach tego typu, jest w węzłach drzewa decyzyjnego;
      • Program Deep Blue 2 vs Garry Kasparov
    • EMI - inteligencja muzyczna
      • Twórcy poddawali utwory danego twórcy algorytmom typu data-mine [??data mind??]
      • Tworzenie nowych utworów na podstawie wzorców otrzymanych z procesu data-mine
    • Komputer działa na podstawie wzorców - to człowiek na końcu ocenia czy wynik prac jest coś wart

       
       

  • Kreatywność - przykłady
    • Technika PRIME
      • Aktywacja danych węzłów - sposób pobudzenia odpowiednich węzłów w grafie decyzji;
      • Sprawdzanie skojarzeń dwóch słów - czy w mózgu danej osoby jest ścieżka łącząca dane pojęcia
      • Przykład generatora tekstów piosenek Stinga

       
       

       
       

      Ostatnia modyfikacja: 2012-02-26; 14:16

      • Aplikacje generujące teksty piosenek
      • Generator przemówień PRL

         
         

    • Generacja tekstów na podstawie łańcuchów Markova
      • Oparte na metodach probabilistycznych
      • Ciąg elementów w którym wystąpienie elementu jest uzależnione od swych poprzedników
        • Łańcuch pierwszego rzędu - element ma tylko jednego poprzednika
        • ł. Wyższych rzędów - więcej poprzedników;

           
           

      • Metoda szybka
      • Proste budowanie słownika
      • Przykład spaceru z psem
        • Tworzymy mapę słów z zaznaczeniem poprzednika i następnika
        • Liczymy wystąpienie poszczególnych kombinacji
        • Słabo z sensownością powstałych zdań dla łańcucha pierwszego rzędu- mogą wystąpić nielogiczne zdania
        • Zwiększając rzędowość łańcucha do II rzędu otrzymujemy już sensowne wyrażenia

           
           

      • Operując stopniem łańcucha zwiększamy logiczność zdań ale zmniejszamy liczbę kombinacji
      • Aby zachować dużą losowość możemy wprowadzać ocenianie logiki wyrażeń

         
         

         
         

    • Generacja poezji (poezja kombinatoryczna)
      • Zastosowanie metodyk POS
        • POS - możliwość automatycznego znacznikowania części mowy za pomocą określonych reguł gramatycznych (specyficzne szablony)
        • Na kombinatorykę słów (tworzenie neologizmów) nakładamy warstwę logiki słownika gramatycznego (metoda POS opisana powyżej) i dodatkowych reguł - np.. Koniec ma być rymowany;

           
           

    • Zmiana słów bez zmiany logiki:
      • Zamiana liczb występujących w tekście na liczby
        • Przemnażamy przez daną wartość i otrzymujemy inne wartości
      • W wyniku otrzymujemy tą samą logikę ze zmianą wartości posiadania opisywanych przedmiotów i ludzi
      • Możemy zamienić obiekty w zdaniu - otrzymujemy zdanie nieco innym sensie ale zachowanej poprawności logicznej
        • Taka metodyka wykorzystywana przy pozycjonowaniu stron w wyszukiwarkach internetowych;
        • Wspomaganie generowania tekstów -
        • wspomaganie szybkości pisania - dokańczanie zdań w trakcie pisania
          • Na ETI robią wtyczki do WORD'a
        • Automatycznie generowanie mail'a (spam);

           
           

       
       

       
       

  • Klasyfikacja tekstów
    • Przetwarzanie języka naturalnego
      • NLG (natural language generation)
      • NLP (natural Language processing)
      • NLU (n. l. Understanding)
      • Słownik wordnet (wspierany przez Google)

         
         

      • Co robimy z tekstem do przetworzenia?
        • Wykorzystujemy metodę POS - part of speech(oznaczamy jaką częścią mowy słowo jest)
        • Wyłapywanie tokenów - trzeba uważać aby nie działały zbyt naiwnie (szczególnie jeśli chodzi o frazy złożone - nazwy własne z białymi znakami);
        • Lematyzacja
        • Stop words - wyznaczanie słów zatrzymujących działanie algorytmu
        • Wyznaczanie znaków interpunkcyjnych i specjalnych;
        • Tworzenie słowników (wordnet, tezaurus)
          • Np.. Dostarczają synonimów

       
       

       
       

      Ostatnia modyfikacja: 2012-02-26; 15:14

  • NLP Tools
  • Historia
  • Reprezentacja dokumentów
    • Przetworzenie dokumentu
    • Wyciagnięcie danych typowych, cechy charakterystyczne tekstu
    • (…)

       
       

      METODY EKSTRACJI cech z dokumentu (trzy metody)

    • ?kompresja?
    • ?wyszukiwanie?

       
       

       
       

      Algorytm kompresji

    • "Elementy językowe spakowane osobno zajmują więcej miejsca niż spakowane razem"
    • Wymaga wykonania permutacji porównanai podobieństwa każdego dokumentu z każdym

       
       

      Wyszukiwanie Boolowskie i odległościowe

    • Boolowskie BM:
      • Budowa odwróconego indeksu
        • Struktura pozwalająca wyszukiwać w czasie jednostkowym dane słowa
        • Wykorzystywane w podpowiadaniu słów wprowadzanych w przeglądarce internetowej
        • Dla listy wszystkich słów występujących w korpusie słownym (strony www) podaje wagę binarną (0 - słowo nie występuje, 1 - słowo jest); wyznacza się i przypisuje indeksy słowom - na tej podstawie możliwe jest szybkie wyszukanie słów przez przeglądarkę
        • Prawo heap'a - w miarę dodawania słów do słownika liczba tokenów będzie się zmniejszać

           
           

      • Prawo Zipfa
        • Jak stworzymy sobie listę słów to otrzymamy rozkład w mia (….) (ble ble ble)
        • -> słabo opisane

         
         

         
         

    • Wyszukiwanie oparte na dystansach (odległościowe) VSM
      • Vector space model
      • Liczymy odległosći prawdopodobne dla naszych wyrażeń
      • Metoda BOW - bag of words - worek gdzie informacja o kolejności wyrażeń jest zatracana
        • Tworzymy słownik słów
          • Słownik tworzy nam wymiary w przestrzeni , w której dokumenty są odwzorowane jako punkt;
          • Dodajemy wagi dla przestrzeni określające czestotliwość wystąpienia elementu

             
             

      • Możemy stworzyć specyficzny ranking wyrażeń (w rzeciwieństwie do metody boolean)
      • Redukcja wymiarowości (dwa sposoby)-
        • poprzez selekcję cech charakterystycznych na podstawie ważenia
          • Wykonuje się ją za pomocą dwóch miar:
            • Miara częstości wystąpień terminu
            • Miara użyteczności -jak zadane słowo jest istotne do zcharakteryzowania zadanego tekstu w kontekście całego repozytorium zdań
              • Term -słowo przeprocesowane
              • Słowo -element pochodzący ze zdania

                 
                 

            • Wejście dla tych metod powyżej
              • liczba obiektów
              • Liczba cech i wagi

                 
                 

            • Na tej podstawie można sklasyfikować elementy

               
               

        • Oparte na podstawie algebry (o tym nie będziemy mówić - zbyt zaawansowane)

           
           

      • Miary wykorzystywane do obliczeń odległości między wymiarami:
        • Miara euklidesowa
        • Miara minkowskiego
        • Miara Cosinusowa
        • Miara mahalanobisa
        • Miara Czybyszewa

           
           

           
           

    • Porównanie VSM i BM

       
       

      Nie mówimy o modelu HAL (pomija to )

       
       

       
       

       
       

      Ostatnia modyfikacja: 2012-02-26; 16:15

       
       

      Klasyfikatory

    • K-NN (k- nearest neighbours)
      • obliczanie odległości do k- najbliższych sąsiadów
      • Problemem jest poprawne dobranie parametru k
      • Znać idee klasyfikatora i potrafić obliczyć odległości [E]

         
         

    • Metoda rankingowa
      • Obliczenie przynależności na podstawie sumy różnic wystąpień danej cechy

         
         

    • Klasyfikator bayesa - prawdopodobieństwo
      • Przynależność tekstu do klasy na podstawie rozkładu słów w danej klasie
      • Twierdzenie bayesa

       
       

       
       

       
       

       
       

      WYSZUKIWANIE INFORMACJI (część trzecia)

    • Definicja usługi
    • Rodzaje usług
    • Informacja a dane
    • Piramida wiedzy
    • Systemy rozmyte
    • Klasteryzacja
    • Ranking wyszukiwarek
    • Webmining
      • Drążenie danych - 3 sposoby:
        • Eksploracja zawartości sieci
        • Eksploracja Połączeń sieci
        • Eksploracja Korzystania z sieci

           
           

    • Proces wyszukiwania
      • Wyszukiwarki cache'ują dane
      • Moduł pozyskiwania danych - crawler (pająk)
        • Dla punktów startowych bot porusza się po linkach w głąb sieci;
      • Moduł analizatora
      • Moduł indeksera
        • Przetwarza dokumenty dostarczone przez crowler'a i zrzuca je do bazy za pomocą pewnej reprezentacji

           
           

    • Historia GOOGLE

     
     

Brak komentarzy:

Prześlij komentarz