26 lutego 2012
13:17
J S.
Historia i Definicja inteligencji
- Zdolność do rozwiązywania testów psychologicznych (Edwin Boring, 1923);
- Powstały liczne testy sprawdzające zdolnośći intelektualne i nadające mu pewną rangę (liczbę) - np. test Wechslera (1939);
- Pojęcie sztucznej inteligencji w procesie inżynierskim zaproponował John McCarthy (1956) :
- Celem jest algorytmizacja działań mogących uchodzić za inteligentne.
- Celem jest algorytmizacja działań mogących uchodzić za inteligentne.
- Inteligencja obliczeniowa - proces efektywnego przekształcania informacji związany w pewsnym stopniu z wiedzą (o języku)
- Sztuczna AI - modelowanie umysłu człowieka (podejście wizjonerskie)
- Roger Penrose zaproponował 4 podejścia do definiowania sz. i. (z czego tylko 2 pierwsze podejścia a nawet pierwsze tylko zapewnia powodzenie )
- Turing - test,
- rezultatem tego testu jest konkurs chaterbotów - komisja przeprowadza dialog z botami (osoba nie wie czy rozmawia z człowiekiem czy programem - ma to ocenić );
- Dialog polega na zadawaniu pytań z dziedziny ogólnej (poznanie świata)
- Pytanie:
- Czy boty oszukują ludzi ?
- Czy zbliżają się do pułapu gdzie granica między botami a ludźmi zaczyna się zacierać?
- Czy boty oszukują ludzi ?
- rezultatem tego testu jest konkurs chaterbotów - komisja przeprowadza dialog z botami (osoba nie wie czy rozmawia z człowiekiem czy programem - ma to ocenić );
- Chiński pokój
- Mamy zbiór reguł jak odpowiadać na znaczki otrzymane na kartce po chińsku;
- Siedzimy w pokoju zamkniętym
- Otrzymujemy instrukcje na kartce w języku chińskim
- Mamy zareagować na dane instrukcje w języku nie znanym na podstawie słownika reguł odpowiedzi
- Pytanie czy to jest inteligencja (czy jest to jej wyraz)??
- Mamy zbiór reguł jak odpowiadać na znaczki otrzymane na kartce po chińsku;
- Kreatywność
- Budujemy algorytmy działające w sposób kreatywny;
- Wychodzimy od etymologii słowa - "twórczy"
- Kreatywność to zdolność użycia naszy ch zasobów obliczeniowych do tego aby eksplorować je i wytwarzać nowe wartości które dotychczas nie były w nich zapisane
- Typy kreatywności:
- h-creativity - coś co jeszcze nie było znane ludzkości
- P- creativity - coś co nie jest dla nas znane ale znane było innym
- E-creativity - tworzymy zbiór elementów nieznanych nam - to co wydaje się nam ciekawe przyjmujemy za kreatywne
- T-creativity
- h-creativity - coś co jeszcze nie było znane ludzkości
- Budujemy algorytmy działające w sposób kreatywny;
- Przykłady działań kreatywnego działania algorytmów w informatyce w przeszłości:
- Pokonanie arcymistrza szachowego przez program
- Kreatywność w programach tego typu, jest w węzłach drzewa decyzyjnego;
- Program Deep Blue 2 vs Garry Kasparov
- Kreatywność w programach tego typu, jest w węzłach drzewa decyzyjnego;
- EMI - inteligencja muzyczna
- Twórcy poddawali utwory danego twórcy algorytmom typu data-mine [??data mind??]
- Tworzenie nowych utworów na podstawie wzorców otrzymanych z procesu data-mine
- Twórcy poddawali utwory danego twórcy algorytmom typu data-mine [??data mind??]
- Komputer działa na podstawie wzorców - to człowiek na końcu ocenia czy wynik prac jest coś wart
- Kreatywność - przykłady
- Technika PRIME
- Aktywacja danych węzłów - sposób pobudzenia odpowiednich węzłów w grafie decyzji;
- Sprawdzanie skojarzeń dwóch słów - czy w mózgu danej osoby jest ścieżka łącząca dane pojęcia
- Słowo1 --> torowanie --> Słowo 2
- Np. powstały nowe słowa: MagiaMarket , pikea
- http://Greybrow.iq.pl/teksty/generator_discopolo.php
- Słowo1 --> torowanie --> Słowo 2
- Przykład generatora tekstów piosenek Stinga
Ostatnia modyfikacja: 2012-02-26; 14:16
- Aplikacje generujące teksty piosenek
- Generator przemówień PRL
- Aktywacja danych węzłów - sposób pobudzenia odpowiednich węzłów w grafie decyzji;
- Generacja tekstów na podstawie łańcuchów Markova
- Oparte na metodach probabilistycznych
- Ciąg elementów w którym wystąpienie elementu jest uzależnione od swych poprzedników
- Łańcuch pierwszego rzędu - element ma tylko jednego poprzednika
- ł. Wyższych rzędów - więcej poprzedników;
- Łańcuch pierwszego rzędu - element ma tylko jednego poprzednika
- Metoda szybka
- Proste budowanie słownika
- Przykład spaceru z psem
- Tworzymy mapę słów z zaznaczeniem poprzednika i następnika
- Liczymy wystąpienie poszczególnych kombinacji
- Słabo z sensownością powstałych zdań dla łańcucha pierwszego rzędu- mogą wystąpić nielogiczne zdania
- Zwiększając rzędowość łańcucha do II rzędu otrzymujemy już sensowne wyrażenia
- Tworzymy mapę słów z zaznaczeniem poprzednika i następnika
- Operując stopniem łańcucha zwiększamy logiczność zdań ale zmniejszamy liczbę kombinacji
- Aby zachować dużą losowość możemy wprowadzać ocenianie logiki wyrażeń
- Oparte na metodach probabilistycznych
- Generacja poezji (poezja kombinatoryczna)
- Zastosowanie metodyk POS
- POS - możliwość automatycznego znacznikowania części mowy za pomocą określonych reguł gramatycznych (specyficzne szablony)
- Na kombinatorykę słów (tworzenie neologizmów) nakładamy warstwę logiki słownika gramatycznego (metoda POS opisana powyżej) i dodatkowych reguł - np.. Koniec ma być rymowany;
- POS - możliwość automatycznego znacznikowania części mowy za pomocą określonych reguł gramatycznych (specyficzne szablony)
- Zmiana słów bez zmiany logiki:
- Zamiana liczb występujących w tekście na liczby
- Przemnażamy przez daną wartość i otrzymujemy inne wartości
- Przemnażamy przez daną wartość i otrzymujemy inne wartości
- W wyniku otrzymujemy tą samą logikę ze zmianą wartości posiadania opisywanych przedmiotów i ludzi
- Możemy zamienić obiekty w zdaniu - otrzymujemy zdanie nieco innym sensie ale zachowanej poprawności logicznej
- Taka metodyka wykorzystywana przy pozycjonowaniu stron w wyszukiwarkach internetowych;
- Wspomaganie generowania tekstów -
- wspomaganie szybkości pisania - dokańczanie zdań w trakcie pisania
- Na ETI robią wtyczki do WORD'a
- Na ETI robią wtyczki do WORD'a
- Automatycznie generowanie mail'a (spam);
- Taka metodyka wykorzystywana przy pozycjonowaniu stron w wyszukiwarkach internetowych;
- Klasyfikacja tekstów
- Przetwarzanie języka naturalnego
- NLG (natural language generation)
- NLP (natural Language processing)
- NLU (n. l. Understanding)
- Słownik wordnet (wspierany przez Google)
- Co robimy z tekstem do przetworzenia?
- Wykorzystujemy metodę POS - part of speech(oznaczamy jaką częścią mowy słowo jest)
- Wyłapywanie tokenów - trzeba uważać aby nie działały zbyt naiwnie (szczególnie jeśli chodzi o frazy złożone - nazwy własne z białymi znakami);
- Lematyzacja
- Stop words - wyznaczanie słów zatrzymujących działanie algorytmu
- Wyznaczanie znaków interpunkcyjnych i specjalnych;
- Tworzenie słowników (wordnet, tezaurus)
- Np.. Dostarczają synonimów
- Np.. Dostarczają synonimów
- Wykorzystujemy metodę POS - part of speech(oznaczamy jaką częścią mowy słowo jest)
Ostatnia modyfikacja: 2012-02-26; 15:14
- NLG (natural language generation)
- NLP Tools
- Historia
- Reprezentacja dokumentów
- Przetworzenie dokumentu
- Wyciagnięcie danych typowych, cechy charakterystyczne tekstu
- (…)
METODY EKSTRACJI cech z dokumentu (trzy metody)
- ?kompresja?
- ?wyszukiwanie?
Algorytm kompresji
- "Elementy językowe spakowane osobno zajmują więcej miejsca niż spakowane razem"
- Wymaga wykonania permutacji porównanai podobieństwa każdego dokumentu z każdym
Wyszukiwanie Boolowskie i odległościowe
- Boolowskie BM:
- Budowa odwróconego indeksu
- Struktura pozwalająca wyszukiwać w czasie jednostkowym dane słowa
- Wykorzystywane w podpowiadaniu słów wprowadzanych w przeglądarce internetowej
- Dla listy wszystkich słów występujących w korpusie słownym (strony www) podaje wagę binarną (0 - słowo nie występuje, 1 - słowo jest); wyznacza się i przypisuje indeksy słowom - na tej podstawie możliwe jest szybkie wyszukanie słów przez przeglądarkę
- Prawo heap'a - w miarę dodawania słów do słownika liczba tokenów będzie się zmniejszać
- Struktura pozwalająca wyszukiwać w czasie jednostkowym dane słowa
- Prawo Zipfa
- Jak stworzymy sobie listę słów to otrzymamy rozkład w mia (….) (ble ble ble)
- -> słabo opisane
- Jak stworzymy sobie listę słów to otrzymamy rozkład w mia (….) (ble ble ble)
- Wyszukiwanie oparte na dystansach (odległościowe) VSM
- Vector space model
- Liczymy odległosći prawdopodobne dla naszych wyrażeń
- Metoda BOW - bag of words - worek gdzie informacja o kolejności wyrażeń jest zatracana
- Tworzymy słownik słów
- Słownik tworzy nam wymiary w przestrzeni , w której dokumenty są odwzorowane jako punkt;
- Dodajemy wagi dla przestrzeni określające czestotliwość wystąpienia elementu
- Słownik tworzy nam wymiary w przestrzeni , w której dokumenty są odwzorowane jako punkt;
- Możemy stworzyć specyficzny ranking wyrażeń (w rzeciwieństwie do metody boolean)
- Redukcja wymiarowości (dwa sposoby)-
- poprzez selekcję cech charakterystycznych na podstawie ważenia
- Wykonuje się ją za pomocą dwóch miar:
- Miara częstości wystąpień terminu
- Miara użyteczności -jak zadane słowo jest istotne do zcharakteryzowania zadanego tekstu w kontekście całego repozytorium zdań
- Term -słowo przeprocesowane
- Słowo -element pochodzący ze zdania
- Term -słowo przeprocesowane
- Wejście dla tych metod powyżej
- liczba obiektów
- Liczba cech i wagi
- liczba obiektów
- Na tej podstawie można sklasyfikować elementy
- Miara częstości wystąpień terminu
- Oparte na podstawie algebry (o tym nie będziemy mówić - zbyt zaawansowane)
- Miary wykorzystywane do obliczeń odległości między wymiarami:
- Miara euklidesowa
- Miara minkowskiego
- Miara Cosinusowa
- Miara mahalanobisa
- Miara Czybyszewa
- Miara euklidesowa
- Vector space model
- Porównanie VSM i BM
Nie mówimy o modelu HAL (pomija to )
Ostatnia modyfikacja: 2012-02-26; 16:15
Klasyfikatory
- K-NN (k- nearest neighbours)
- obliczanie odległości do k- najbliższych sąsiadów
- Problemem jest poprawne dobranie parametru k
- Znać idee klasyfikatora i potrafić obliczyć odległości [E]
- obliczanie odległości do k- najbliższych sąsiadów
- Metoda rankingowa
- Obliczenie przynależności na podstawie sumy różnic wystąpień danej cechy
- Klasyfikator bayesa - prawdopodobieństwo
- Przynależność tekstu do klasy na podstawie rozkładu słów w danej klasie
- Twierdzenie bayesa
WYSZUKIWANIE INFORMACJI (część trzecia)
- Przynależność tekstu do klasy na podstawie rozkładu słów w danej klasie
- Definicja usługi
- Rodzaje usług
- Informacja a dane
- Piramida wiedzy
- Systemy rozmyte
- Klasteryzacja
- Ranking wyszukiwarek
- Webmining
- Drążenie danych - 3 sposoby:
- Eksploracja zawartości sieci
- Eksploracja Połączeń sieci
- Eksploracja Korzystania z sieci
- Eksploracja zawartości sieci
- Proces wyszukiwania
- Wyszukiwarki cache'ują dane
- Moduł pozyskiwania danych - crawler (pająk)
- Dla punktów startowych bot porusza się po linkach w głąb sieci;
- Dla punktów startowych bot porusza się po linkach w głąb sieci;
- Moduł analizatora
- Moduł indeksera
- Przetwarza dokumenty dostarczone przez crowler'a i zrzuca je do bazy za pomocą pewnej reprezentacji
- Wyszukiwarki cache'ują dane
- Historia GOOGLE
- Gugol - 10 do potęgi 100 (stąd nazwa)
- www.caida.org/tools/visualization/walrus
- Google story
- Jak to działa? - opis algorytmu działania google
- Gugol - 10 do potęgi 100 (stąd nazwa)
- Przetworzenie dokumentu
Brak komentarzy:
Prześlij komentarz