Data science i uczenie maszynowe
XXI wiek to czas sztucznej inteligencji. Nie tylko tej specjalistycznej, która kieruje samochodami, tłumaczy języki naturalne czy szuka leku na raka, ale również uniwersalnej, rozwiązującej zadania z różnych dziedzin. Ten przełom zawdzięczamy splotowi trzech zdarzeń: rozwojowi technologii przechowywania i przetwarzania danych, nowej metodzie naukowej (data science), oraz uczeniu maszynowemu, w szczególności znacznemu postępowi w zakresie
głębokiego uczenia maszynowego.Książka przedstawia uczenie maszynowe w ujęciu praktycznym. Przeprowadzając opisane w niej eksperymenty data science poznamy zastosowanie reguł statystycznych i algorytmów uczenia maszynowego do rozwiązywania konkretnych problemów. Takie podejście oznacza, że studenci informatyki oraz specjaliści — analitycy, informatycy i bazodanowcy — zdobędą nie tylko teoretyczną wiedzę, ale również umiejętność jej praktycznego wykorzystania w codziennej pracy.Książka podzielona jest na cztery części:• Pierwszy rozdział wyjaśnia termin Data science i pokazuje zastosowanie tej metody w eksperymentach naukowych.• Rozdziały od drugiego do czwartego poświęcone są danym: technikom oceny ich jakości, wstępnego przygotowania oraz wzbogacenia danych na potrzeby ich dalszej analizy.• Rozdziały od piątego do dziewiątego opisują poszczególne typy modeli predykcyjnych: klasyfikatory, regresory, modele grupujące, rekomendujące i prognozujące.• Ostatnie dwa rozdziały książki przedstawiają metody oceny i poprawy jakości modeli oraz udostępniania ich użytkownikom jako usług WWW.
Zobacz pełny opisOdpowiedzialność: | Marcin Szeliga. |
Hasła: | Big data Data mining R (język programowania) Statystyka Uczenie się maszyn Podręcznik |
Adres wydawniczy: | Warszawa : Wydawnictwo Naukowe PWN, 2017. |
Opis fizyczny: | XXVI, [2], 371, [1] strona : ilustracje, wykresy ; 24 cm. |
Uwagi: | Bibliografia, netografia na stronach 353-359. |
Forma gatunek: | Książki. Publikacje dydaktyczne. Publikacje fachowe. |
Dziedzina: | Informatyka i technologie informacyjne Matematyka |
Powstanie dzieła: | 2017 r. |
Odbiorcy: | Informatycy. |
Skocz do: | Dodaj recenzje, komentarz |
- Wstęp
- O czym jest ta książka?
- Data science
- Uczenie maszynowe
- Dla kogo jest ta książka?
- Narzędzia
- Usługa Azure ML
- Język R
- Microsoft R Open
- Przykładowe dane
- Konwencje i oznaczenia
- 1. Uczenie maszynowe jako element eksperymentów data science
- 1.1. Eksploracja danych jako technika wspomagania decyzji
- 1.2. Modelowanie
- 1.3. Wiedza i proces uczenia
- 1.4. Hipotezy
- 1.5. Założenia eksperymentu data science
- 1.6. Dwa typy analiz
- 1.7. Data science jako metoda naukowa
- 1.8. Przykładowy eksperyment – optymalizacja kampanii marketingowej
- 1.8.1. Zrozumienie problemu i określenie celów eksperymentu
- 1.8.2. Zrozumienie danych
- 1.8.3. Wstępne przetwarzanie danych
- 1.8.4. Modelowanie
- 1.8.5. Ocena
- 1.8.6. Wdrożenie
- Podsumowanie
- * 2. Ocena przydatności danych
- 2.1. Dane źródłowe
- 2.2. Zmienne
- 2.2.1. Rozkład częstości zmiennych
- 2.2.2. Graficzna prezentacja danych
- 2.2.3. Korelacje (związki między zmiennymi)
- 2.3. Reprezentatywność danych
- 2.4. Duplikaty
- 2.5. Szeregi czasowe
- Podsumowanie
- * 3. Wstępne przetwarzanie danych
- 3.1. Uzupełnianie brakujących danych
- 3.2. Poprawianie błędnych danych
- 3.3. Zmienne numeryczne
- 3.3.1. Instalowanie dodatkowych bibliotek R w Azure ML
- 3.3.2. Wartości nietypowe (odstające)
- 3.3.3. Normalizacja
- 3.3.4. Dyskretyzacja
- 3.4. Zmienne kategoryczne
- 3.4.1. Problem jakości danych tekstowych
- 3.4.2. Uogólnienie (generalizacja)
- 3.4.3. Numerowanie stanów
- 3.4.4. Zmienne porządkowe
- 3.5. Szeregi czasowe
- 3.6. Wyrażenia języka naturalnego
- 3.7. Redukcja wymiarów
- 3.7.1. Usuwanie zmiennych na podstawie ich zdolności predykcyjnych
- 3.7.2. Analiza głównych składowych (PCA)
- Podsumowanie
- * 4. Wzbogacanie danych
- 4.1. Równoważenie danych
- 4.1.1. Usunięcie części przykładów większościowych
- 4.1.2. Nadpróbkowanie
- 4.2. Zmienne wyliczeniowe
- 4.3. Zastąpienie zmiennych wspólnym rozkładem prawdopodobieństwa
- 4.4. Wydzielenie danych testowych
- 4.4.1. Szeregi czasowe
- 4.4.2. Modele rekomendujące
- 4.4.3. Modele wykrywania oszustw
- 4.5. Wzorzec eksperymentu data science
- Podsumowanie
- * 5. Klasyfikacja
- 5.1. Klasyfikacja poprzez indukcję drzew decyzyjnych
- 5.1.1. Drzewa decyzyjne – definicja
- 5.1.2. Pojedyncze drzewa decyzyjne
- 5.1.3. Kombinacje drzew decyzyjnych
- XVSPIS TREŚCI5.2. Klasyfikacja z użyciem maszyny wektorów nośnych
- 5.2.1. Przetwarzanie języka naturalnego przy użyciu maszyny wektorów nośnych
- 5.2.2. Modele maszyny wektorów nośnych i lokalnie głębokiej maszyny wektorów nośnych
- 5.3. Klasyfikacja probabilistyczna
- 5.3.1. Sieć Bayesa
- 5.3.2. Maszyna punktów Bayesa
- 5.4. Inne klasyfikatory dostępne w Studiu Azure ML
- 5.4.1. Inne klasyfikatory – omówienie
- 5.4.2. Modele eksploracji danych w języku R
- 5.5. Klasyfikatory binarne a klasyfikacja wieloklasowa
- 5.6. Wykrywanie oszustw jako przykład klasyfikacji binarnej
- 5.6.1. Oznaczenie obserwacji
- 5.6.2. Zrównoważenie danych i wydzielenie danych testowych
- 5.6.3. Wzbogacenie danych
- Podsumowanie
- 6. Regresja
- 6.1. Model regresji wielorakiej
- 6.1.1 Wieloraka regresja liniowa
- 6.1.2. Estymacja bayesowska modelu regresji liniowej
- 6.2. Zmienne kategoryczne w modelach regresji
- 6.2.1. Regresja Poissona
- 6.2.2. Regresja porządkowa
- 6.3. Regresja kwantylowa
- 6.4. Regresja poprzez indukcję drzew decyzyjnych
- 6.5. Sztuczne sieci neuronowe
- 6.5.1. Perceptron
- 6.5.2. Sieci neuronowe a regresja
- 6.5.3. Metody minimalizacji błędu
- 6.5.4. Wsteczna propagacja błędów
- 6.5.5. Regresja z użyciem sieci neuronowej
- 6.5.6. Głębokie sieci neuronowe
- Podsumowanie
- * 7. Grupowanie (analiza skupień)
- 7.1. Na czym polega grupowanie
- 7.2. Algorytmy grupowania
- 7.2.1. Grupowanie hierarchiczne
- 7.2.2. Grupowanie iteracyjno-optymalizacyjne
- 7.3. Grupowanie w celu znajdowania podobnych obiektów
- 7.4. Grupowanie w celu kompresji
- 7.5. Wykrywanie anomalii
- Podsumowanie
- * 8. Rekomendowanie
- 8.1. Systemy rekomendujące
- 8.2. Odkrywanie asocjacji
- 8.3. Model Matchbox Recommender
- 8.3.1. Rekomendowanie przez filtrowanie kolektywne
- 8.3.2. Rekomendowanie przez filtrowanie cech przedmiotów i użytkowników (hybrydowe)
- Podsumowanie
- * 9. Prognozowanie
- 9.1. Szeregi czasowe
- 9.2. Naiwne metody prognozowania
- 9.3. Modele średniej ważonej
- 9.4. Modele ARIMA
- 9.5. Modele nieliniowe
- 9.6. Prognozowanie w Studiu Azure ML
- Podsumowanie
- * 10. Ocena i poprawa jakości modeli
- 10.1. Reguła powrotu do średniej
- 10.2. Kryteria oceny modeli eksploracji danych
- 10.2.1. Łatwość interpretacji
- 10.2.2. Trafność
- 10.2.3. Wiarygodność
- 10.2.4. Wydajność i skalowalność
- 10.2.5. Przydatność
- 10.3. Ocena jakości modeli klasyfikacyjnych
- 10.3.1. ModułEvaluate Model
- 10.3.2. Macierz pomyłek
- 10.3.3. Krzywa ROC
- 10.3.4. Wykres precyzja w funkcji czułości i wykres zysku
- 10.3.5. Trafność klasyfikacji
- 10.3.6. Klasyfikatory wieloklasowe
- 10.4. Ocena jakości modeli regresyjnych
- 10.4.1. Miary oceny modeli
- 10.4.2. Walidacja krzyżowa
- 10.5. Ocena jakości modeli grupujących
- 10.6. Ocena jakości modeli rekomendujących
- 10.7. Ocena jakości modeli prognozujących
- 10.8. Porównanie jakości modeli
- 10.9. Poprawa jakości modeli
- 10.9.1. Automatyczna poprawa jakości modeli uczenia nadzorowanego
- 10.9.2. Znalezienie optymalnej liczby klastrów
- 10.10. Cykl życia eksperymentu data science
- Podsumowanie
- * 11. Publikacja modeli eksploracji danych jako usług WWW
- 11.1. Wzorcowy eksperyment data science
- 11.2. Predykcyjne usługi WWW
- 11.2.1. Zapytania predykcyjne ad-hoc
- 11.2.2. Wsadowe zapytania predykcyjne
- Podsumowanie
- Bibliografia
- Dodatek A
- Dodatek B *
Zobacz spis treści
Sprawdź dostępność, zarezerwuj (zamów):
(kliknij w nazwę placówki - więcej informacji)