Popis:
V práci sú podrobne popísane rozhodovacie stromy. Zvolené dáta sú spracované pomocou programu Clementine, ktorý slúži na dolovanie v dátach. Na toto dolovanie je využitý algoritmus C5.0.
Obsahom projektu je popísať rozhodovacie stromy a pomocou zadaného algoritmu dolovať požadované dáta zo zvolenej množiny dát. Projekt tvorí niekoľko kapitol. Ide o nasledujúce: Rozhodovacie stromy, Modely rozhodovacích stromov, Aplikačné príklady, Popis dát, ktoré boli pridelené na zadanie, Popis predspracovania dát, Interpretácia výsledkov.
1 Rozhodovacie stromy
Rozhodovacie stromy sú silným nástrojom používaným na klasifikáciu a predikciu. Tiež je možné rozhodovacie stromy definovať ako štruktúru na predikovanie cieľového atribútu za pomoci jednoduchých rozhodovacích pravidiel. Ako už bolo spomenuté, sú technikou aj klasifikácie aj predikcie. Ďalšou definíciou rozhodovacích stromov je definícia, že rozhodovací strom je klasifikátor so stromovou štruktúrou. Vnútorné uzly sa nazývajú rozhodovacie. Aby bolo možné zostaviť rozhodovacie stromy je nutné využiť testovaciu množinu dát. Tie špecifikujú test vykonaný nad atribútom inštancie, pričom každý možný výsledok testu je reprezentovaný jednou vetvou. List stromu indikuje hodnotu cieľovej vlastnosti príkladov (inštanciu triedy). Rozhodovací strom na zatriedenie príkladu začne v koreni stromu a prechádza cez jednotlivé uzly až k listu, ktorý poskytuje klasifikáciu inštancie. Rozhodovacie stromy prehľadne ilustrujú proces učenia. Venuje sa im veľká pozornosť najmä pre ich schopnosť pracovať s údajmi, ktoré nie sú úplné alebo sa v nich vyskytujú chyby. Algoritmy, pomocou ktorých sa dajú generovať rozhodovacie stromy sú založené na princípe budovania stromov zhora nadol. Používajú sa v znalostných systémoch na automatické generovanie báz znalostí, v objavovaní znalostí a ďalších oblastiach. Tiež sa dajú použiť na identifikáciu segmentov s požadovaným chovaním napr. pri modelovaní odozvy, oproti regresií majú však výhodu v schopnosti detekovať nelineárne závislosti. Cieľom tejto metódy je sekvenčne rozdeliť údaje do rozdielnych skupín alebo vetiev, aby maximalizovali rozdiely v údajoch závislej premennej.
Kľúčové slová:
datamining
rozhodovanie
riziko preučenia
predspracovanie dát
rozhodovacie stromy
aplikačný príklad
Obsah:
- Zoznam obrázkov 2
Zoznam tabuliek 4
1 Rozhodovacie stromy 5
1.1 Tvorba rozhodovacieho stromu 6
1.2 Výhody a nevýhody rozhodovacích stromov 7
1.3 Modely pomocné pri tvorbe rozhodovacích stromov 8
2 Modely rozhodovacieho stromu 9
2.1 Model C 4.5 9
2.3 Porovnanie modelov C 4.5 a C 5.0 10
3 APLIKAČNÉ PRÍKLADY 11
3.1 Aplikačný príklad č. 1 11
3.2 Aplikačný príklad č. 2 15
3.3 Aplikačný príklad č. 3 24
4 Popis dát, ktoré boli pridelené na zadanie 27
4.1 Načítanie dát 27
4.2 Nastavenie vlastností atribútov 28
4.3 Komplexný pohľad na dáta 30
4.4 Distribution Node 31
4.5 Histogram Node 33
4.6 Statistics 34
4.7 Funkcia výberu (Feature Selection) 34
5 Popis predspracovania dát 36
5.1 Možnosti modelu C5.0 36
6 Proces objavovania znalostí 42
7 Interpretácia výsledkov 48
7.1 Riziko preučenia 48
7.2 Riziko preučenia 53
8 Prílohy 55
9 Zdroje 56