Popis:
V súčasnosti sa zbiera a eviduje veľké množstvo údajov. Tento zber prebieha v rôznych odvetviach, ako sú chémia, farmácia, medicína, bankovníctvo, obchod, telekomunikácie, štátna správa a v mnohých ďalších. Obrovské množstvo údajov, použité bez bližšej analýzy má však slabú výpovednú hodnotu. Preto sa využívajú metódy dolovania údajov (angl. Data mining), ktoré slúžia na nájdenie informácií v mase údajov. Základnou ideou dolovania údajov je myšlienka, že v údajoch sa nachádza viac skrytých informácií, ako je vidieť na povrchu. Z tohto pohľadu do dolovania údajov patrí skutočne všetko "čo funguje". Každá technika, ktorá pomôže získať viac informácií z údajov je užitočná, takže techniky dolovania údajov predstavujú značne heterogénnu a multidisciplinárnu skupinu, ktorá v ostatnom čase je čoraz viac spätá s umelou inteligenciou. Data mining alebo dolovanie dát (údajov) je teda výraz zastrešujúci širokú škálu techník používaných v rade odvetví.
V súčastnosti existuje veľa nástrojov na vytváranie deskriptívnych a prediktívnych modelov. Niektoré modely využívajú štatistické metódy, ako sú lineárna regresia, logistická regresia a ďalšie techniky mnohorozmernej analýzy dát. Iné modely sú založené na neštatistických alebo zmiešaných metódach, ako sú neurónové siete, genetické algoritmy, klasifikačné stromy a regresné stromy.
Kľúčové slová:
data mining
anova
analýza hlavných komponentov
rozhodovacie stromy
analýza dát
algoritmy
Obsah:
- 1. Úvod
2. Základné úlohy mnohorozmernej analýzy dát
3. Umelé neurónové siete
4. Rozhodovacie stromy
5. Genetické algoritmy
6. Príklad
7. Závery
Zdroje:
- Parr Rud O.: Data Mining, Prakticky sprievodca dolovaním dát preefektívny predaj, cielený marketing a podporu zákazníkov. Computer Press, Praha 2001, s. 9-15.
- Everitt B, Dunn G.: Applied Multivariate Data Analysis. Arnold, London, 1991.
- Krzanowski WJ. Principles of Multivariate Analysis. Oxford University Press, Oxford, 1988.
- Johnson RA, Wichern DW. Applied Multivariate Statistical Methods. 4th ed. Prentice-Hall, London,1998.
- Balla B., Mocák J.: Prehľad základných metód mnohorozmernej analýzy dát. Lab. Diag. 6 (2001) 10-17.
- Mellinger M.: Multivariate Data Analysis: Its Methods. Chemom. Intel. Lab. Systems 2 (1987) 29-36.
- Massart L.M., Vandenginste B.M.G., Buydens L.M.C., De Jong S., Lewi P.J., Smeyers-Verbeke J.: Handbook of Chemometrics and Qnalimetrics: Part A. Elsevier, Amsterdam, 1997.
- Vandenginste B.M.G., Massart L.M., Buydens L.M.C., De Jong S., Lewi P.J., Smeyers-Verbeke J.: Handbook of Chemometrics and Qualimetrics: Part B. Elsevier, Amsterdam, 1998.
- Bland M.: An Introduction to Medical Statistics. 3rd ed. Oxford Medical Publ., Oxford, 2000.
- Armitage P., Berry G., Matthews J.N.S.: Statistical Methods in Medical Research. 4th ed. Blackwell Science, Oxford, 2002.
- Feinstein A.R.: Principles of Medical Statistics. Chapman & Hall/CRC, New York, 2002.
- Zhou X., Obuchowski N.A., McClish D.K.: Statistical Methods in Diagnostic Medicine. Wiley,New York, 2002.
- Mocák J., Balla B.: Nové možnosti multivariačnej analýzy a jej perspektívy v laboratórnej medicíne. Lab. diag. 5 (2000) 23-24.
- Mocák J., Balla B.: Overview of Statistical Methods Applicable in Laboratory Medicine. In: 5th Symp. Labkvalita ’01. Slov. lek. spoloč., Bratislava, 2001, s. 204-206.
- Balla B., Mocák J.: Princípy a príklady aplikácie mnohorozmernej analýzy dát. In: Kupka K. (ed.): Analýza dat 2000/II - Moderní statistické metody: Modelování, regrese, klasifikace a data mining. Trilobyte, Pardubice, 2001, s. 90-107.
- Balla B., Mocák J., Pivovarnikova H., Balla J.: Comparative study of cardiovascular markers data by various techniques of multivariate analysis. Chemometrics Intell. Lab. Systems 72 (2004) 259-267.
- Otto M.: Chemometrics. J. Wiley, Weinheim, 1999.
- Oravec M., Polec J., Marchevský S. a spol.: Neurónové siete pre číslicové spracovanie signálov. FABER, Bratislava, 1998.
- Haykin S.: Neural networks - A Comprehensive Foundation. Macmillan College Publ. Co., New York, 1994.
- Borggaard C, Thodberg H.H.: Anal. Chem. 64 (1992) 545.
- Zupan J., Gasteiger J.: Neural Networks f or Chemists. VCH, Weinheim, 1993.
- Curry B., Rumelhart D E.: Tetrahedron Comput. Methodol. 3 (1990) 213.
- Mittermayr C.R., Drouen A.C.J.H., Otto M., Grasserbauer M.: Anal. Chim. Acta 294 (1994) 227.
- Hecht-NielsenR.: Neurocomputing. Addison-Wesley Publ. Co., Reading, MA, 1990.
- Kvasnička, V., Beňušková, Ľ., Pospíchal, J., Farkaš, I., Tiňo, P., Kráľ, A.: Úvod do teórie neurónových sietí. IRIS Publisher, Bratislava, 1997.
- Devillers J. (Ed.): Neural Networks in QSAR and Drug Design. Academic Press, London, 1996.
- Trajan Neural Network Simulator. Release 4.0 D. Trajan Software Ltd., Durham, U.K., 1999.
- Gasteiger J., Zupan, J.: Angew. Chemie 32 (1993) 503-527.
- Hunt, E. B., Marin, J., and Stone., P. J. Experiments in Induction. Academic Press, New York, 1966.
- Holland J. H.: Genetic algorithms and the optimal allocation of trials. SIAM J. Comput. 2 (1973) 88-105.
- Seznámení se s genetickými algoritmy (GA).
- Zupan J., Gasteiger J.: Neural Networks in Chemistry and Drug Design. 2nd Ed. Wiley, Weinheim, 1999. Kap. 13.
- Aoyama T., Suzuki Y., Ichikawa H.: J. Med. Chem. 33 (1990) 905-908.