Detekcia zvučiek v systémoch automatického prehľadávania audiodát
Popis:
Táto diplomová práca sa zaoberá detekciou audioodtlačku v audiotoku dát. Prvá časť je venovaná stručnému prehľadu extrakcie príznakov, hlavne metóde melovovských kepstrálnych koeficientov (MFCC), ktorá sa používaná v navrhovanom systéme. Tiež popisuje metódy euklidovskej vzdialenosti, dynamickej časovej zmeny a klasifikačné techniky využívané v oblasti detekcie audioodtlačkov. V druhej časti je vysvetlené použitie metód pre návrh systému. Použité boli metódy DTW, segmentácia pomocou DISTBIC a spomínaná metóda MFCC koeficientov. Návrh bol realizovaný v programovom prostredí Matlab a dosiahnuté výsledky boli následne vyhodnotené.
Kľúčové slová:
extrakcia príznakov
MFCC
DTW
euklidovská vzdialenosť
DISTBIC
GMM
k-NN
MLP sieť
segmentácia
detekcia audioodtlaču
Obsah:
- Zoznam obrázkov 9
Zoznam tabuliek 10
Zoznam symbolov a skratiek 11
Slovník termínov 12
Úvod 13
1 Metódy používané pri parametrizácii audio dát 14
1.1 Kepstrálna analýza 14
1.1.1 Kepstrum 15
1.2 MFCC koeficienty 15
1.2.1 Postup určenia MFCC 17
1.3 Ďalšie používané koeficienty 18
1.3.1 LPCC koeficienty 18
1.3.2 PLP koeficienty 19
1.3.3 LPC koeficienty 20
2 Techniky a algoritmy používané pri detekcii audio odtlačkov 21
2.1 Metriky vzájomnej podobnosti 21
2.1.1 Euklidovská vzdialenosť 21
2.1.2 Použitie Euklidovskej vzdialenosti pri detekcii audio odtlačku 22
2.1.3 Meranie dynamickej časovej zmeny 23
2.2 Klasifikačné techniky 27
2.2.1 Klasifikátor k-NN 28
2.2.2 GMM model 29
2.2.3 Neurónová sieť MLP 30
2.3 Metódy segmentácie audiodát 31
2.3.1 Algoritmus DISTBIC 32
3 Použitý detekčný algoritmus 35
3.1 Databáza audio dát 36
3.2 Výber metód a popis kódu 36
3.2.1 Výber extrakcie príznakov 36
3.2.2 Popis vytvorených skriptov 36
3.2.3 Výpočet MFCC 37
3.2.4 Segmentácia audio nahrávky 38
3.2.5 Výber porovnávacej metriky DTW 41
4 Vyhodnotenie dosiahnutých výsledkov 42
4.1 Úspešnosť detekcie 45
5 Záver 47
Zoznam použitej literatúry 48
Zdroje:
- PSUTKA, J. et. al. Mluvíme s počítačem česky. 1. vydání. Praha: Academia, 2006. ISBN 80-200-1309-0
- CASSISI, Carmelo – MONTALDO, Placido - ALIOTTA Marco – CANNATA, Andrea: Similiarity Measures and Dimensionality Reduction Techniques for Time Series Data Mining. Intech DOI: 10.5772/49.
- CASSISI, Carmelo – MONTALDO, Placido - ALIOTTA Marco – CANNATA, Andrea: Similiarity Measures and Dimensionality Reduction Techniques for Time Series Data Mining. Intech DOI: 10.5772/49.
- Delacourt, P.; Wellekens, Christian, "Audio data indexing: Use of second-order statistics for speaker-based segmentation," Multimedia Computing and Systems, 1999. IEEE International Conference on , vol.2, no., pp.959,963 vol.2, Jul 1999 doi: 10.1109/MMCS.1999.778619.
- MEINEDO, H. – NETO, J.: Detection of Acoustic Patterns in Broadcast News using Neural Networks. Instituto Superior Técnico ID:192/p.l, Lisabon, 2004.
O súboroch cookie na tejto stránke
Súbory cookie používame na funkčné účely, na zhromažďovanie a analýzu informácií o výkone a používaní stránky.