Detekcia zvučiek v systémoch automatického prehľadávania audiodát

«»

Prípona .pdf	Typ diplomová práca	Stiahnuté 1 x
Veľkosť 2,8 MB	Jazyk slovenský	ID projektu 42390
Posledná úprava 25.08.2013	Zobrazené 1 996 x	Autor: milan.pavlo
Zdieľaj na Facebooku
Detaily projektu

cena:
99 Kreditov
kvalita:
98,4%
98,4%
Stiahni
Pridaj na porovnanie

Univerzita:Technická univerzita v Košiciach
Fakulta:Fakulta elektrotechniky a informatiky
Kategória:Technika » Telekomunikácie
Predmet:Multimediálne telekomunikácie
Študijný program:Multimediálne telekomunikácie
Ročník:5. ročník
Formát:PDF dokument (.pdf)
Rozsah A4:51 strán

Popis:

Táto diplomová práca sa zaoberá detekciou audioodtlačku v audiotoku dát. Prvá časť je venovaná stručnému prehľadu extrakcie príznakov, hlavne metóde melovovských kepstrálnych koeficientov (MFCC), ktorá sa používaná v navrhovanom systéme. Tiež popisuje metódy euklidovskej vzdialenosti, dynamickej časovej zmeny a klasifikačné techniky využívané v oblasti detekcie audioodtlačkov. V druhej časti je vysvetlené použitie metód pre návrh systému. Použité boli metódy DTW, segmentácia pomocou DISTBIC a spomínaná metóda MFCC koeficientov. Návrh bol realizovaný v programovom prostredí Matlab a dosiahnuté výsledky boli následne vyhodnotené.

Kľúčové slová:

extrakcia príznakov

MFCC

DTW

euklidovská vzdialenosť

DISTBIC

GMM

k-NN

MLP sieť

segmentácia

detekcia audioodtlaču

Obsah:

Zoznam obrázkov 9
Zoznam tabuliek 10
Zoznam symbolov a skratiek 11
Slovník termínov 12
Úvod 13
1 Metódy používané pri parametrizácii audio dát 14
1.1 Kepstrálna analýza 14
1.1.1 Kepstrum 15
1.2 MFCC koeficienty 15
1.2.1 Postup určenia MFCC 17
1.3 Ďalšie používané koeficienty 18
1.3.1 LPCC koeficienty 18
1.3.2 PLP koeficienty 19
1.3.3 LPC koeficienty 20
2 Techniky a algoritmy používané pri detekcii audio odtlačkov 21
2.1 Metriky vzájomnej podobnosti 21
2.1.1 Euklidovská vzdialenosť 21
2.1.2 Použitie Euklidovskej vzdialenosti pri detekcii audio odtlačku 22
2.1.3 Meranie dynamickej časovej zmeny 23
2.2 Klasifikačné techniky 27
2.2.1 Klasifikátor k-NN 28
2.2.2 GMM model 29
2.2.3 Neurónová sieť MLP 30
2.3 Metódy segmentácie audiodát 31
2.3.1 Algoritmus DISTBIC 32
3 Použitý detekčný algoritmus 35
3.1 Databáza audio dát 36
3.2 Výber metód a popis kódu 36
3.2.1 Výber extrakcie príznakov 36
3.2.2 Popis vytvorených skriptov 36
3.2.3 Výpočet MFCC 37
3.2.4 Segmentácia audio nahrávky 38
3.2.5 Výber porovnávacej metriky DTW 41
4 Vyhodnotenie dosiahnutých výsledkov 42
4.1 Úspešnosť detekcie 45
5 Záver 47
Zoznam použitej literatúry 48

Zdroje:

PSUTKA, J. et. al. Mluvíme s počítačem česky. 1. vydání. Praha: Academia, 2006. ISBN 80-200-1309-0
CASSISI, Carmelo – MONTALDO, Placido - ALIOTTA Marco – CANNATA, Andrea: Similiarity Measures and Dimensionality Reduction Techniques for Time Series Data Mining. Intech DOI: 10.5772/49.
CASSISI, Carmelo – MONTALDO, Placido - ALIOTTA Marco – CANNATA, Andrea: Similiarity Measures and Dimensionality Reduction Techniques for Time Series Data Mining. Intech DOI: 10.5772/49.
Delacourt, P.; Wellekens, Christian, "Audio data indexing: Use of second-order statistics for speaker-based segmentation," Multimedia Computing and Systems, 1999. IEEE International Conference on , vol.2, no., pp.959,963 vol.2, Jul 1999 doi: 10.1109/MMCS.1999.778619.
MEINEDO, H. – NETO, J.: Detection of Acoustic Patterns in Broadcast News using Neural Networks. Instituto Superior Técnico ID:192/p.l, Lisabon, 2004.

Zdieľaj na Facebooku

Stiahni

Pridaj projekt

Pridaj projekt a získaj kredity za stiahnutie. S kreditmi možeš sťahovať iné projekty. Je to jednoduché :)

Najčastejšie

Zobraz

Odporúčame

Prihlásenie/login

Technická univerzita v Košiciach - TUKE