440-4224/01 – Zpracování řečového signálu (ZŘS)
Garantující katedra | Katedra telekomunikační techniky | Kredity | 4 |
Garant předmětu | Ing. Jaromír Továrek, Ph.D. | Garant verze předmětu | Ing. Jaromír Továrek, Ph.D. |
Úroveň studia | pregraduální nebo graduální | Povinnost | volitelný odborný |
Ročník | 2 | Semestr | zimní |
| | Jazyk výuky | čeština |
Rok zavedení | 2016/2017 | Rok zrušení | |
Určeno pro fakulty | FEI | Určeno pro typy studia | navazující magisterské |
Cíle předmětu vyjádřené dosaženými dovednostmi a kompetencemi
Po absolvování předmětu budou studenti schopni samostatně řešit úlohy z oblasti zpracování řečových signálů. Získají přehled o základních přístupech a metodách zpracování řečových signálů, jako jsou extrakce příznaků a jejich zpracování pomocí neuronových sítí či skrytých Markovových modelů. Zvládnou implementovat jednoduchý systém pro identifikaci řečníka či rozpoznání emocí z řečového signálu.
Vyučovací metody
Přednášky
Cvičení (v učebně)
Experimentální práce v laboratoři
Anotace
Oblast zpracování řečových signálů patří k důležitým oblastem informačních a komunikačních technologií a kurz si klade za cíl připravit studenta na praktické zvládnutí úloh, kterými jsou SI (Speaker Identification), ASR (Automatic Speech Recognition), TTS (Text to Speech) a SER (Speaker Emotion Recognition). Získané dovednosti najdou uplatnění při návrhu a implementaci komplexních systémů, kde se zpracování řečových signálů využívá.
Povinná literatura:
Doporučená literatura:
Forma způsobu ověření studijních výsledků a další požadavky na studenta
Test (0-15) bodů
Projekt (0-25) bodů
E-learning
http://lms.vsb.cz/
Další požadavky na studenta
Žádné další požadavky na studenta nejsou kladeny.
Prerekvizity
Předmět nemá žádné prerekvizity.
Korekvizity
Předmět nemá žádné korekvizity.
Osnova předmětu
Osnova přednášek
1. Úvod do předmětu a oblasti zpracování řečových signálů, základní úlohy a praktická aplikace jejich použití.
2. Tvorba řeči, základní pojmy, reprezentace a předzpracování signálu (DC Offset, preemfáze, segmentace, váhování).
3. Základní parametry - Energie, průchody nulou (ZCR), Jitter, Shimmer, teorie autokorelace.
4. Analýza řečového signálu - způsoby určování základního tónu řeči F0 a rozpoznání souhlásek znělých od neznělých a další využítí F0.
5. Spektrum, spektrogram, spektrální analýza samohlásek a souhlásek.
6. Kepstrum, kepstrální analýza, Mel-frekvenční kepstrální koeficienty a další parametry řeči.
7. Úvod do klasifikace a využití SOM, k-NN, GMM, ANN a fúze klasifikátorů.
8. Rozpoznávání řečníka (SI) a možné přístupy k řešení.
9. Rozpoznávání emočního stavu řečníka (SER), projevy emocí v posuvu F0, rozpoznání stresu.
10. Rozpoznávání řeči (ASR) a možné přístupy k řešení
11. Skryté Markovovy modely (HMM), struktura, trénování a jejich využití pro rozpoznávání řeči (Viterbiho algoritmus a token-passing).
12. Metody syntézy řeči a vokodéry.
13. Převod textu do řeči (TTS), aplikace s využitím řečových korpusů a open-source projektů.
14. Současné trendy a poslední poznatky v oblasti zpracování řečových signálů, diskuze.
Osnova cvičení
1. Úvod, bezpečnost, podmínky absolvování předmětu
2. Praktické procvičení - předzpracování řečového signálu v prostředí – odstranění stejnosměrné složky, preemfáze, segmentace, váhování oknem
3. Praktické procvičení - Extrakce základních (skalárních) řečových parametrů – energie, počet průchodů nulou, základní frekvence
4. Praktické procvičení - Spektrální analýza řečového signálu
5. Praktické procvičení - Extrakce vektorových příznaků – MFCC, LPC
6. Test a zadání semestrálních projektů
7. Návrh systému pro rozpoznávání řečníka - GMM, ANN
8. Ukázka vypracování projektu
9. Návrh systému pro rozpoznávání emočního stavu - GMM, ANN
10. Návrh systému pro rozpoznávání řeči - DTW, HMM
11. Syntéza řeči
12. Fúze klasifikátorů
13. Prezentace projektů
Podmínky absolvování předmětu
Výskyt ve studijních plánech
Výskyt ve speciálních blocích
Hodnocení Výuky
Předmět neobsahuje žádné hodnocení.