460-4074/01 – Metody analýzy textových dat (MATD )

Garantující katedraKatedra informatikyKredity4
Garant předmětudoc. Mgr. Jiří Dvorský, Ph.D.Garant verze předmětudoc. Mgr. Jiří Dvorský, Ph.D.
Úroveň studiapregraduální nebo graduálníPovinnostvolitelný odborný
RočníkSemestrzimní
Jazyk výukyčeština
Rok zavedení2015/2016Rok zrušení
Určeno pro fakultyFEI, USPUrčeno pro typy studianavazující magisterské
Výuku zajišťuje
Os. čís.JménoCvičícíPřednášející
DVO26 doc. Mgr. Jiří Dvorský, Ph.D.
VAS218 Ing. Michal Vašinek, Ph.D.
Rozsah výuky pro formy studia
Forma studiaZp.zak.Rozsah
prezenční Klasifikovaný zápočet 2+2
kombinovaná Klasifikovaný zápočet 18+0

Cíle předmětu vyjádřené dosaženými dovednostmi a kompetencemi

Cílem předmětu je seznámit studenty se základními i pokročilými technikami analýzy textových dat. Po absolvování předmětu bude student schopen: popsat jednotlivé metody analýzy textových dat, porozumět těmto metodám, implementovat tyto metody, případně využít existující knihovny, začlenit tyto metody do vlastního návrhu analýzy konkrétních dat.

Vyučovací metody

Přednášky
Cvičení (v učebně)

Anotace

Předmět se zabývá základními principy analýzy textových dokumentů. Textové dokumenty jsou chápány jako typický zástupce slabě strukturovaných dat. Představeny budou jednotlivé oblasti zpracování textových dat - dokumentů, webových stránek. Součástí předmětu jsou algoritmy pro vyhledávání vzorku v textu, konstrukce indexových systémů pro textová data, práce s přirozenými jazyky v nichž jsou texty psány. Dále budou popsány jednotlivé přístupy k vyhledávání v textových datech a to včetně metod analýzy latentní sémantiky. V závěru se předmět věnuje vyhledávání na webu.

Povinná literatura:

1. Kopecký M., Pokorný J.:Dokumentografické informační systémy, Karolinum 2006, ISBN 8024611481 2. Manning, C. D.; Raghavan, P. & Schutze, H. Introduction to Information Retrieval, Cambridge University Press, 2008 3. Witten I. H., Moffat A., Bell T. C.: Managing Gigabytes (2nd ed.): Compressing and Indexing Documents and Images, Morgan Kaufmann Publishers Inc., 1999, ISBN 1-55860-570-3 4. Baeza-Yates R. A., Ribeiro-Neto B.: Modern Information Retrieval, Addison-Wesley Longman Publishing Co., Inc., 1999, ISBN 020139829X 5. Feldman R., Sanger J.: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data, Cambridge University Press, 2006, ISBN 978-0521836579 6. Berry M. W., Kogan J.: Text Mining: Applications and Theory, Wiley, 2010, ISBN 978-0470749821 7. Weiss S. M., Indurkhya N., Zhang T.: Fundamentals of Predictive Text Mining, Springer, 2010, ISBN 978-1849962254 8. Langville, A. N. & Meyer, C. D. Google's PageRank and Beyond: The Science of Search Engine Rankings Princeton University Press, 2006 9. Korfhage, R. R. Information Storage and Retrieval, John Wiley & Sons, 1997

Doporučená literatura:

1. Witten, I. H.; Gori, M. & Numerico, T. Web Dragons: Inside the Myths of Search Engine Technology, Morgan Kaufmann, 2006

Forma způsobu ověření studijních výsledků a další požadavky na studenta

Podmínky udělení zápočtu Realizace a obhajoba projektu. Programování jednoduchých aplikací na cvičeních. Účast na cvičeních.

E-learning

Další požadavky na studenta

Znalosti programování a matematiky na úrovní absolventa bakalářského studia.

Prerekvizity

Předmět nemá žádné prerekvizity.

Korekvizity

Předmět nemá žádné korekvizity.

Osnova předmětu

Témata přednášek: 1. Úvod do problematiky informačních systémů. Historie a vývoj vyhledávání v textech. Rozdíly mezi faktografickými a dokumentografickými IS. Obecný model dokumentografických systému. 2. Algoritmy pro přesné vyhledávání v textech. Algoritmy vyhledávání jednoho vzorku. Algoritmy vyhledávání více vzorků (algoritmus Aho-Corasickové). Vyhledávání regulárních výrazů konečnými automaty. Algoritmy pro přibližné vyhledávání v textech. 3. Sufixové stromy. DAWG. Patricia a podobné datové struktury. 4. Primární zpracování textů. Lexikální analýza. Stemming. Lematizace. Stop slova. 5. Konstrukce indexových systémů. Zipfův zákon a odhad velikosti indexového systému. Indexování založené na třídění. Poziční indexové systémy. Metody vážení termů. TF-IDF váhy termů. Metody komprese indexových systémů. Metody kódování přirozených čísel. 6. Dotazovací jazyky. Relevance dokumentu. Míra podobnosti dvojice dokument-dotaz. Relevance vs. podobnost. Struktura a vyhodnocení dotazu. Booleovský DIS. Hodnocení dokumentografických systémů (přesnost, úplnost, F-míra). 7. Signaturové metody. Řetězené a vrstvené kódování signatur. Efektivní vyhodnocení dotazů. 8. Latentní sémantika. Metody redukce dimenze. Metody založené na rozkladu matic. Náhodná projekce. Vektorové DIS. Konstrukce a vyhodnocení vektorových dotazů. Ostatní typy DIS (rozšířené Booleovské). Indexování, struktura dotazů, vyhodnocení dotazů. 9. Vyhledávání na webu. Analýza hypertextových dokumentů, strukturální metody. PageRank a HITS. Metavyhledávání a kooperativní vyhledávání. Aplikace výpočetní inteligence a soft computingu ve zpracování a vyhledání textu. 10. Metody automatické sumarizace: abstrakce a extrakce. Detekce a vývoj tématu. Analýza sentimentu, klasifikace a shlukování dokumentů. 11. Paralelní a distribuované vyhledávání. Decentralizované a P2P vyhledávání. 12. Semantické a kontextové vyhledávání. Neural Information Retrieval. Témata cvičení: 1. Implementace algoritmů pro přesné vyhledávání v textu. Testování výkonnosti. 2. Vyhledávání pomocí regulárních výrazů, implementace, využití open-source knihoven. 3. Algoritmy pro přibližné vyhledávání v textu 4. Využití sufixových stromů, DAWG. Konstrukce slovníků s těmito strukturami. 5. Implementace lexikálního analyzátoru. Testování výkonnosti. 6. Poziční indexové systémy. TF-IDF vážení termů. 7. Metody komprese indexových systémů. 8. Dotazování nad Boolovským DIS. 9. Latentní sémantika. Výpočet SVD, NMF. Využití open-source knihoven. Náhodné projekce. 10. Vektorový DIS. 11. Výpočet PageRank. 12. Shlukování dokumentů. Zápočet bude udělen za vypracování referátu na vybrané téma a jeho prezentaci na cvičení. Témata budou zveřejňována pro každý akademický rok na webu přednášejícího.

Podmínky absolvování předmětu

Kombinovaná forma (platnost od: 2015/2016 zimní semestr)
Název úlohyTyp úlohyMax. počet bodů
(akt. za podúlohy)
Min. počet bodůMax. počet pokusů
Klasifikovaný zápočet Klasifikovaný zápočet 100  51 3
Rozsah povinné účasti: Účast na cvičeních je povinná a je kontrolována. S rozsahem povinné účastí seznámí studenty garant předmětu na začátku semestru.

Zobrazit historii

Podmínky absolvování předmětu a účast na cvičeních v rámci ISP: Podmínky absolvování předmětu - Splnění všech povinných úkolů v individuálně dohodnutých termínech.

Zobrazit historii

Výskyt ve studijních plánech

Akademický rokProgramObor/spec.Spec.ZaměřeníFormaJazyk výuky Konz. stř.RočníkZLTyp povinnosti
2023/2024 (N0613A140034) Informatika DS K čeština Ostrava 1 povinně volitelný typu A stu. plán
2023/2024 (N0613A140034) Informatika AZD K čeština Ostrava 1 povinně volitelný typu A stu. plán
2023/2024 (N0613A140034) Informatika DS P čeština Ostrava 1 povinně volitelný typu A stu. plán
2023/2024 (N0613A140034) Informatika AZD P čeština Ostrava 1 povinně volitelný typu A stu. plán
2023/2024 (N0541A170007) Výpočetní a aplikovaná matematika (S01) Aplikovaná matematika P čeština Ostrava volitelný odborný stu. plán
2023/2024 (N0541A170007) Výpočetní a aplikovaná matematika (S01) Aplikovaná matematika K čeština Ostrava volitelný odborný stu. plán
2023/2024 (N0541A170007) Výpočetní a aplikovaná matematika (S02) Výpočetní metody a HPC P čeština Ostrava volitelný odborný stu. plán
2023/2024 (N0541A170007) Výpočetní a aplikovaná matematika (S02) Výpočetní metody a HPC K čeština Ostrava volitelný odborný stu. plán
2023/2024 (N2647) Informační a komunikační technologie (2612T059) Mobilní technologie P čeština Ostrava 2 volitelný odborný stu. plán
2023/2024 (N2647) Informační a komunikační technologie (2612T059) Mobilní technologie K čeština Ostrava 2 volitelný odborný stu. plán
2023/2024 (N2647) Informační a komunikační technologie (2612T025) Informatika a výpočetní technika P čeština Ostrava 2 povinně volitelný stu. plán
2023/2024 (N2647) Informační a komunikační technologie (2612T025) Informatika a výpočetní technika K čeština Ostrava 2 povinně volitelný stu. plán
2022/2023 (N0613A140034) Informatika DS K čeština Ostrava 1 povinně volitelný typu A stu. plán
2022/2023 (N0613A140034) Informatika AZD K čeština Ostrava 1 povinně volitelný typu A stu. plán
2022/2023 (N0613A140034) Informatika DS P čeština Ostrava 1 povinně volitelný typu A stu. plán
2022/2023 (N0613A140034) Informatika AZD P čeština Ostrava 1 povinně volitelný typu A stu. plán
2022/2023 (N0541A170007) Výpočetní a aplikovaná matematika (S01) Aplikovaná matematika K čeština Ostrava volitelný odborný stu. plán
2022/2023 (N0541A170007) Výpočetní a aplikovaná matematika (S01) Aplikovaná matematika P čeština Ostrava volitelný odborný stu. plán
2022/2023 (N0541A170007) Výpočetní a aplikovaná matematika (S02) Výpočetní metody a HPC K čeština Ostrava volitelný odborný stu. plán
2022/2023 (N0541A170007) Výpočetní a aplikovaná matematika (S02) Výpočetní metody a HPC P čeština Ostrava volitelný odborný stu. plán
2022/2023 (N2647) Informační a komunikační technologie (2612T025) Informatika a výpočetní technika P čeština Ostrava 2 povinně volitelný stu. plán
2022/2023 (N2647) Informační a komunikační technologie (2612T025) Informatika a výpočetní technika K čeština Ostrava 2 povinně volitelný stu. plán
2022/2023 (N2647) Informační a komunikační technologie (2612T059) Mobilní technologie P čeština Ostrava 2 volitelný odborný stu. plán
2022/2023 (N2647) Informační a komunikační technologie (2612T059) Mobilní technologie K čeština Ostrava 2 volitelný odborný stu. plán
2021/2022 (N0541A170007) Výpočetní a aplikovaná matematika (S01) Aplikovaná matematika P čeština Ostrava volitelný odborný stu. plán
2021/2022 (N0541A170007) Výpočetní a aplikovaná matematika (S02) Výpočetní metody a HPC K čeština Ostrava volitelný odborný stu. plán
2021/2022 (N0541A170007) Výpočetní a aplikovaná matematika (S02) Výpočetní metody a HPC P čeština Ostrava volitelný odborný stu. plán
2021/2022 (N0541A170007) Výpočetní a aplikovaná matematika (S01) Aplikovaná matematika K čeština Ostrava volitelný odborný stu. plán
2021/2022 (N2647) Informační a komunikační technologie (2612T059) Mobilní technologie P čeština Ostrava 2 volitelný odborný stu. plán
2021/2022 (N2647) Informační a komunikační technologie (2612T059) Mobilní technologie K čeština Ostrava 2 volitelný odborný stu. plán
2021/2022 (N2647) Informační a komunikační technologie (2612T025) Informatika a výpočetní technika P čeština Ostrava 2 povinně volitelný stu. plán
2021/2022 (N2647) Informační a komunikační technologie (2612T025) Informatika a výpočetní technika K čeština Ostrava 2 povinně volitelný stu. plán
2020/2021 (N2647) Informační a komunikační technologie (2612T025) Informatika a výpočetní technika P čeština Ostrava 2 povinně volitelný stu. plán
2020/2021 (N2647) Informační a komunikační technologie (2612T059) Mobilní technologie P čeština Ostrava 2 volitelný odborný stu. plán
2020/2021 (N2647) Informační a komunikační technologie (2612T025) Informatika a výpočetní technika K čeština Ostrava 2 povinně volitelný stu. plán
2020/2021 (N2647) Informační a komunikační technologie (2612T059) Mobilní technologie K čeština Ostrava 2 volitelný odborný stu. plán
2020/2021 (N0541A170007) Výpočetní a aplikovaná matematika (S01) Aplikovaná matematika K čeština Ostrava volitelný odborný stu. plán
2020/2021 (N0541A170007) Výpočetní a aplikovaná matematika (S02) Výpočetní metody a HPC P čeština Ostrava volitelný odborný stu. plán
2020/2021 (N0541A170007) Výpočetní a aplikovaná matematika (S01) Aplikovaná matematika P čeština Ostrava volitelný odborný stu. plán
2020/2021 (N0541A170007) Výpočetní a aplikovaná matematika (S02) Výpočetní metody a HPC K čeština Ostrava volitelný odborný stu. plán
2019/2020 (N2647) Informační a komunikační technologie (2612T025) Informatika a výpočetní technika P čeština Ostrava 2 povinně volitelný stu. plán
2019/2020 (N2647) Informační a komunikační technologie (2612T059) Mobilní technologie P čeština Ostrava 2 volitelný odborný stu. plán
2019/2020 (N2647) Informační a komunikační technologie (2612T025) Informatika a výpočetní technika K čeština Ostrava 2 povinně volitelný stu. plán
2019/2020 (N2647) Informační a komunikační technologie (2612T059) Mobilní technologie K čeština Ostrava 2 volitelný odborný stu. plán
2019/2020 (N0541A170007) Výpočetní a aplikovaná matematika (S01) Aplikovaná matematika P čeština Ostrava volitelný odborný stu. plán
2019/2020 (N0541A170007) Výpočetní a aplikovaná matematika (S02) Výpočetní metody a HPC P čeština Ostrava volitelný odborný stu. plán
2019/2020 (N0541A170007) Výpočetní a aplikovaná matematika (S01) Aplikovaná matematika K čeština Ostrava volitelný odborný stu. plán
2019/2020 (N0541A170007) Výpočetní a aplikovaná matematika (S02) Výpočetní metody a HPC K čeština Ostrava volitelný odborný stu. plán
2018/2019 (N2647) Informační a komunikační technologie (2612T025) Informatika a výpočetní technika P čeština Ostrava 2 povinně volitelný stu. plán
2018/2019 (N2647) Informační a komunikační technologie (2612T059) Mobilní technologie P čeština Ostrava 2 volitelný odborný stu. plán
2018/2019 (N2647) Informační a komunikační technologie (2612T025) Informatika a výpočetní technika K čeština Ostrava 2 povinně volitelný stu. plán
2018/2019 (N2647) Informační a komunikační technologie (2612T059) Mobilní technologie K čeština Ostrava 2 volitelný odborný stu. plán
2018/2019 (N2658) Výpočetní vědy (2612T078) Výpočetní vědy P čeština Ostrava 2 povinně volitelný stu. plán
2017/2018 (N2647) Informační a komunikační technologie (2612T025) Informatika a výpočetní technika P čeština Ostrava 2 povinně volitelný stu. plán
2017/2018 (N2647) Informační a komunikační technologie (2612T025) Informatika a výpočetní technika K čeština Ostrava 2 povinně volitelný stu. plán
2017/2018 (N2647) Informační a komunikační technologie (2612T059) Mobilní technologie P čeština Ostrava 2 volitelný odborný stu. plán
2017/2018 (N2647) Informační a komunikační technologie (2612T059) Mobilní technologie K čeština Ostrava 2 volitelný odborný stu. plán
2017/2018 (N2658) Výpočetní vědy (2612T078) Výpočetní vědy P čeština Ostrava 2 povinně volitelný stu. plán
2016/2017 (N2658) Výpočetní vědy (2612T078) Výpočetní vědy P čeština Ostrava 2 povinně volitelný stu. plán
2016/2017 (N2647) Informační a komunikační technologie (2612T059) Mobilní technologie P čeština Ostrava 2 volitelný odborný stu. plán
2016/2017 (N2647) Informační a komunikační technologie (2612T059) Mobilní technologie K čeština Ostrava 2 volitelný odborný stu. plán
2016/2017 (N2647) Informační a komunikační technologie (2612T025) Informatika a výpočetní technika P čeština Ostrava 2 povinně volitelný stu. plán
2016/2017 (N2647) Informační a komunikační technologie (2612T025) Informatika a výpočetní technika K čeština Ostrava 2 povinně volitelný stu. plán
2015/2016 (N2647) Informační a komunikační technologie (2612T059) Mobilní technologie P čeština Ostrava 2 volitelný odborný stu. plán
2015/2016 (N2647) Informační a komunikační technologie (2612T059) Mobilní technologie K čeština Ostrava 2 volitelný odborný stu. plán
2015/2016 (N2647) Informační a komunikační technologie (2612T025) Informatika a výpočetní technika P čeština Ostrava 2 povinně volitelný stu. plán
2015/2016 (N2647) Informační a komunikační technologie (2612T025) Informatika a výpočetní technika K čeština Ostrava 2 povinně volitelný stu. plán

Výskyt ve speciálních blocích

Název blokuAkademický rokForma studiaJazyk výuky RočníkZLTyp blokuVlastník bloku

Hodnocení Výuky2021/2022 zimní
2020/2021 zimní
2019/2020 zimní
2018/2019 zimní
2017/2018 zimní
2016/2017 zimní