460-4074/01 – Metody analýzy textových dat (MATD )

Garantující katedraKatedra informatikyKredity4
Garant předmětudoc. Mgr. Jiří Dvorský, Ph.D.Garant verze předmětudoc. Mgr. Jiří Dvorský, Ph.D.
Úroveň studiapregraduální nebo graduálníPovinnostpovinně volitelný
Ročník2Semestrzimní
Odkaz na webJazyk výukyčeština
Rok zavedení2015/2016Rok zrušení
Určeno pro fakultyFEI, USPUrčeno pro typy studianavazující magisterské
Výuku zajišťuje
Os. čís.JménoCvičícíPřednášející
DVO26 doc. Mgr. Jiří Dvorský, Ph.D.
HAN0037 Ing. Jiří Hanzelka
Rozsah výuky pro formy studia
Forma studiaZp.zak.Rozsah
prezenční Klasifikovaný zápočet 2+2
kombinovaná Klasifikovaný zápočet 10+0

Cíle předmětu vyjádřené dosaženými dovednostmi a kompetencemi

Cílem předmětu je seznámit studenty se základními i pokročilými technikami analýzy textových dat. Po absolvování předmětu bude student schopen: popsat jednotlivé metody analýzy textových dat, porozumět těmto metodám, implementovat tyto metody, případně využít existující knihovny, začlenit tyto metody do vlastního návrhu analýzy konkrétních dat.

Vyučovací metody

Přednášky
Cvičení (v učebně)

Anotace

Předmět se zabývá základními principy analýzy textových dokumentů. Textové dokumenty jsou chápány jako typický zástupce slabě strukturovaných dat. Představeny budou jednotlivé oblasti zpracování textových dat - dokumentů, webových stránek. Součástí předmětu jsou algoritmy pro vyhledávání vzorku v textu, konstrukce indexových systémů pro textová data, práce s přirozenými jazyky v nichž jsou texty psány. Dále budou popsány jednotlivé přístupy k vyhledávání v textových datech a to včetně metod analýzy latentní sémantiky. V závěru se předmět věnuje vyhledávání na webu.

Povinná literatura:

1. Kopecký M., Pokorný J.:Dokumentografické informační systémy, Karolinum 2006, ISBN 8024611481 2. Witten I. H., Moffat A., Bell T. C.: Managing Gigabytes (2nd ed.): Compressing and Indexing Documents and Images, Morgan Kaufmann Publishers Inc., 1999, ISBN 1-55860-570-3 3. Baeza-Yates R. A., Ribeiro-Neto B.: Modern Information Retrieval, Addison-Wesley Longman Publishing Co., Inc., 1999, ISBN 020139829X 4. Feldman R., Sanger J.: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data, Cambridge University Press, 2006, ISBN 978-0521836579 5. Berry M. W., Kogan J.: Text Mining: Applications and Theory, Wiley, 2010, ISBN 978-0470749821 6. Weiss S. M., Indurkhya N., Zhang T.: Fundamentals of Predictive Text Mining, Springer, 2010, ISBN 978-1849962254 7. Langville, A. N. & Meyer, C. D. Google's PageRank and Beyond: The Science of Search Engine Rankings Princeton University Press, 2006 8. Manning, C. D.; Raghavan, P. & Schutze, H. Introduction to Information Retrieval, Cambridge University Press, 2008 9. Korfhage, R. R. Information Storage and Retrieval, John Wiley & Sons, 1997

Doporučená literatura:

Witten, I. H.; Gori, M. & Numerico, T. Web Dragons: Inside the Myths of Search Engine Technology, Morgan Kaufmann, 2006

Způsob průběžné kontroly znalostí během semestru

E-learning

Další požadavky na studenta

Znalosti programování a matematiky na úrovní absolventa bakalářského studia.

Minimální znalostní požadavky

Prerekvizity

Předmět nemá žádné prerekvizity.

Korekvizity

Předmět nemá žádné korekvizity.

Osnova předmětu

Témata přednášek: 1. Úvod do problematiky informačních systémů. Historie a vývoj vyhledávání v textech. Rozdíly mezi faktografickými a dokumentografickými IS. Obecný model dokumentografických systému. 2. Algoritmy pro přesné vyhledávání v textech. Algoritmy vyhledávání jednoho vzorku. Algoritmy vyhledávání více vzorků (algoritmus Aho-Corasickové). Vyhledávání regulárních výrazů konečnými automaty. Algoritmy pro přibližné vyhledávání v textech. 3. Sufixové stromy. DAWG. Patricia a podobné datové struktury. 4. Primární zpracování textů. Lexikální analýza. Stemming. Lematizace. Stop slova. 5. Konstrukce indexových systémů. Zipfův zákon a odhad velikosti indexového systému. Indexování založené na třídění. Poziční indexové systémy. Metody vážení termů. TF-IDF váhy termů. Metody komprese indexových systémů. Metody kódování přirozených čísel. 6. Dotazovací jazyky. Relevance dokumentu. Míra podobnosti dvojice dokument-dotaz. Relevance vs. podobnost. Struktura a vyhodnocení dotazu. Booleovský DIS. Hodnocení dokumentografických systémů (přesnost, úplnost, F-míra). 7. Signaturové metody. Řetězené a vrstvené kódování signatur. Efektivní vyhodnocení dotazů. 8. Latentní sémantika. Metody redukce dimenze. Metody založené na rozkladu matic. Náhodná projekce. Vektorové DIS. Konstrukce a vyhodnocení vektorových dotazů. Ostatní typy DIS (rozšířené Booleovské). Indexování, struktura dotazů, vyhodnocení dotazů. 9. Vyhledávání na webu. Analýza hypertextových dokumentů, strukturální metody. PageRank a HITS. Metavyhledávání a kooperativní vyhledávání. Aplikace výpočetní inteligence a soft computingu ve zpracování a vyhledání textu. 10. Metody automatické sumarizace: abstrakce a extrakce. Detekce a vývoj tématu. Analýza sentimentu, klasifikace a shlukování dokumentů. 11. Paralelní a distribuované vyhledávání. Decentralizované a P2P vyhledávání. 12. Semantické a kontextové vyhledávání, technologie Hummingbird, Snapshot (Satori), a Graph Search. Témata cvičení: 1. Implementace algoritmů pro přesné vyhledávání v textu. Testování výkonnosti. 2. Vyhledávání pomocí regulárních výrazů, implementace, využití open-source knihoven. 3. Algoritmy pro přibližné vyhledávání v textu 4. Využití sufixových stromů, DAWG. Konstrukce slovníků s těmito strukturami. 5. Implementace lexikálního analyzátoru. Testování výkonnosti. 6. Poziční indexové systémy. TF-IDF vážení termů. 7. Metody komprese indexových systémů. 8. Dotazování nad Boolovským DIS. 9. Latentní sémantika. Výpočet SVD, NMF. Využití open-source knihoven. Náhodné projekce. 10. Vektorový DIS. 11. Výpočet PageRank. 12. Shlukování dokumentů. Zápočet bude udělen za vypracování referátu na vybrané téma a jeho prezentaci na cvičení. Témata budou zveřejňována pro každý akademický rok na webu přednášejícího.

Podmínky absolvování předmětu

Prezenční forma (platnost od: 2015/2016 zimní semestr)
Název úlohyTyp úlohyMax. počet bodů
(akt. za podúlohy)
Min. počet bodů
Klasifikovaný zápočet Klasifikovaný zápočet 100  51
Rozsah povinné účasti:

Zobrazit historii

Výskyt ve studijních plánech

Akademický rokProgramOborSpec.FormaJazyk výuky Konz. stř.RočníkZLTyp povinnosti
2017/2018 (N2647) Informační a komunikační technologie (2612T025) Informatika a výpočetní technika P čeština Ostrava 2 povinně volitelný stu. plán
2017/2018 (N2647) Informační a komunikační technologie (2612T025) Informatika a výpočetní technika K čeština Ostrava 2 povinně volitelný stu. plán
2017/2018 (N2647) Informační a komunikační technologie (2612T059) Mobilní technologie P čeština Ostrava 2 volitelný odborný stu. plán
2017/2018 (N2647) Informační a komunikační technologie (2612T059) Mobilní technologie K čeština Ostrava 2 volitelný odborný stu. plán
2017/2018 (N2658) Výpočetní vědy (2612T078) Výpočetní vědy P čeština Ostrava 2 povinně volitelný stu. plán
2016/2017 (N2658) Výpočetní vědy (2612T078) Výpočetní vědy P čeština Ostrava 2 povinně volitelný stu. plán
2016/2017 (N2647) Informační a komunikační technologie (2612T059) Mobilní technologie P čeština Ostrava 2 volitelný odborný stu. plán
2016/2017 (N2647) Informační a komunikační technologie (2612T059) Mobilní technologie K čeština Ostrava 2 volitelný odborný stu. plán
2016/2017 (N2647) Informační a komunikační technologie (2612T025) Informatika a výpočetní technika P čeština Ostrava 2 povinně volitelný stu. plán
2016/2017 (N2647) Informační a komunikační technologie (2612T025) Informatika a výpočetní technika K čeština Ostrava 2 povinně volitelný stu. plán
2015/2016 (N2647) Informační a komunikační technologie (2612T059) Mobilní technologie P čeština Ostrava 2 volitelný odborný stu. plán
2015/2016 (N2647) Informační a komunikační technologie (2612T059) Mobilní technologie K čeština Ostrava 2 volitelný odborný stu. plán
2015/2016 (N2647) Informační a komunikační technologie (2612T025) Informatika a výpočetní technika P čeština Ostrava 2 povinně volitelný stu. plán
2015/2016 (N2647) Informační a komunikační technologie (2612T025) Informatika a výpočetní technika K čeština Ostrava 2 povinně volitelný stu. plán

Výskyt ve speciálních blocích

Název blokuAkademický rokForma studiaJazyk výuky RočníkZLTyp blokuVlastník bloku