9600-1020/02 – Libraries for parallel data processing (KPZD)
Gurantor department | IT4Innovations | Credits | 4 |
Subject guarantor | Ing. Jan Martinovič, Ph.D. | Subject version guarantor | Ing. Jan Martinovič, Ph.D. |
Study level | undergraduate or graduate | Requirement | Compulsory |
Year | 1 | Semester | winter |
| | Study language | English |
Year of introduction | 2019/2020 | Year of cancellation | |
Intended for the faculties | FEI, FMT | Intended for study types | Follow-up Master |
Subject aims expressed by acquired skills and competences
Students get an overview of libraries and frameworks for parallel processing of large data and gain a basic experience with usage of most famous libraries. The course shows basic concepts and manipulations with big data and basic paradigms and programming models for their processing. Exercises will use Python, a programming language where all well-known frameworks can be used.
Teaching methods
Lectures
Tutorials
Project work
Summary
Compulsory literature:
• Pandas documentation: http://pandas.pydata.org/
• Spark documentation: https://spark.apache.org/docs/latest/
• Tensorflow documentation: https://www.tensorflow.org/
• Keras documentation: https://keras.io/
HENDL, J., Big data - Věda o datech, základy a aplikace, Cosmopolis, 2021.
Recommended literature:
Additional study materials
Way of continuous check of knowledge in the course of semester
project development
E-learning
Other requirements
No other requirements.
Prerequisities
Subject has no prerequisities.
Co-requisities
Subject has no co-requisities.
Subject syllabus:
Student po absolvování předmětu získá přehled o knihovnách pro paralelní zpracování velkých dat a získá základní zkušenost s použitím nejznámějších knihoven. Budou představeny základní koncepty jak s velkými daty minipulovat a základní paradigmata a programové modely pro jejich zpracování. Cvičení budou probíhat v jazyce Python, ve kterém existují knhovny pro všechný známé frameworky.
Osnova předmětu:
1. Úvod do zpracování velkých dat
2. Základní manipulace s daty (Pandas, Numpy)
3. Map & Reduce model (Hadoop, Spark, Flink)
4. Paralelní zpracovaní numerických dat v Pythonu (Dask)
5. Knihovny pro neuronové sítě I (Tensorflow, Theano)
6. Knihovny pro neuronové sítě II (Keras)
7. Paralelizace obecných úloh (HyperLoom)
8. Workflow systémy (Luigi, Airflow)
Conditions for subject completion
Occurrence in study plans
Occurrence in special blocks
Assessment of instruction
Předmět neobsahuje žádné hodnocení.