Επιστήμη των Δεδομένων

Περιγραφή δεδομένων με γραφήματα και πίνακες. Παρουσίαση των βασικών στατιστικών μέτρων για τη περιγραφή δεδομένων. Προετοιμασία Δεδομένων. Η σημασία του ελέγχου και «ξεκαθαρίσματος» των δεδομένων (data cleaning). Εισαγωγή στις Βάσεις Δεδομένων. SQL. Εισαγωγή στην επιβλεπόμενη μάθηση: δέντρα απόφασης, λογιστική παλινδρόμηση. Εισαγωγή στην παλινδρόμηση: Πολλαπλή γραμμική παλινδρόμηση. Προβλέψεις. Βελτίωση ενός μοντέλου. Τα προβλήματα της υπερ-παραμετροποίησης (over-parametrization). Έλεγχος απόδοσης του μοντέλου. Μείωση Διαστάσεων (Dimensionality Reduction). Η διαδικασία επιλογής χαρακτηριστικών. Η μέθοδος των Κύριων Συνιστωσών (Principal Component Analysis) με SVD παραγοντοποιήση μητρώων. Μη-επιβλεπόμενη μάθηση, Ανάλυση κατά συστάδες (Clustering). Εφαρμογές και αξιολόγηση k-means. Εφαρμογή μοντέλων Ιεραρχικού Clustering. Ημι-επιβλεπόμενη μάθηση. Εισαγωγή στα μεταδεδομένα και στα Μεγάλα Δεδομένα (Big Data). Υπολογιστικές Μέθοδοι για Ανάλυση Μεγάλων Δεδομένων (Hadoop και MapReduce).

Κωδικός Εξάμηνο Τύπος Ώρες Εργαστήρια ECTS
ΗΥ-390 7 4 4
E-class

Βιβλιογραφία:

Updated: