Apache Spark

Το Apache Spark είναι ένα πλαίσιο παράλληλης επεξεργασίας ανοικτού κώδικα, σχεδιασμένο για την ανάλυση και τη μοντελοποίηση Μεγάλων Δεδομένων (Big Data). Σε αντίθεση με τα παραδοσιακά εργαλεία επεξεργασίας που διαχειρίζονται δεδομένα σε ένα μόνο μηχάνημα, το Spark επιτρέπει τη διασπορά των δεδομένων και των υπολογισμών σε συστοιχίες (clusters) με πολλούς κόμβους. Αποτελεί το πρότυπο της βιομηχανίας για επεξεργασία δεδομένων υψηλής ταχύτητας, καθώς λειτουργεί κυρίως εντός μνήμης (in-memory), επιτρέποντάς του να επεξεργάζεται τεράστια σύνολα δεδομένων έως και 100 φορές ταχύτερα από παλαιότερα συστήματα βασισμένα σε δίσκους, όπως το MapReduce. Το Spark αντιπροσωπεύει τη δυνατότητα «βαριάς επεξεργασίας» ενός οργανισμού, παρέχοντας την υποδομή που απαιτείται για την εκτέλεση σύνθετης μηχανικής μάθησης και αναλύσεων πραγματικού χρόνου σε παγκόσμια κλίμακα.

Bias (Μεροληψία)

Στο πλαίσιο της Επιστήμης Δεδομένων, το Bias (Μεροληψία) αναφέρεται στην απόσταση μεταξύ της μέσης πρόβλεψης ενός μοντέλου και της πραγματικής τιμής που προσπαθούμε να προβλέψουμε. Υψηλό Bias σημαίνει ότι το μοντέλο είναι υπερβολικά απλουστευμένο, αποτυγχάνοντας να συλλάβει τις υποκείμενες τάσεις των δεδομένων — ένα φαινόμενο γνωστό ως Underfitting. Πέρα από τη μαθηματική διάσταση, ο όρος περιλαμβάνει και την Αλγοριθμική Μεροληψία (Algorithmic Bias), όπου το μοντέλο αναπαράγει ή ενισχύει προκαταλήψεις που υπάρχουν στα δεδομένα εκπαίδευσης, οδηγώντας σε άδικες ή μεροληπτικές αποφάσεις έναντι συγκεκριμένων ομάδων. Αν το Bayes’ Theorem αφορά την ενημέρωση των πεποιθήσεών μας, το Bias αφορά τα «τυφλά σημεία» που εμποδίζουν το μοντέλο να δει την πλήρη εικόνα.

Επιχειρηματική Αναλυτική (Business Analytics - BA)

Η Επιχειρηματική Αναλυτική (Business Analytics - BA) είναι η πρακτική της χρήσης ιστορικών και τρεχόντων δεδομένων για την ανακάλυψη επιχειρησιακών γνώσεων, την πρόβλεψη των τάσεων της αγοράς και τη λήψη επιχειρηματικών αποφάσεων βάσει δεδομένων. Σε αντίθεση με την απλή αναφορά (reporting), η οποία περιγράφει μόνο τι συνέβη, η BA εστιάζει στο γιατί συνέβη και στο τι είναι πιθανό να συμβεί στη συνέχεια. Είναι η γέφυρα μεταξύ των ακατέργαστων δεδομένων και της διοικητικής δράσης, μετατρέποντας τους αριθμούς σε έναν οδικό χάρτη για την ανάπτυξη.

Διωνυμική Κατανομή (Binomial Distribution)

Η Διωνυμική Κατανομή είναι μια διακριτή κατανομή πιθανοτήτων που μοντελοποιεί τον αριθμό των «επιτυχιών» σε έναν σταθερό αριθμό ανεξάρτητων δοκιμών. Αποτελεί τη μαθηματική βάση για σενάρια όπου υπάρχουν μόνο δύο πιθανά αποτελέσματα—συχνά απλοποιημένα ως Επιτυχία έναντι Αποτυχίας, Ναι έναντι Όχι ή Αθέτηση έναντι Πληρωμής. Για να θεωρηθεί μια κατανομή Διωνυμική, πρέπει να πληροί τέσσερα συγκεκριμένα κριτήρια: ο αριθμός των δοκιμών (n) είναι σταθερός, κάθε δοκιμή είναι ανεξάρτητη, υπάρχουν μόνο δύο πιθανά αποτελέσματα και η πιθανότητα επιτυχίας (p) παραμένει σταθερή καθ' όλη τη διάρκεια της διαδικασίας. Επιτρέπει σε έναν Επιστήμονα Δεδομένων να περάσει από τις υποθέσεις στον ακριβή υπολογισμό του πόσο πιθανός είναι ένας συγκεκριμένος όγκος αποτελεσμάτων μέσα σε ένα δεδομένο δείγμα.

Principal Component Analysis (PCA)

Το Principal Component Analysis (PCA) είναι μια στατιστική τεχνική παραγοντικής ανάλυσης και μείωσης διαστασιολόγησης που μετασχηματίζει ένα σύνολο πιθανώς συσχετισμένων αρχικών χαρακτηριστικών σε ένα μικρότερο σύνολο γραμμικά μη συσχετισμένων χαρακτηριστικών που ονομάζονται κύριες συνιστώσες. Με αυτόν τον τρόπο, η PCA διατηρεί όσο το δυνατόν μεγαλύτερη διακύμανση στο σύνολο δεδομένων, ελαχιστοποιώντας παράλληλα τον αριθμό των χαρακτηριστικών.

Logistic Regression

Το Logistic Regression είναι ένας αλγόριθμος βελτιστοποίησης που χρησιμοποιεί μια λογιστική συνάρτηση στα χαρακτηριστικά εισόδου για να προβλέψει την πιθανότητα της κλάσης ή απευθείας την ετικέτα κλάσης για τη μεταβλητή-στόχο. Στη δεύτερη περίπτωση, η έξοδος αντιπροσωπεύει ένα σύνολο κατηγοριών αντί για συνεχείς τιμές, πράγμα που σημαίνει ότι η λογιστική παλινδρόμηση λειτουργεί εδώ ως τεχνική ταξινόμησης. Μια τυπική περίπτωση χρήσης logistic regression στην επιστήμη δεδομένων είναι η πρόβλεψη της πιθανότητας απώλειας πελατών.

Normalization

Το normalization είναι η διαδικασία αναπροσαρμογής της κλίμακας των δεδομένων έτσι ώστε όλα τα χαρακτηριστικά να έχουν την ίδια κλίμακα. Το normalization είναι απαραίτητο για την πραγματοποίηση μιας ουσιαστικής σύγκρισης μεταξύ των χαρακτηριστικών και απαιτείται επίσης για ορισμένους αλγόριθμους μηχανικής μάθησης.

Classification

To classification είναι μια εποπτευόμενη (supervised) διαδικασία μηχανικής μάθησης όπου ένας αλγόριθμος κατηγοριοποιεί τα δεδομένα εισόδου σε προκαθορισμένες διακριτές κλάσεις ή ετικέτες. Αναλύει τις συγκεκριμένες μεταβλητές (χαρακτηριστικά) των δεδομένων και προβλέπει σε ποια κατηγορία ανήκουν τα νέα δεδομένα, αυστηρά βασισμένη σε μαθηματικά μοτίβα που έχουν αντληθεί από ιστορικά δεδομένα εκπαίδευσης.

Clustering

Το Clustering είναι ένα μη επιβλεπόμενο (unsupervised) πρόβλημα μάθησης που ασχολείται με την ομαδοποίηση όλων των παρατηρήσεων ενός συνόλου δεδομένων σύμφωνα με την ομοιότητά τους με ορισμένα κοινά χαρακτηριστικά. Συνήθεις αλγόριθμοι ομαδοποίησης είναι οι k-means, η hierarchical clustering, η spectral clustering, κ.λπ.

Kickstart your data career today!

Kickstart your data career today!