Διερευνητική Ανάλυση Δεδομένων: Ορισμός, Σημασία & Τύποι
Οι data scientists προτού περάσουν στην διαδικασία μοντελοποίησης των δεδομένων τους, χρειάζεται να προσδιορίσουν τα χαρακτηριστικά του συνόλου των δεδομένων τους, εντοπίζοντας πιθανά μοτίβα και τάσεις.
Η διερευνητική ανάλυση των δεδομένων (exploratory data analysis) αποτελεί βασικό βήμα στην διατύπωση υποθέσεων και στην καθοδήγηση της επακόλουθης μοντελοποίησης και ανάλυσης.
Στο σημερινό λοιπόν οδηγό θα δούμε:
- Τι είναι η διερευνητική ανάλυση δεδομένων;
- Γιατί είναι σημαντική
- Ποιοι είναι οι βασικοί της τύποι
Τι Είναι η Διερευνητική Ανάλυση Δεδομένων και Γιατί Είναι Σημαντική;
Η διερευνητική ανάλυση δεδομένων (exploratory data analysis) είναι μια προσέγγιση στην ανάλυση και οπτικοποίηση συνόλων δεδομένων για τον προσδιορισμό και εντοπισμό των κύριων χαρακτηριστικών τους.
Ο βασικός στόχος της διερευνητικής ανάλυσης δεδομένων είναι η κατανόηση των υποκείμενων μοτίβων και των σχέσεων στα δεδομένα, προκειμένου να εντοπιστούν πιθανές τάσεις, ακραίες τιμές και ανωμαλίες.
Η διερευνητική ανάλυση δεδομένων είναι ένα από τα πρώτα βήματα στη διαδικασία ανάλυσης δεδομένων και διαδραματίζει βασικό ρόλο στη διατύπωση υποθέσεων και στην καθοδήγηση της επακόλουθης μοντελοποίησης και ανάλυσης.
Οι data scientists μπορούν να χρησιμοποιήσουν exploratory data analysis για να διασφαλίσουν ότι τα δεδομένα είναι ποιοτικά και τα αποτελέσματα που παράγουν είναι έγκυρα και εφαρμόσιμα σε ένα εύρος επιχειρηματικών στόχων.
Η διερευνητική ανάλυση δεδομένων είναι ιδιαίτερα σημαντική, καθώς μπορεί να βοηθήσει μια ομάδα δεδομένων να απαντήσει σε διάφορα ερωτήματα σχετικά με τις τυπικές αποκλίσεις και τις κατηγορικές μεταβλητές, και στη συνέχεια οι πληροφορίες αυτές να χρησιμοποιηθούν για σκοπούς data modeling και μηχανικής μάθησης.
Η διερευνητική ανάλυση δεδομένων αναπτύχθηκε αρχικά από τον Αμερικανό μαθηματικό John Tukey στη δεκαετία του 1970 και οι τεχνικές της εξακολουθούν σήμερα να είναι μια ευρέως χρησιμοποιούμενη μέθοδος στη διαδικασία διερεύνησης δεδομένων και διατύπωσης υποθέσεων.
Συνεχίζοντας, ας δούμε ποιοι είναι οι βασικοί τύποι της διερευνητικής ανάλυσης δεδομένων.
5 Βασικοί Τύποι Διερευνητικής Ανάλυσης Δεδομένων
Οι 5 βασικοί τύποι διερευνητικής ανάλυσης δεδομένων είναι οι εξής:
Τύπος #1: Μονομεταβλητή ανάλυση (Univariate analysis)
Η μονομεταβλητή ανάλυση (univariate analysis) είναι η απλούστερη μορφή διερευνητικής ανάλυσης δεδομένων, όπου τα δεδομένα τα οποία αναλύονται αποτελούνται από μία μόνο μεταβλητή.
Ο κύριος σκοπός της μονομεταβλητής ανάλυσης είναι να περιγράψει τα δεδομένα και να βρει μοτίβα που υπάρχουν μέσα σε αυτά, και όχι να βρεί την αιτία ή την σχέση ανάμεσα στα δεδομένα αυτά.
Οι τεχνικές που χρησιμοποιεί περιλαμβάνουν ιστογράμματα, ραβδογράμματα κ.α.
Τύπος #2: Διμεταβλητή ανάλυση (Bivariate analysis)
Η διμεταβλητή ανάλυση (bivariate analysis) περιλαμβάνει τη διερεύνηση των σχέσεων και της σύνδεσης μεταξύ των μεταβλητών.
Επιτρέπει την εύρεση συσχετίσεων, σχέσεων και εξαρτήσεων μεταξύ ζευγών μεταβλητών και τα ερωτήματα τα οποία τίθενται αφορούν ζητήματα όπως:
- Πόσο συσχετισμένο είναι ένα χαρακτηριστικό με ένα άλλο;
- Μια χαμηλότερη τιμή σε μια μεταβλητή αντιστοιχεί σε χαμηλότερη τιμή σε μια άλλη μεταβλητή;
- Τι είδους σχέση ακολουθούν τα δύο χαρακτηριστικά;
Τύπος #3: Πολυμεταβλητή ανάλυση (Multivariate analysis)
Η πολυμεταβλητή ανάλυση (multivariate analysis) επεκτείνει τη διμεταβλητή ανάλυση προκειμένου να περιλαμβάνει περισσότερες από δύο μεταβλητές.
Βασικός στόχος είναι η κατανόηση των πολύπλοκων αλληλεπιδράσεων και εξαρτήσεων μεταξύ δύο ή περισσότερων μεταβλητών των δεδομένων, χρησιμοποιώντας τεχνικές που περιλαμβάνουν heatmaps (χάρτες θερμότητας), διάγραμμα διασποράς (scatter plot) κ.α.
Τύπος #4: Ανάλυση χρονοσειρών (Time series analysis)
Η ανάλυση χρονοσειρών (time series analysis) αποτελεί ένα τρόπο ανάλυσης μιας ακολουθίας σημείων δεδομένων τα οποία συλλέγονται σε ένα χρονικό διάστημα.
Στην ανάλυση χρονοσειρών, καταγράφονται τα σημεία δεδομένων σε σταθερά χρονικά διαστήματα για μια καθορισμένη χρονική περίοδο και όχι τυχαία.
Τύπος #5: Ανάλυση χαμένων τιμών (Missing values analysis)
Οι χαμένες τιμές (missing values) είναι ένα συχνό ζήτημα στα σύνολα δεδομένων που μπορεί να επηρεάσει την εγκυρότητα και την αξιοπιστία της αξιολόγησης.
Η διερεύνηση των ελλειπόντων τιμών στο σύνολο δεδομένων είναι υψίστης σημασίας για την κατανόηση της έκτασης της έλλειψης και των πιθανών επιπτώσεών της στις αναλύσεις.
Με Λίγα Λόγια
Μιλήσαμε αναλυτικά για το τι είναι η διερευνητική ανάλυση δεδομένων, γιατί είναι σημαντική καθώς και ποιοι είναι οι βασικοί τύποι και τεχνικές που χρησιμοποιεί.
Συνοπτικά, η διερευνητική ανάλυση δεδομένων χρησιμοποιείται από τους data scientists για την ανάλυση και διερεύνηση συνόλων δεδομένων, προκειμένου να εντοπίσουν τα κύρια χαρακτηριστικά τους και να κάνουν υποθέσεις.
Οι data scientists αποτελούν ένα ανερχόμενο επάγγελμα με πολλές προοπτικές και ευκαιρίες ανέλιξης.
Αν λοιπόν αποτελεί τον κλάδο που θελεις και εσύ να εξελιχθείς επαγγελματικά, σου έχουμε τη λύση.
Πάρε μέρος στο Data Science Bootcamp που προσφέρουμε στη Big Blue, λάβε ουσιαστική πρακτική γνώση από την πρώτη κιόλας μέρα και γίνε data scientist σε 3 μόλις μήνες!