Dimensionality Reduction: Ορισμός, Σημασία & Τεχνικές (2024)
Κατά την διαδικασία της ανάλυσης των δεδομένων και της μηχανικής μάθησης, τα δεδομένα που έχουν συλλεχθεί από διάφορες πηγές, προτού χρησιμοποιηθούν, υπόκεινται σε σημαντική προεπεξεργασία.
Ένα βασικό βήμα αυτής της προεπεξεργασίας αποτελεί και το dimensionality reduction, για το οποίο θα μιλήσουμε αναλυτικά στο σημερινό μας άρθρο.
Ειδικότερα στο σημερινό οδηγό θα δούμε:
- Τι είναι το dimensionality reduction
- Γιατί είναι σημαντικό
- Ποιες είναι οι βασικές μέθοδοι που χρησιμοποιούνται
Προτού εμβαθύνουμε, ας ξεκινήσουμε από τα βασικά.
Τι Είναι το Dimensionality Reduction και Ποια η Σημασία του;
Το dimensionality reduction (μείωση διαστάσεων) είναι ένα βασικό βήμα προεπεξεργασίας στη μηχανική εκμάθηση και την ανάλυση δεδομένων που εστιάζει στη μείωση του αριθμού των χαρακτηριστικών σε ένα σύνολο δεδομένων, διατηρώντας συνάμα όσο περισσότερες πληροφορίες γίνεται.
Ένα βασικό πρόβλημα που καλούνται να αντιμετωπίσουν οι data scientists στη μηχανική μάθηση, είναι τα δεδομένα υψηλών διαστάσεων τα οποία είναι ουσιαστικά δεδομένα με μεγάλο αριθμό χαρακτηριστικών ή μεταβλητών.
Όσο μεγαλύτερος ο αριθμός των χαρακτηριστικών ενός machine learning model τόσο μειώνεται η απόδοσή του.
Άλλωστε, όπως έχουμε αναφέρει και στο άρθρο μας για το overfitting, τα πολύπλοκα δεδομένα υψηλών διαστάσεων οδηγούν συχνά σε υπερπροσαρμογή.
Με άλλα λόγια το μοντέλο ταιριάζει πολύ στενά με τα δεδομένα εκπαίδευσης και δεν γενικεύεται καλά σε νέα δεδομένα που δεν έχει ξαναδεί.
Το dimensionality reduction δίνει τη λύση στο πρόβλημα αυτό μειώνοντας την πολυπλοκότητα του μοντέλου και βελτιώνοντας την απόδοση γενίκευσής του.
Αφού είδαμε ορισμένα βασικά πράγματα για το dimensionality reduction και τη σημασία του, πάμε να δούμε ποιες είναι οι βασικές τεχνικές που χρησιμοποιούνται κατά τη διαδικασία αυτή.
Ποιες Είναι οι Βασικές Τεχνικές Dimensionality Reduction;
Οι μέθοδοι dimensionality reduction είναι τεχνικές που χρησιμοποιούνται για τη μείωση του αριθμού των χαρακτηριστικών σε ένα σύνολο δεδομένων, διατηρώντας παράλληλα όσο το δυνατόν περισσότερες πληροφορίες.
Ο βασικός στόχων των τεχνικών αυτών είναι η μείωση της πολυπλοκότητας των μοντέλων, η βελτίωση της απόδοσης, και η διευκόλυνση του data visualization (οπτικοποίησης δεδομένων).
Οι 5 βασικές τεχνικές για το dimensionality reduction είναι οι εξής:
Τεχνική #1: Ανάλυση κύριας συνιστώσας (PCA)
Η ανάλυση κύριας συνιστώσας (PCA) είναι μια μέθοδος στη στατιστική που χρησιμοποιεί έναν ορθογώνιο μετασχηματισμό για την μετατροπή παρατηρήσεων πιθανώς συσχετισμένων μεταβλητών σε ένα σύνολο τιμών γραμμικά μη συσχετισμένων μεταβλητών, τις λεγόμενες κύριες συνιστώσες.
Με τη χρήση της PCA επιτυγχάνεται η μείωση διαστάσεων των δεδομένων διατηρώντας παράλληλα τη διακύμανσή τους.
Τεχνική #2: Αποσύνθεση μοναδικής τιμής (SVD)
Η αποσύνθεση μοναδικής τιμής (SVD) είναι μια τεχνική που χρησιμοποιείται για την απλοποίηση των τιμών μέσα σε έναν πίνακα, κάνοντας αποσύνθεση του πίνακα στα συστατικά του μέρη για διευκόλυνση των υπολογισμών με αυτόν τον πίνακα.
Το SVD είναι ιδιαίτερα χρήσιμο όταν έχουμε να κάνουμε με big data.
Τεχνική #3: Γραμμική διακριτική ανάλυση (LDA)
Συνεχίζοντας, η γραμμική διακριτική ανάλυση (LDA) είναι μια μέθοδος που χρησιμοποιείται στην αναγνώριση μοτίβων και τη μηχανική μάθηση για την εύρεση ενός γραμμικού συνδυασμού χαρακτηριστικών που χαρακτηρίζει ή διαχωρίζει δύο ή περισσότερες κατηγορίες αντικειμένων.
Τεχνική #4: Εξαγωγή χαρακτηριστικών
Η εξαγωγή χαρακτηριστικών (feature extraction) περιλαμβάνει τη δημιουργία νέων χαρακτηριστικών με συνδυασμό ή μετατροπή των αρχικών χαρακτηριστικών.
Βασικός σκοπός της μεθόδου αυτής είναι να δημιουργηθεί ένα σύνολο χαρακτηριστικών που αποτυπώνει την ουσία των αρχικών δεδομένων σε έναν χώρο χαμηλότερων διαστάσεων.
Τεχνική #5: Επιλογή χαρακτηριστικών
Η επιλογή χαρακτηριστικών (feature selection) είναι μια σημαντική μέθοδος που περιλαμβάνει την επιλογή ενός υποσυνόλου των αρχικών λειτουργιών που σχετίζονται στενά με το πρόβλημα που καλείται να επιλύσει ένας data scientist.
Μέσα από αυτή τη διαδικασία, γίνεται προσπάθεια να πραγματοποιηθεί dimensionality reduction του συνόλου δεδομένων διατηρώντας τα πιο σημαντικά χαρακτηριστικά.
Συνολικά, θα μπορούσαμε να πούμε ότι η επιλογή της τεχνικής μείωσης διαστάσεων εξαρτάται από τις συγκεκριμένες απαιτήσεις του συνόλου δεδομένων και το πρόβλημα που καλείται να αντιμετωπίσει και να επιλύσει ένας data scientist.
Με Λίγα Λόγια
Είδαμε λοιπόν τι είναι το dimensionality reduction, γιατί είναι σημαντικό, καθώς και ποιες είναι οι βασικές μέθοδοι που χρησιμοποιεί.
Ο χώρος της επιστήμης των δεδομένων προσφέρει πολλές ευκαιρίες επαγγελματικής αποκατάστασης και θέσεων εργασίας με πολύ καλό μισθό.
Έτσι, αν αποτελεί το μονοπάτι που θέλεις να ακολουθήσεις και εσύ επαγγελματικά, πάρε μέρος στο Data Science Bootcamp της Big Blue, για να λάβεις όλα τα απαραίτητα εφοδια και ουσιαστική πρακτική γνώση από την πρώτη κιόλας μέρα!