Feature Selecction
Τι είναι το Feature Selection;
Το feature selection είναι η διαδικασία επιλογής ενός υποσυνόλου χαρακτηριστικών από το σύνολο δεδομένων που είναι τα πιο σχετικά για την πρόβλεψη της μεταβλητής-στόχου. Μια έξυπνη διαδικασία επιλογής χαρακτηριστικών είναι ιδιαίτερα σημαντική για μεγάλα σύνολα δεδομένων, καθώς μειώνει την πολυπλοκότητα του μοντέλου, την υπερπροσαρμογή και τον υπολογιστικό χρόνο, και αυξάνει την ακρίβεια του μοντέλου. Στην ορολογία της μηχανικής μάθησης, ένα "χαρακτηριστικό" είναι μια μεμονωμένη μετρήσιμη ιδιότητα ή χαρακτηριστικό του φαινομένου που παρατηρείται (συχνά αναπαρίσταται ως στήλες σε ένα σύνολο δεδομένων).
Γιατί είναι απαραίτητο το Feature Selection;
Όταν ένα σύνολο δεδομένων περιέχει πάρα πολλές μεταβλητές, οι αλγόριθμοι μηχανικής μάθησης μπορούν να μάθουν από θόρυβο ή άσχετα δεδομένα. Αυτό προκαλεί overfitting, ένα σενάριο όπου το μοντέλο αποδίδει εξαιρετικά καλά στα δεδομένα εκπαίδευσής του, αλλά δεν κάνει ακριβείς προβλέψεις σε νέα, μη ορατά δεδομένα. Η επιλογή χαρακτηριστικών αφαιρεί συστηματικά αυτά τα άσχετα ή περιττά δεδομένα, διασφαλίζοντας ότι ο αλγόριθμος μαθαίνει μόνο από τις πιο προγνωστικές μεταβλητές. Μειώνει επίσης σημαντικά τη μνήμη και την επεξεργαστική ισχύ που απαιτούνται για την εκπαίδευση των αλγορίθμων.
Ποιες είναι οι κύριες κατηγορίες τεχνικών Επιλογής Χαρακτηριστικών;
Από θεωρητική άποψη, οι μέθοδοι επιλογής χαρακτηριστικών ομαδοποιούνται σε τρεις κύριες κατηγορίες:
1. Filter methods: Αξιολογούν τη συνάφεια των χαρακτηριστικών με βάση τις στατιστικές τους ιδιότητες (όπως η συσχέτιση με τη μεταβλητή-στόχο) ανεξάρτητα από οποιονδήποτε συγκεκριμένο αλγόριθμο μηχανικής μάθησης.
2. Wrapper methods: Αξιολογούν διαφορετικούς συνδυασμούς χαρακτηριστικών εκπαιδεύοντας και δοκιμάζοντας επανειλημμένα ένα συγκεκριμένο μοντέλο μηχανικής μάθησης για να βρουν το υποσύνολο με την καλύτερη απόδοση.
3. Embedded methods: Εκτελούν αυτόματα το feature selection ως ενσωματωμένο βήμα κατά τη διάρκεια της διαδικασίας εκπαίδευσης του ίδιου του αλγορίθμου μηχανικής μάθησης.
Πώς διαφέρει το Feature Selection από το Dimensionality Reduction;
Και οι δύο διαδικασίες μειώνουν τον αριθμό των μεταβλητών σε ένα σύνολο δεδομένων, αλλά η εκτέλεσή τους διαφέρει.
- Το feature selection διατηρεί ένα υποσύνολο των αρχικών, αμετάβλητων χαρακτηριστικών και απορρίπτει εντελώς τα υπόλοιπα.
- Το dimensionality reduction (ή η εξαγωγή χαρακτηριστικών) δημιουργεί εντελώς νέα χαρακτηριστικά συνδυάζοντας μαθηματικά τις αρχικές μεταβλητές.
Το feature selection διατηρεί την αρχική σημασία των δεδομένων, ενώ το dimensionality reduction τα μετατρέπει σε μια νέα αριθμητική μορφή.