Normalization

Τι είναι το Normalization;

Το Normalization είναι η διαδικασία αναπροσαρμογής της κλίμακας των δεδομένων έτσι ώστε όλα τα χαρακτηριστικά να έχουν την ίδια κλίμακα. Το normalization είναι απαραίτητο για να γίνει μια ουσιαστική σύγκριση μεταξύ των χαρακτηριστικών και απαιτείται επίσης για ορισμένους αλγόριθμους μηχανικής μάθησης.

 

Γιατί το Normalization είναι μαθηματικά απαραίτητο για τη μηχανική μάθηση;

Πολλοί αλγόριθμοι μηχανικής μάθησης, όπως οι K-Nearest Neighbors (KNN) ή οι Support Vector Machines (SVM), βασίζονται στον υπολογισμό της Ευκλείδειας απόστασης μεταξύ σημείων δεδομένων. Εάν ένα χαρακτηριστικό έχει αριθμητικό εύρος από 0 έως 1 και ένα άλλο έχει εύρος από 1.000 έως 100.000, ο αλγόριθμος θα δώσει μαθηματική προτεραιότητα στο χαρακτηριστικό με τις μεγαλύτερες αριθμητικές τιμές, οδηγώντας σε μεροληπτικές και ανακριβείς προβλέψεις. Το Normalization διασφαλίζει ότι κάθε χαρακτηριστικό συμβάλλει εξίσου στους υπολογισμούς της απόστασης.

 

Ποια είναι η θεωρητική διαφορά μεταξύ Normalization και Standardization;

Ενώ και οι δύο είναι τεχνικές κλιμάκωσης χαρακτηριστικών, εκτελούν διαφορετικές μαθηματικές πράξεις.

  • Το Normalization (συγκεκριμένα η κλιμάκωση Ελάχιστης-Μέγιστης) μετασχηματίζει αυστηρά όλες τις τιμές δεδομένων ώστε να εμπίπτουν σε ένα οριοθετημένο αριθμητικό εύρος, συνήθως ακριβώς μεταξύ 0 και 1.
  • Το Standardization (κλιμάκωση Z-score) μετασχηματίζει τα δεδομένα έτσι ώστε να έχουν μέσο όρο 0 και τυπική απόκλιση 1, χωρίς να περιορίζει τα δεδομένα σε ένα συγκεκριμένο μέγιστο ή ελάχιστο εύρος.

 

Παράδειγμα: Πώς εφαρμόζεται το Normalization σε ένα μοντέλο μηχανικής μάθησης τιμολόγησης ακινήτων;

Σε ένα μοντέλο μηχανικής μάθησης που έχει σχεδιαστεί για την πρόβλεψη τιμών κατοικιών, το σύνολο δεδομένων περιέχει δύο διακριτά αριθμητικά χαρακτηριστικά: "Αριθμός Υπνοδωματίων" (κυμαίνεται από 1 έως 5) και "Τετραγωνικά Μέτρα" (κυμαίνεται από 500 έως 5.000).

Εάν τα δεδομένα υποβληθούν σε επεξεργασία χωρίς normalization, ένας αλγόριθμος που βασίζεται στην απόσταση θα δώσει μεγάλη βαρύτητα στο "Τετραγωνικό Μέτρο" επειδή η μαθηματική διαφορά μεταξύ 500 και 5.000 είναι σημαντικά μεγαλύτερη από τη διαφορά μεταξύ 1 και 5.

 

Εφαρμόζοντας normalization, και τα δύο χαρακτηριστικά αναδιαμορφώνονται σε ένα αυστηρό εύρος μεταξύ 0 και 1. Ένα σπίτι με μέγιστο 5 υπνοδωμάτια γίνεται 1,0 και ένα σπίτι με μέγιστο 5.000 τετραγωνικά πόδια γίνεται επίσης 1,0. Αυτή η ακριβής μαθηματική αναδιαμόρφωση επιτρέπει στον αλγόριθμο να επεξεργάζεται και τα δύο διακριτά χαρακτηριστικά με ίση αριθμητική σημασία.