Classification

Τι είναι το Classification;

To classification είναι μια εποπτευόμενη (supervised) διαδικασία μηχανικής μάθησης όπου ένας αλγόριθμος κατηγοριοποιεί τα δεδομένα εισόδου σε προκαθορισμένες διακριτές κλάσεις ή ετικέτες. Αναλύει τις συγκεκριμένες μεταβλητές (χαρακτηριστικά) των δεδομένων και προβλέπει σε ποια κατηγορία ανήκουν τα νέα δεδομένα, αυστηρά βασισμένη σε μαθηματικά μοτίβα που έχουν αντληθεί από ιστορικά δεδομένα εκπαίδευσης.

Το classification είναι απαραίτητο για να προβλεφθούν κατηγορικά αποτελέσματα με βάση τα χαρακτηριστικά εισόδου. Παραδείγματα προβλημάτων classification είναι η ανίχνευση απάτης και τα φίλτρα ανεπιθύμητης αλληλογραφίας μέσω email. Συνήθως χρησιμοποιούμενοι αλγόριθμοι classification όπως οι k-nearest neighbors, decision trees, random forest.

 

Ποιος είναι ο κύριος σκοπός της Classification;

Ο κύριος σκοπός του classification είναι η αυτοματοποίηση της κατηγοριοποίησης δεδομένων. Αυτό επιτρέπει στους οργανισμούς να επεξεργάζονται γρήγορα μεγάλους όγκους πληροφοριών, να προσδιορίζουν την πραγματική φύση των νέων σημείων δεδομένων και να εκτελούν δομημένες αποφάσεις με βάση τις κατηγορίες που τους έχουν ανατεθεί χωρίς να απαιτείται χειροκίνητη ανθρώπινη ταξινόμηση.

 

Ποιοι είναι οι διαφορετικοί τύποι Classification;

Υπάρχουν τρεις κύριοι τύποι classification με βάση τον αριθμό των κατηγοριών που εμπλέκονται:

  1. Binary Classification: Κατηγοριοποιεί τα δεδομένα σε ακριβώς δύο αμοιβαία αποκλειόμενες κλάσεις (π.χ., "Εγκρίθηκε" ή "Απορρίφθηκε").
  2. Multiclass Classification: Κατηγοριοποιεί τα δεδομένα σε μία από τρεις ή περισσότερες διακριτές κατηγορίες (π.χ., ταξινόμηση μιας εικόνας ενός οχήματος ως "Sedan", "SUV" ή "Φορτηγό").
  3. Multilabel Classification: Αντιστοιχίζει πολλαπλές διακριτές κατηγορίες σε ένα μόνο σημείο δεδομένων ταυτόχρονα (π.χ., προσθήκη ετικέτας σε ένα ψηφιακό άρθρο με "Τεχνολογία" και "Οικονομικά").

 

Ποια δεδομένα απαιτούνται για την κατασκευή ενός μοντέλου Classification;

Ένα μοντέλο classification απαιτεί αυστηρά ένα σύνολο δεδομένων με "ετικέτα" (label) για την αρχική φάση εκπαίδευσης. Αυτό σημαίνει ότι τα ιστορικά δεδομένα που παρέχονται στον αλγόριθμο πρέπει ήδη να περιλαμβάνουν τη σωστή κατηγορία (την ετικέτα) που έχει αντιστοιχιστεί σε κάθε ιστορική εγγραφή. Ο αλγόριθμος επεξεργάζεται αυτά τα δεδομένα με ετικέτα για να υπολογίσει τις στατιστικές πιθανότητες που απαιτούνται για την ακριβή κατηγοριοποίηση νέων, μη αντιστοιχισμένων δεδομένων.

 

Πώς αξιολογείται η απόδοση ενός μοντέλου Classification;

Η απόδοση ενός μοντέλου classification μετριέται χρησιμοποιώντας συγκεκριμένες στατιστικές μετρήσεις για την επαλήθευση της ορθότητάς του:

  1. Ορθότητα:Το συνολικό ποσοστό προβλέψεων που το μοντέλο ταξινόμησε σωστά.
  2. Ακρίβεια: Το ποσοστό των θετικών προβλέψεων που έγιναν από το μοντέλο και ήταν στην πραγματικότητα σωστές.
  3. Ανάκληση: Το ποσοστό των πραγματικών θετικών περιπτώσεων στα δεδομένα που το μοντέλο εντόπισε με επιτυχία.
  4. Πίνακας Σύγχυσης: Ένας δομημένος πίνακας που εμφανίζει τον ακριβή αριθμητικό αριθμό των σωστών προβλέψεων και των λανθασμένων προβλέψεων (σφαλμάτων) για κάθε συγκεκριμένη κατηγορία.

 

Παράδειγμα: Πώς χρησιμοποιείται το Classification για την πρόβλεψη της απώλειας πελατών;

Σε ένα επιχειρηματικό πλαίσιο,το classification χρησιμοποιείται για να προβλεφθεί εάν ένας πελάτης θα ακυρώσει τη συνδρομή του (μια διαδικασία γνωστή ως απώλεια πελατών).

Μια εταιρεία εκπαιδεύει ένα δυαδικό μοντέλο ταξινόμησης χρησιμοποιώντας ιστορικά δεδομένα πελατών, συμπεριλαμβανομένων αριθμητικών μετρήσεων όπως η συχνότητα χρήσης, το ιστορικό χρέωσης και ο αριθμός των αιτημάτων υποστήριξης.

Το μοντέλο επεξεργάζεται τα τρέχοντα δεδομένα πελατών και αντιστοιχίζει μία από τις δύο διακριτές ετικέτες σε κάθε ενεργό χρήστη: "Θα Αποχωρήσει" ή "Δεν θα Αποχωρήσει". Η επιχείρηση βασίζεται σε αυτές τις κυριολεκτικές προβλέψεις για να εντοπίσει λογαριασμούς υψηλού κινδύνου και να στείλει στοχευμένες προσφορές διατήρησης πριν από την ακύρωση.