Clustering

Τι είναι το Clustering ;

Το Clustering είναι ένα μη επιβλεπόμενο (unsupervised) πρόβλημα μάθησης που ασχολείται με την ομαδοποίηση όλων των παρατηρήσεων ενός συνόλου δεδομένων σύμφωνα με την ομοιότητά τους με ορισμένα κοινά χαρακτηριστικά. Συνήθεις αλγόριθμοι ομαδοποίησης είναι οι k-means, η hierarchical clustering, η spectral clustering, κ.λπ.

Ομαδοποιεί ένα μη επισημασμένο σύνολο δεδομένων σε διακριτές υποομάδες που ονομάζονται συστάδες. Ο αλγόριθμος αναλύει τις αριθμητικές μεταβλητές των σημείων δεδομένων και τα ομαδοποιεί έτσι ώστε τα στοιχεία εντός της ίδιας συστάδας να έχουν υψηλή στατιστική ομοιότητα μεταξύ τους, ενώ τα στοιχεία σε διαφορετικές συστάδες να έχουν χαμηλή ομοιότητα, με βάση συγκεκριμένες μαθηματικές μετρήσεις απόστασης.

 

Ποιος είναι ο πρωταρχικός σκοπός του Clustering;

Ο πρωταρχικός σκοπός της ομαδοποίησης είναι η ανακάλυψη κρυφών δομών, εγγενών μοτίβων ή φυσικών ομαδοποιήσεων μέσα σε ένα σύνολο δεδομένων όπου οι συγκεκριμένες κατηγορίες είναι άγνωστες εκ των προτέρων. Δίνει τη δυνατότητα στους οργανισμούς να τμηματοποιούν τεράστια, ανοργάνωτα σύνολα δεδομένων σε διαχειρίσιμες, διακριτές ομάδες για δομική ανάλυση και στοχευμένη λήψη αποφάσεων.

 

Πώς διαφέρει το Clustering από το Classification;

  • Το Classification είναι μια επιβλεπόμενη διαδικασία μάθησης που απαιτεί επισημασμένα ιστορικά δεδομένα για να εκπαιδεύσει έναν αλγόριθμο για να ταξινομεί νέα δεδομένα σε προκαθορισμένες κατηγορίες.
  • Το Clustering είναι μια μη επιβλεπόμενη διαδικασία μάθησης που χρησιμοποιεί αυστηρά μη επισημασμένα δεδομένα. Ο αλγόριθμος ομαδοποίησης δεν γνωρίζει τις κατηγορίες εκ των προτέρων, πρέπει να υπολογίσει ανεξάρτητα τις σχέσεις δεδομένων για να σχηματίσει τις δικές του ομάδες.

 

Ποιοι είναι οι πιο συνηθισμένοι αλγόριθμοι που χρησιμοποιούνται για το Clustering;

Οι data scientists χρησιμοποιούν διαφορετικούς αλγόριθμους ανάλογα με τη δομή των δεδομένων:

  • K-Means Clustering: Διαιρεί τα δεδομένα σε έναν προκαθορισμένο αριθμό (που αντιπροσωπεύεται από τη μεταβλητή 'K') διακριτών, μη επικαλυπτόμενων ομάδων με βάση το μαθηματικό κεντρικό σημείο κάθε ομάδας.
  • Hierarchical Clustering: Δημιουργεί μια δομημένη ιεραρχία ομαδοποιήσεων είτε συγχωνεύοντας μικρές ομαδοποιήσεις σε μεγαλύτερες είτε διαιρώντας μεγάλες ομαδοποιήσεις σε μικρότερες, που συχνά αντιπροσωπεύονται από ένα δενδρόγραμμα που ονομάζεται δενδρογράφημα.
  • Density-Based Clustering: Ομαδοποιεί σημεία δεδομένων που είναι στενά συσκευασμένα μεταξύ τους σε περιοχές υψηλής πυκνότητας και αναγνωρίζει σημεία δεδομένων σε περιοχές χαμηλής πυκνότητας ως ακραίες τιμές ή θόρυβο.

 

Πώς μετράμε την ποιότητα του Clustering;

Επειδή δεν υπάρχουν πραγματικές ετικέτες για σύγκριση, η ποιότητα των ομάδων αξιολογείται χρησιμοποιώντας μαθηματικές μετρήσεις που μετρούν δύο συγκεκριμένους παράγοντες:

  1. Συνοχή: Πόσο στενά συνδεδεμένα και πυκνά είναι τα σημεία δεδομένων μέσα σε ένα μόνο σύμπλεγμα.
  2. Διαχωρισμός: Πόσο διακριτά και φυσικά απέχοντα είναι τα διαφορετικά συμπλέγματα μεταξύ τους. Μια κοινή μετρική για αυτόν τον υπολογισμό είναι η Βαθμολογία Silhouette, η οποία εξάγει μια αριθμητική τιμή που υποδεικνύει τη συνολική ποιότητα της ομαδοποίησης.

 

Επιχειρηματικό παράδειγμα: Πώς χρησιμοποιείται η ομαδοποίηση για την τμηματοποίηση πελατών;

  1. Σε ένα επιχειρηματικό πλαίσιο, μια εταιρεία λιανικής πώλησης χρησιμοποιεί την ομαδοποίηση για να τμηματοποιήσει την πελατειακή της βάση για στοχευμένο μάρκετινγκ.
  2. Η εταιρεία εισάγει δεδομένα πελατών χωρίς ετικέτες, όπως το ετήσιο εισόδημα, τη συχνότητα αγορών και τη μέση αξία παραγγελίας, σε έναν αλγόριθμο ομαδοποίησης.
  3. Ο αλγόριθμος επεξεργάζεται αυτά τα δεδομένα και φυσικά ομαδοποιεί πελάτες με παρόμοιες αγοραστικές συμπεριφορές σε διακριτές ομάδες (π.χ., άτομα με χαμηλή συχνότητα δαπανών, άτομα με χαμηλή συχνότητα δαπανών).

Το τμήμα μάρκετινγκ χρησιμοποιεί στη συνέχεια αυτές τις πραγματικές ομαδοποιήσεις για να στείλει συγκεκριμένα, βασισμένα σε δεδομένα, διαφημιστικά email σε κάθε διακριτό σύμπλεγμα.