Τι Είναι το Data Cleaning; (Έννοια, Οφέλη & Πολλά Ακόμα)
Όπως έχουμε αναφέρει και σε παλαιότερα άρθρα, εδώ στην BigBlue βλέπουμε καθημερινά την πληθώρα εννοιών που υπάρχει στον κόσμο των δεδομένων.
Άλλες λιγότερο και άλλες περισσότερο περίπλοκες, έχουν όμως όλες μεγάλη σημασία, κάθε μια για τον δικό της σκοπό που εξυπηρετεί.
Μια από αυτές λοιπόν που διδάσκουμε στους μαθητές μας είναι το Data Cleaning, οπότε στο σημερινό άρθρο θα δούμε:
Τι είναι το Data Cleaning
Τα 4 στάδια του Data Cleaning
Τα οφέλη της διαδικασίας αυτής
Και πολλά ακόμα!
Ας ξεκινήσουμε με τα βασικά.
Τι Είναι το Data Cleaning
Το data cleaning, είναι η διαδικασία του να διορθώσεις ή να αφαιρέσεις τελείως, δεδομένα τα οποία είναι λανθασμένα, βρίσκονται σε λανθασμένη μορφή, είναι αλλοιωμένα, διπλότυπα ή ελλιπή.
Ο λόγος ύπαρξης των δεδομένων είναι η σωστή λειτουργία αλγορίθμων, οι οποίοι τρέχουν για να μας βγάλουν κάποια αποτελέσματα. Αν τα δεδομένα που εισάγονται στους αλγορίθμους αυτούς είναι προβληματικά, σαφώς και τα αποτελέσματα που παίρνουμε εν τέλει στα χέρια μας θα είναι αναξιόπιστα.
Μπορεί σε μία πρώτη ματιά, να μη φαίνεται τόσο σημαντικό.
Άλλωστε πόσο κακό μπορούν να κάνουν κάποια λανθασμένα δεδομένα;
Με μία δεύτερη σκέψη όμως, ας αναλογιστούμε που χρησιμοποιούνται τα δεδομένα αυτά.
Μπορεί να χρησιμοποιούνται για τη λήψη σημαντικών αποφάσεων σε μία εταιρεία ή σε ακόμη μεγαλύτερο σκέλος, μπορεί να χρησιμοποιούνται για τη λήψη αποφάσεων σε επίπεδο ενός κράτους.
Τι συνέπειες θα είχαν τα λάθος δεδομένα στις παραπάνω δύο περιπτώσεις;
Σαφώς αρκετά μεγάλες. Μάλιστα οι επαγγελματίες του χώρου, data engineers, data scientists κτλ, συμφωνούν ότι το να έχεις ποιοτικά και σωστά δεδομένα είναι ακόμη πιο σημαντικό και από τον ίδιο τον αλγόριθμο, διότι στην ουσία ένας αλγόριθμος χωρίς τα κατάλληλα data δεν μπορεί να μας προσφέρει και πολλά.
Ήξερες ότι μπορείς να αντλήσεις δεδομένα από μία ιστοσελίδα και να τα μετατρέψεις στην μορφή που θέλεις; Διάβασε περισσότερα εδώ.
Τα 4 Στάδια Data Cleaning
Το data cleaning, θα λέγαμε ότι μπορεί να χωριστεί στα παρακάτω 4 στάδια.
Στάδιο #1: Αφαίρεση Διπλότυπων
Το πρώτο βήμα στο data cleaning, είναι να αφαιρέσεις δεδομένα που εντοπίζονται παραπάνω από μία φορά.
Το να εμφανίζονται δεδομένα δύο ή περισσότερες φορές, είναι κάτι σύνηθες και φυσιολογικό, αφού δεν έχεις τον πλήρη έλεγχο των πηγών από όπου προέρχονται.
Για παράδειγμα, κάτι πολύ απλό που συχνά μπορεί να συμβεί όταν ο ίδιος ο πελάτης είναι υπεύθυνος για την καταχώρηση δεδομένων, είναι να καταχωρήσει τα δεδομένα δύο φορές νομίζοντας ότι η πρώτη φορά ήταν αποτυχημένη.
Στάδιο #2: Διόρθωση Λαθών
Το επόμενο βήμα είναι να διορθώσεις δεδομένα, που έχουν καταχωρηθεί λανθασμένα.
Αυτό σημαίνει ότι μπορεί να έχουν καταχωρηθεί σε μορφή η οποία δεν συγχρονίζεται με τη μορφή που θα έπρεπε να έχουν.
Για παράδειγμα, αν εντός ενός αριθμού τηλεφώνου προστεθεί κατά λάθος κάποιο γράμμα, τότε η συγκεκριμένη πληροφορία δεν θα αναγνωρίζεται.
Στάδιο #3: Αφαίρεση Ύποπτων Δεδομένων
Κάποια δεδομένα παρόλο που έχουν καταχωρηθεί εκεί που πρέπει και όπως πρέπει, μπορεί αυτό που εκφράζουν να μην είναι λογικό.
Για παράδειγμα, συνεχίζοντας με το παράδειγμα των κινητών τηλεφώνων, μπορεί η καταχώρησή μας να μοιάζει με κινητό και να έχει όσα ψηφία χρειάζεται, αλλά να μη ξεκινά με “69” αλλά με “32”.
Αυτό αποδεικνύει ότι η καταχώρηση αυτή ίσως να είναι λανθασμένη και χρειάζεται έλεγχο και πιθανή αφαίρεση.
Στάδιο #4: Επίλυση Ελλιπών Δεδομένων
Κάποιες φορές είναι λογικό να υπάρξουν περιπτώσεις όπου λείπουν δεδομένα.
Πώς βρίσκεις όμως λύση σε αυτό; Δεν είναι και ό,τι πιο εύκολο, να εντοπίσεις αυτά τα δεδομένα.
Σε αυτές τις περιπτώσεις λοιπόν, μπορείς είτε να συμπληρώσεις εσύ τα δεδομένα, με βάση την εικόνα που έχεις από το σύνολο όλων των υπόλοιπων καταχωρήσεων, είτε να αλλάξεις τον τρόπο με τον οποίο ο αλγόριθμος διαχειρίζεται τα δεδομένα, ώστε ακόμη και αν δεν υπάρχουν να μπορεί να λειτουργήσει.
Για παράδειγμα, αν αναφερόμαστε σε αριθμούς, σε κάποιες περιπτώσεις ίσως τα ελλιπή δεδομένα θα μπορούσαν να αντικατασταθούν από τον αριθμό μηδέν.
Γιατί όμως να κάνεις όλη αυτή τη δουλειά; Υπάρχουν ουσιαστικά οφέλη;
Τα Οφέλη του Data Cleaning
Σαφώς υπάρχουν οφέλη στην διαδικασία του data cleaning, αφού όπως προαναφέραμε, ένα αλγόριθμος με λανθασμένα δεδομένα, δεν μπορεί να μας προσφέρει και πολλά.
Επιπλέον, οι επιπτώσεις που μπορούν να έχουν τα λανθασμένα αποτελέσματα είναι εξαιρετικά σημαντικές.
Τα οφέλη λοιπόν του data cleaning, είναι τα εξής.
1) Το πρώτο και προφανές, είναι ότι διορθώνει όσα πιθανά λάθη υπάρχουν και δίνει ένα πιο αξιόπιστο αποτέλεσμα.
2) Κατ’ επέκταση αυτό αφαιρεί επιπρόσθετη δουλειά που πιθανόν να χρειαζόταν να κάνουν οι εργαζόμενοι.
3) Οι πελάτες μένουν πιο ευχαριστημένοι αφού τα σωστά αποτελέσματα θα τους οδηγήσουν σε σωστές αποφάσεις, οι οποίες είτε μακροπρόθεσμα, είτε βραχυπρόθεσμα θα έχουν αντίκτυπο στην επιχείρηση.
4) Τα αποτελέσματα επιταχύνονται με αποτέλεσμα να αυξάνονται γρηγορότερα και τα έσοδα. Αυτό έχει να κάνει κυρίως με το marketing. Όσο πιο αξιόπιστα δεδομένα λαμβάνει το marketing, τόσο περισσότερο θα είναι σε θέση να οργανώσει μία στρατηγική που λειτουργεί.
Με Λίγα Λόγια
Το data cleaning, είναι μία διαδικασία που φαινομενικά μπορεί να μοιάζει σαν “αρκετή προσπάθεια για το τίποτα”.
Στην πραγματικότητα όμως, αυτό που κάνεις είναι να “φροντίζεις” τα δεδομένα σου, ώστε να πάρεις τα καλύτερα αποτελέσματα.
Αν λοιπόν δεν πραγματοποιηθεί το data cleaning, υπάρχει κίνδυνος, όλη η δουλειά γύρω από τη συλλογή, την ανάλυση και την επεξεργασία δεδομένων που έκανες να μην έχει την αξία που της αρμόζει.
Μάθε πώς να κάνεις data cleaning μαζί μας, στο Data Science Bootcamp της Big Blue.