Data Science: Η διαδρομή του Αστέριου Μετά το Bootcamp

Σήμερα θα γνωρίσουμε τον Αστέριο, ο οποίος εργάζεται ως Data Scientist στη ΔΕΗ έχει υπόβαθρο στη Φυσική.

Πάμε να δούμε την πορεία του.

Αστέρη, πριν ξεκινήσουμε πες μας λίγα λόγια για εσένα για να σε γνωρίσουμε καλύτερα.

Ονομάζομαι Αστέριος, σπούδασα Φυσική στα Ιωάννινα όπου έκανα το master μου και ξεκίνησα το Διδακτορικό μου.

Κάπου στα μέσα του Διδακτορικού ανακάλυψα το Data Science και έτσι μεταπήδησα σε αυτό. Είχα μάλιστα και έναν παλιό συμφοιτητή ο οποίος είχε κάνει ήδη το Data Science Bootcamp και μου εξήγησε ακριβώς τι προσφέρει η BigBlue.

Κάπως έτσι λοιπόν με αυτή τη βοήθεια έκανα αυτή τη μεταπήδηση.

Ήταν δύσκολη αυτή τη μετάβαση από τη Φυσική στο Data Science ή ήρθε ομαλά;

Σίγουρα δεν ήταν δύσκολη, γιατί το framework που αναπτύσσεις σαν Φυσικός σε βοηθάει πολύ.

Αυτό το οποίο δεν ήταν δύσκολο αλλά ήθελε αφιέρωση χρόνου, ήταν να μάθω κώδικα, καθώς ξεκινώντας ήξερα ελάχιστα πράγματα. Με λίγο self-study όμως πριν ξεκινήσει το Bootcamp δεν είχα κανένα θέμα.

Τέλεια! Θες να μας πεις περισσότερα για το Bootcamp και την εμπειρία σου από αυτό;

Ήξερα ήδη ότι έχω ένα ενδιαφέρον για το Data Science, οπότε άρχισα να ψάχνομαι και να βλέπω κάποια online courses.

Καθώς έψαχνα λοιπόν παρεμφερή keywords, μου πέταξε κάποιες διαφημίσεις της BigBlue και όταν μπήκα στο site για περισσότερες πληροφορίες, πέτυχα στις ιστορίες αποφοίτων τη συνέντευξη του φίλου μου που ήμασταν συμφοιτητές! 

Τον πήρα λοιπόν τηλέφωνο, μιλήσαμε και μου τα εξήγησε όλα.

Όταν ξεκίνησα λοιπόν το Bootcamp το φοβόμουν λίγο γιατί νόμιζα θα ήταν πολύ δύσκολο, αλλα τελικά τα πράγματα πήγαν πολύ ωραία και ομαλά.

Από τις πληροφορίες οι οποίες ήταν καλά οργανωμένες, μέχρι και τον τρόπο που μας τις μετέφεραν οι καθηγητές.

Πολύ σημαντικό επίσης ήταν το γεγονός ότι αν και ήμασταν από τις 9 μέχρι τις 6 στο full-time Bootcamp, το 80% του χρόνου το περνούσαμε κάνοντας πρακτικές ασκήσεις.

Αυτό είναι κάτι που παίζει μεγάλο ρόλο στο Bootcamp, πέρα από το πλεονέκτημα ότι μπορείς να βάλεις στο βιογραφικό σου ότι έκανες internship με μια εταιρεία για μια εβδομάδα και ότι έλυσες ένα πραγματικό πρόβλημα.

Και όσον αφορά το τελικό project με τι ασχολήθηκες;

Για το τελικό project, εγώ και ένας συμφοιτητής μου ασχοληθήκαμε με ένα churn model.

Δουλειά μας δηλαδή ήταν να προβλέπουμε πότε ένας πελάτης σε κάποια εταιρεία θα φύγει, και η εν λόγω εταιρεία ήταν η Hack the Box.

Αναλύσαμε δεδομένα που μας έδωσε από τον B2B κατάλογό της και έπρεπε σε κάθε εταιρεία να αναθέσουμε ένα health score, όπως όταν παίζεις κάποιο video game ξεκινάς με 100% ζωή και όσο χάνεις αυτή μειώνεται. 

Έτσι, χτίζοντας πάνω σε αυτό μπορούσαμε να φτάσουμε σε μια πιθανότητα να φύγει ένα πελάτης στο τέλος του μήνα.

Πολύ ενδιαφέρον! Για να έρθουμε στο σήμερα, με τι ασχολείσαι και πώς μοιάζει η καθημερινότητά σου;

Κλείνω τώρα 7 μήνες δουλεύοντας στη ΔΕΗ σαν Data Scientist.

Δεν ασχολούμαστε τόσο με μοντέλα αν και γίνονται και αυτά, αλλά τα tools που χρησιμοποιούμε σε καθημερινή βάση είναι Databricks, γράφουμε δηλαδή σε Pyspark κατά κύριο λόγο, και SQL που στέλνουμε queries στο Synapse γιατί χρησιμοποιούμε και το Azure.

Επομένως αυτά τα εργαλεία χρησιμοποιούμε σε καθημερινή βάση.

Όταν λοιπόν υπάρχουν ελλείψεις στα δεδομένα ή αντιφατικά στοιχεία, αυτό πώς το διαχειρίζεστε;

Αρχικά προσπαθούμε να δούμε για ποιο λόγο προέκυψαν αυτές οι αστοχίες στα δεδομένα.

Συνήθως γίνεται επειδή υπάρχει κάποιος ελλειπής κανόνας, οπότε προσπαθούμε είτε να εμπλουτίσουμε τα δεδομένα, είτε να βάλουμε έναν τελικό για να μην ξαναγίνει αυτό το λάθος.

Και όσον αφορά τη συλλογή και τον καθαρισμό των δεδομένων ποιες στρατηγικές ακολουθείτε;

Δεν θα έλεγα ότι κάνουμε κάτι πέρα από το συνηθισμένο.

Γενικά έχουμε πολλά θέματα όταν υπάρχει η ίδια πληροφορία σε διαφορετικούς πίνακες, αλλά στον ένα μπορεί να είναι στα αγγλικά και στον άλλον στα ελληνικά, ή στον ένα στα ελληνικά και στον άλλο στα greeklish.

Οπότε πρέπει να κάνουμε ένα mapping για να τα αλλάξουμε, γιατί μαζεύονται πολλοί πίνακες στο Cloud οι οποίοι αν και αναφέρονται στην ίδια πληροφορία, δημιουργήθηκαν σε διαφορετικά migrations στη ζωή του οργανισμού με διαφορετικό data maturity.

Οπότε αυτοί οι δύο πίνακες που μπορεί να έχουν χρονική διαφορά 5 ετών δεν είναι ακριβώς συμβατοί, άρα αυτό πρέπει να λυθεί με ένα mapping.

Πολύ ωραία! Όταν πρέπει να επικοινωνήσεις κάτι με άλλα τμήματα τα οποία δεν έχουν τεχνικό υπόβαθρο, πώς το διαχειρίζεσαι αυτό για να απλοποιήσεις κάτι πολύ τεχνικό;

Αυτό είναι κάτι που έχουμε κάνει αρκετές φορές, γιατί η ομάδα μας έχει δημιουργηθεί κατά κόρον για να καλύψει εσωτερικές ανάγκες της εταιρείας και όχι τόσο εξωτερικές, οπότε μιλάμε πολύ με άλλα τμήματα.

Όταν λοιπόν αυτά είναι μη-τεχνικά, πρέπει να τους μιλήσεις όταν σου λένε τι ανάγκη έχουν αυτοί. Θα σου εξηγήσουν τις ανάγκες τους και στο ίδιο επίπεδο κατανόησης θα τους το εξηγήσεις και εσύ.

Δηλαδή, δεν μπορώ να μιλάω για γραμμογράφηση ενός πίνακα όταν αυτοί δεν ξέρουν καν ποιος είναι αυτός ο πίνακας και μου έχουν ζητήσει κάτι πιο high level, όπως κάθε Δευτέρα να εμφανίζονται τα οικονομικά στοιχεία σε ένα dashboard.

Επομένως απαντάς πάντα στο level στο οποίο σου έχει γίνει και η ερώτηση.

Ποια θα έλεγες ότι είναι η μεγαλύτερη πρόκληση που έχεις αντιμετωπίσει ως τώρα σαν Data Scientist;

Δεν είναι ακριβώς challenge, αλλά κάτι που πρόσθεσα στον τρόπο σκέψης μου.

Καθώς υπάρχει η ανάγκη για αυτοματοποιημένα reports, όχι απαραίτητα dashboards αλλά πίνακες που να τραβάνε αυτόματα δεδομένα που χρειάζεται ένα τμήμα, πρόσθεσα στον τρόπο σκέψης μου ότι πρέπει να φτιάχνεις κάτι με τέτοιο τρόπο που να τρέχει κάθε μέρα και να είναι future proof.

Πρέπει δηλαδή να σκέφτεσαι όλες τις πιθανότητες και να το φτιάξεις όσο μπορείς με τέτοιο τρόπο ώστε να μην χαλάσει.

Πριν κλείσουμε, τι συμβουλή θα έδινες σε κάποιον/α που θέλει να ασχοληθεί με τον κλάδο των δεδομένων, αλλά το background του/της δεν σχετίζεται με αυτόν;

Αν είναι κάτι που του αρέσει, θα πρότεινα να μην το σκέφτεται πολύ.

Ο κλάδος είναι για όλους και έχει πολλά παρακλάδια που σίγουρα θα βρει αυτό που του ταιριάζει. Ακόμα και όταν μιλάμε για Data Scientist ή Data Analyst, ο κάθε ρόλος έχει πολλά παρακλάδια, δεν είναι ένα πράγμα.

Οπότε με το που καταλάβεις ότι σου αρέσει πρέπει να ξεκινήσεις να ασχολείσαι μόνος σου για να δεις τι σου ταιριάζει, και φυσικά μετά να έρθεις στη BigBlue!

Αστέριος Μαντζανής