10 Ερωτήσεις Συνέντευξης για Data Scientists (με Απαντήσεις)

Η διαδικασία της συνέντευξης για μια δουλειά μπορεί να είναι πολλές φορές αγχωτική και εκφοβιστική, είτε πρόκειται για έμπειρο υποψήφιο είτε για κάποιον που μόλις ξεκινάει την καριέρα του.

Το ίδιο συμβαίνει και για έναν data scientist, ο οποίος σε κάθε συνέντευξη καλείται να μιλήσει για τις τεχνικές του δεξιότητες και γνώσεις, καθώς και την ικανότητά του να επικοινωνεί αποτελεσματικά και να εργάζεται ως μέλος μιας ομάδας.

Όμως, με μια καλή προετοιμασία μπορεί να είναι πιο σίγουρος και έτοιμος για τις απαντήσεις που θα δώσει στους πιθανούς εργοδότες του. 

Για αυτό λοιπόν σε αυτό το άρθρο θα δούμε:

 Τι είναι ένας data scientist

 10 ερωτήσεις συνέντευξης για data scientists

Ας ξεκινήσουμε με το τι είναι ένας data scientist.

 Τι Είναι ένας Data Scientist;

Ένας data scientist είναι ο επαγγελματίας που χρησιμοποιεί αναλυτικές μεθόδους, διαδικασίες και συστήματα για να εξάγει πληροφορίες από δομημένα και μη δομημένα δεδομένα και να επιλύσει σύνθετα προβλήματα.

Πιο συγκεκριμένα, οι data scientists χρησιμοποιούν τα μαθηματικά, τη στατιστική και την επιστήμη των υπολογιστών με σκοπό να αναλύσουν και να ερμηνεύσουν πολύπλοκα σύνολα δεδομένων. Πολύ συχνά, για να επεξεργαστούν τα μεγάλα και πολύπλοκα σύνολα δεδομένων, κάνουν χρήση μιας ποικιλία εργαλείων και τεχνολογιών για τον καθαρισμό, την επεξεργασία και την οπτικοποίηση των δεδομένων.

Έπειτα, τα αποτελέσματα όλων αυτών των διαδικασιών χρησιμοποιούνται από τις επιχειρήσεις και όχι μόνο, καθώς μπορούν να εφαρμοστούν σε διάφορες καταστάσεις και θέματα που προκύπτουν στον πραγματικό κόσμο.

To machine learning αποτελεί αναπόσπαστο κομμάτι της δουλειάς τους, μαζί με άλλες προηγμένες τεχνικές data analytics για να εντοπίσουν μοτίβα, τάσεις και σχέσεις στα δεδομένα.

Έτσι, είναι σε θέση να εξάγουν συμπεράσματα από τις παραπάνω αναλύσεις. 

Όλες αυτές οι αρμοδιότητες έχουν μεγάλη ζήτηση από την αγορά εργασίας, καθώς παίζουν σημαντικό ρόλο στην καθοδήγηση επιχειρηματικών αποφάσεων για αυτό και ο μισθός των data scientists είναι ανάλογος.

Πώς, όμως, ένας data scientist μπορεί να επικοινωνήσει σωστά με τον συνεντευξιαστή του;

Ας δούμε 10 βασικές ερωτήσεις συνέντευξης για data scientist, για να το κατανοήσουμε.

 10 Ερωτήσεις Συνέντευξης για Data Scientists (με Απαντήσεις)

Έχοντας μια εικόνα για το ποιες είναι οι πιο πιθανές ερωτήσεις συνέντευξης για data scientists, ο κάθε υποψήφιος μπορεί να προετοιμαστεί και να βρει τις κατάλληλες απαντήσεις, οι οποίες θα αυξήσουν την πιθανότητα να προσληφθεί.

   Ερώτηση #1: Τι Είναι το Data Science;

Ένας data scientist δεν νοείται να μην ξέρει τι είναι το data science.

Αντιθέτως, πρέπει να γνωρίζει πολύ καλά την φιλοσοφία και το νόημα αυτής της επιστήμης, την οποία έχει αποφασίσει να ακολουθήσει επαγγελματικά και να την αντιπροσωπεύει.

Έτσι, λοιπόν, μια πιθανή ερώτηση είναι: “Τι είναι το data science;” και μια ενδεικτική απάντηση μπορεί να είναι η εξής:

“Το data science (επιστήμη δεδομένων) είναι ένας κλάδος ο οποίος συνδυάζει αλγόριθμους, διαδικασίες, επιστημονικές μεθόδους και συστήματα, με σκοπό την εξαγωγή γνώσεων από δομημένα και μη δομημένα δεδομένα. Χάρη στο data science, πολλοί κλάδοι μπορούν να επιλύσουν πολύπλοκα προβλήματα και να πάρουν καλύτερες αποφάσεις βασιζόμενοι σε αυτά. Για τον λόγο αυτό είναι ένας ταχέως αναπτυσσόμενος κλάδος.”

   Ερώτηση #2: Ποια η Διαφορά Μεταξύ Data Science, Machine Learning και Artificial Intelligence;

Αν και το data science με το machine learning και το artificial intelligence είναι συναφή μεταξύ τους, αυτό δεν σημαίνει ότι είναι το ίδιο πράγμα.

Ένας καλός data scientist, λοιπόν, οφείλει να γνωρίζει τις διαφορές αυτών μεταξύ τους, αλλά και να τις εξηγεί πολύ κατανοητά.

Έτσι, μια πιθανή απάντηση στην ερώτηση αυτή είναι η εξής:

“Το data science αποτελεί ένα πεδίο το οποίο περιλαμβάνει την συλλογή, τον καθορισμό και την ανάλυση των δεδομένων, αλλά και την δημιουργία στατιστικών μοντέλων και αλγορίθμων μηχανικής μάθησης (machine learning). Η μηχανική μάθηση περιλαμβάνεται στο data science, αποτελώντας ένα υποπεδίο της επιστήμης αυτής. Τέλος, η τεχνητή νοημοσύνη (artificial intelligence) περιλαμβάνει και εκείνη την μηχανική μάθηση, αλλά και μια σειρά από άλλες τεχνολογίες, όπως η επεξεργασία φυσικής γλώσσας (natural language processing) και η ρομποτική.”

   Ερώτηση #3: Πώς Διαφοροποιείται το Supervised από το Unsupervised Learning;

Μια πολύ πιθανή ερώτηση σε μια τέτοια συνέντευξη είναι και οι διαφορές μεταξύ supervised και unsupervised learning.

Σε αυτή την περίπτωση, λοιπόν, μια πολύ ωραία και συνοπτική απάντηση μπορεί να μοιάζει κάπως έτσι:

“Τοσο το supervised learning όσο και το unsupervised learning είναι δύο τύποι τεχνικών machine learning. Παρόλα αυτά, στο supervised learning o αλγόριθμος εκπαιδεύεται σε επισημασμένα σύνολα δεδομένων (labeled dataset), πράγμα που σημαίνει ότι τα δεδομένα περιλαμβάνουν τόσο χαρακτηριστικά εισόδου όσο και μια αντίστοιχη ετικέτα ή έξοδο στόχου. Από την άλλη, το unsupervised learning, περιλαμβάνει την εκπαίδευση του αλγόριθμου σε ένα σύνολο δεδομένων που δεν περιλαμβάνει ετικέτες ή εξόδους στόχους.”

   Ερώτηση #4: Τι Είναι το Linear Regression;

Το τι είναι το linear regression μπορεί, επίσης, να περιληφθεί στις ερωτήσεις συνέντευξης για data scientists.

Εάν σε ρωτήσουν για το linear regression, μπορείς να απαντήσεις ως εξής: 

“Το linear regression ή αλλιώς γραμμική παλινδρόμηση είναι μια στατιστική μέθοδος που χρησιμοποιείται στην επιστήμη των δεδομένων για την ανάλυση της σχέσης μεταξύ μιας εξαρτημένης μεταβλητής και μιας ή περισσότερων ανεξάρτητων μεταβλητών. Είναι ένας τύπος supervised learning αλγόριθμου που χρησιμοποιείται για να κάνει προβλέψεις σχετικά με την εξαρτημένη μεταβλητή με βάση τις ανεξάρτητες μεταβλητές. Αποτελεί μια γνωστή τεχνική στο data science και χρησιμοποιείται συχνά ως βασικό μοντέλο για σύγκριση με πιο πολύπλοκα μοντέλα.”

   Ερώτηση #5: Τι Γνωρίζετε για το Decision Tree;

Άλλη μια ερώτηση που μπορεί να αφορά τις γνώσεις ενός Data Scientist είναι για το decision tree (δέντρο αποφάσεων).

Αν, λοιπόν, τύχει να σου κάνουν και εσένα αυτή την ερώτηση σε μια συνέντευξη για την δουλειά του data scientist, μπορείς να πάρεις μια ιδέα από την παρακάτω απάντηση:

“Ένα decision tree είναι ο αλγόριθμος μηχανικής μάθησης που χρησιμοποιείται για εργασίες ταξινόμησης και παλινδρόμησης. Μέσα από αυτό, μπορούμε να δούμε τι προβλέψεις μπορεί να κάνει, με βάση τα χαρακτηριστικά και τις τιμές των δεδομένων, τα οποία μπορούν να χρησιμοποιηθούν για τη λήψη τεκμηριωμένων αποφάσεων. Αποτελεί δηλαδή, ένα εργαλείο υποστήριξης αποφάσεων που οι επιχειρήσεις μπορούν να εμπιστευτούν.”

   Ερώτηση #6: Ποια Στάδια Ακολουθείτε για ένα Data Analytics Project;

Και σε αυτή την περίπτωση, ο υποψήφιος πρέπει να γνωρίζει τις διαφορές μεταξύ ενός data scientist και ενός data analyst αλλά και τις διαφορές μεταξύ data science και data analytics.

Επίσης, θα πρέπει να γνωρίζει και ποια στάδια ακολουθεί για ένα data analytics project, οπότε σε μια πιθανή ερώτηση, υπάρχει και η κατάλληλη απάντηση.

“Υπάρχουν γενικά διάφορα στάδια που ακολουθούνται σε ένα έργο ανάλυσης δεδομένων. Αυτά τα στάδια συνήθως περιλαμβάνουν:

 Προσδιορισμό του προβλήματος που απασχολεί την επιχείρηση 

 Διερεύνηση και μελέτη των δεδομένων

 Συλλογή και προετοιμασία των δεδομένων

 Εκτέλεση του επιλεγμένου μοντέλου και ανάλυση των αποτελεσμάτων big data

 Κοινοποίηση των αποτελεσμάτων 

 Παρακολούθηση του αποτελέσματος και ανάλυση της απόδοσης του μοντέλου για μια συγκεκριμένη περίοδο

Όμως, ανάλογα το έργο και τις ανάγκες της κάθε επιχείρησης, τα στάδια αυτά μπορεί να είναι διαφορετικά.”

   Ερώτηση #7: Ποιες οι Διαφορές μεταξύ Normalisation και Standardisation;

Μια πολύ καλή ερώτηση μπορεί να αφορά τις διαφορές μεταξύ normalisation και standardisation.

Έτσι, λοιπόν, μια καλή ενδεικτική απάντηση θα μπορούσε να μοιάζει κάπως έτσι:

“To normalisation (κανονικοποίηση) και το standardisation (τυποποίηση) είναι δύο κοινές τεχνικές που χρησιμοποιούνται για την κλίμακα δεδομένων στον τομέα της επιστήμης δεδομένων. Πιο συγκεκριμένα, όμως, το normalisation αναφέρεται στη διαδικασία κλιμάκωσης μιας μεταβλητής, ώστε να έχει τιμές μεταξύ 0 και 1. Αυτό μπορεί να γίνει αφαιρώντας την ελάχιστη τιμή της μεταβλητής από όλες τις τιμές της μεταβλητής και στη συνέχεια διαιρώντας το αποτέλεσμα με το εύρος. Η τεχνική αυτή χρησιμοποιείται συχνά όταν η κλίμακα των μεταβλητών δεν είναι γνωστή ή όταν οι μεταβλητές έχουν διαφορετικές κλίμακες και πρέπει να συγκριθούν.”

Όσον αφορά το standardisation, υπάρχει και η αντίστοιχη απάντηση:

“Το standardisation όμως από την άλλη, κλιμακώνει τα δεδομένα έτσι, ώστε να έχει μέσο όρο 0 και τυπική απόκλιση 1. Αυτό γίνεται αφαιρώντας τον μέσο όρο της μεταβλητής από όλες τις τιμές της μεταβλητής και στη συνέχεια διαιρώντας το αποτέλεσμα με την τυπική απόκλιση. Η τυποποίηση χρησιμοποιείται συχνά όταν τα δεδομένα ακολουθούν μια κατανομή Gauss ή όταν είναι γνωστή η κλίμακα των μεταβλητών.”

   Ερώτηση #8: Ποιος Είναι ο Σκοπός του A/B Testing;

Το A/B testing είναι, επίσης, πολύ πιθανό να συζητηθεί στις ερωτήσεις συνέντευξης για data scientists, καθώς είναι μια πολύ σημαντική τεχνική με εξίσου σημαντικά αποτελέσματα.

Άρα, ένας data scientist θα πρέπει να γνωρίζει πολύ καλά τον σκοπό του A/B testing και να απαντάει ανάλογα.

“To A/B testing είναι μια διαδικασία δοκιμής στατιστικών υποθέσεων που χρησιμοποιείται για τη σύγκριση δύο εκδόσεων ενός προϊόντος ή μιας διαδικασίας για να προσδιοριστεί ποια έχει καλύτερη απόδοση. Επιτρέπει στους οργανισμούς να λαμβάνουν τεκμηριωμένες αποφάσεις σχετικά με βελτιώσεις προϊόντων, καμπάνιες μάρκετινγκ και άλλες αλλαγές, μετρώντας τον αντίκτυπο αυτών των αλλαγών σε βασικές μετρήσεις, όπως η αφοσίωση των χρηστών, τα ποσοστά μετατροπών και τα έσοδα. Με την χρήση του A/B testing, οι data scientists μπορούν να προσδιορίσουν με ακρίβεια την αποτελεσματικότητα μιας αλλαγής και να λάβουν αποφάσεις με υψηλό επίπεδο εμπιστοσύνης.”

   Ερώτηση #9: Μπορείτε να Διακρίνετε μεταξύ Overfitting και Underfitting;

Σημαντική γνώση, επίσης, είναι και όροι overfitting και underfitting, αλλά και οι διαφορές τους.

Πώς, λοιπόν, μπορεί να απαντήσει ένας data scientist, στο πως διακρίνεται το overfitting από το underfitting;

“Τόσο το overfitting (υπερπροσαρμογή) όσο και το underfitting (υποπροσαρμογή), είναι και τα δύο κοινά προβλήματα που μπορεί να προκύψουν κατά την κατασκευή προγνωστικών μοντέλων, χρησιμοποιώντας τεχνικές επιστήμης δεδομένων.

Overfitting έχουμε όταν ένα μοντέλο είναι πολύ περίπλοκο και μπορεί να χωρέσει εξαιρετικά καλά τα δεδομένα εκπαίδευσης, αλλά έχει κακή απόδοση σε νέα δεδομένα. Αυτό συμβαίνει επειδή έχει μάθει συγκεκριμένα μοτίβα στα δεδομένα εκπαίδευσης που δεν γενικεύονται στον ευρύτερο πληθυσμό.

Από την άλλη όμως, το underfitting συμβαίνει όταν ένα μοντέλο είναι πολύ απλό και δεν μπορεί να συλλάβει τα υποκείμενα μοτίβα στα δεδομένα, με αποτέλεσμα να μην έχει καλή απόδοση τόσο στα δεδομένα εκπαίδευσης όσο και στα νέα δεδομένα.”

   Ερώτηση #10: Τι Δεξιότητες Θα Πρέπει να Έχει ένας Data Scientist;

Τέλος, στις ερωτήσεις συνέντευξης για data scientists, μία από τις πιο πιθανές να γίνουν - και ίσως από τις πρώτες - είναι και η ερώτηση τι δεξιότητες πρέπει να έχει ένας data scientist.

Οπότε μια καλή απάντηση μπορεί να μοιάζει όπως η παρακάτω:

“Ένας data scientist πρέπει να έχει ισχυρά θεμέλια στα μαθηματικά, τη στατιστική και την επιστήμη των υπολογιστών. Επίσης, θα πρέπει να έχει εξειδίκευση στον προγραμματισμό και τον χειρισμό δεδομένων. Θα πρέπει να είναι σε θέση να λύνει προβλήματα και να βρίσκει καινοτόμες και δημιουργικές ιδέες.

Επιπλέον, θα πρέπει να έχει ισχυρές επικοινωνιακές δεξιότητες, ώστε να παρουσιάζει αποτελεσματικά τα ευρήματά του σε όλους, τόσο σε κοινό με αντίστοιχη τεχνογνωσία όσο και σε κοινό άλλου γνωστικού υποβάθρου.

Πιο συγκεκριμένα, πρέπει να:

 Γνωρίζει πολύ καλά τις γλώσσες προγραμματισμού, όπως η Python και η R

 Έχει καλή εμπειρία στην χρήση τεχνικών εργαλείων δεδομένων, όπως SQL, Excel και Tableau

 Ξέρει πώς να δημιουργεί αλγόριθμους μηχανικής μάθησης και να τους εφαρμόζει σε πραγματικά προβλήματα

 Έχει ικανότητες λήψης αποφάσεων βάσει των δεδομένων που χειρίζεται

Η δουλεία ενός τέτοιου επιστήμονα και οι δεξιότητες του έχουν μεγάλη σημασία στην σύγχρονη εποχή και μπορούν να συμβάλλουν σημαντικά σε πολλούς κλάδους.”

Έτσι, λοιπόν, καταλαβαίνουμε πόσο σημαντικό είναι αυτό το επάγγελμα και πόση μεγάλη χρησιμότητα έχει.

 Με Λίγα Λόγια

Είδαμε, λοιπόν, 10 πολύ σημαντικές ερωτήσεις συνέντευξης για data scientists, αλλά και τις απαντήσεις που ταιριάζουν στην κάθε μια ξεχωριστά.

Με αυτόν τον τρόπο, κάθε data scientist μπορεί να έχει μια καλύτερη εικόνα για τις ερωτήσεις που μπορεί να του κανουν στην μελλοντική του δουλειά, αλλά και να προετοιμαστεί ακόμα καλύτερα για μια συνέντευξη.

Αν, λοιπόν, θέλεις να γίνεις ένας επαγγελματίας data scientist και να εξελίξεις την καριέρα σου, πόσο μάλλον να ετοιμαστείς κατάλληλα για μια σύνεντευξη, τότε ανακάλυψε το Data Science Bootcamp και εξασφάλισε την θέση σου στην αγορά εργασίας.

Big Blue Data Academy