Λεξικό Data Science: 52 Βασικοί Όροι Επιστήμης Δεδομένων
Ο κόσμος του Data Science είναι γεμάτος έννοιες, άλλες λιγότερο και άλλες περισσότερο γνωστές.
Όση εμπειρία και εξειδίκευση να έχει κανείς στον κλάδο αυτό, αναπτύσσεται τόσο ραγδαία που συνεχώς αναδύονται νέοι ορισμοί με τους οποίους είναι δύσκολο να είμαστε πάντα ενήμεροι.
Εδώ στην BigBlue Data Academy, έχοντας καθημερινή επαφή τόσο με τους μαθητές και εισηγητές μας, όσο και με το δίκτυο εταιρειών με το οποίο συνεργαζόμαστε, αυτό είναι κάτι που το βλέπουμε συχνά.
Για τον λόγο αυτό, πιστοί στο όραμά μας να καλλιεργήσουμε μια κουλτούρα καινοτομίας, κριτικής σκέψης και να προωθήσουμε πραγματικές λύσεις σε σύνθετες προκλήσεις δεδομένων, δημιουργήσαμε το παρακάτω λεξικό Data Science.
Σε μια προσπάθεια να κάνουμε τον κόσμο του Data Science όσο πιο προσιτό και προσβάσιμο γίνεται!
Με λίγα λόγια, θα καλύψουμε συνοπτικά 52 έννοιες και εργαλεία σε αλφαβητική σειρά:
Σημείωση: Για διευκόλυνση, έχουμε κατατάξει τις ορολογίες βάσει της Αγγλικής ονομασίας τους, σε κάθε μία όμως μπορείτε να βρείτε την ελληνική επεξήγηση.
Α
Αλγόριθμος
Ο αλγόριθμος είναι μια λογική διαδικασία για την επίλυση ενός προβλήματος ή την εκτέλεση μιας εργασίας. Οι αλγόριθμοι χρησιμοποιούνται σε όλους τους τομείς της επιστήμης των υπολογιστών, συμπεριλαμβανομένης της επιστήμης των δεδομένων, για την αυτοματοποίηση και την απλούστευση πολύπλοκων διαδικασιών.
Apache Spark
Ένας ενοποιημένος αναλυτικός μηχανισμός για την επεξεργασία μεγάλων δεδομένων. Το Apache Spark μπορεί να χρησιμοποιηθεί για την επεξεργασία συσσωρευμένων δεδομένων και παρέχει μια ποικιλία APIs για την ανάλυση δεδομένων, συμπεριλαμβανομένης της μηχανικής μάθησης.
API
Το API (Application Programming Interface), είναι η διεπαφή μέσω της οποίας τα δεδομένα τα οποία καταχωρείς, σε μία εφαρμογή ή πλατφόρμα, αποστέλλονται σε έναν server και στέλνονται ξανά πίσω σε σένα, με τις απαντήσεις και τα αποτελέσματα που επιθυμείς.
Artificial Intelligence (AI)
Η τεχνητή νοημοσύνη (AI) είναι μία τεχνολογία η οποία στην ουσία μιμείται την ανθρώπινη νοημοσύνη, ώστε τα κατασκευάζονται αυτοματοποιημένα συστήματα που εκτελούν διάφορες διαδικασίες. Χρησιμοποιείται σε μια ποικιλία εφαρμογών, συμπεριλαμβανομένης της επεξεργασίας φυσικής γλώσσας, της μηχανικής μάθησης και της ρομποτικής.
Artificial Neural Networks (ANN)
Τα Τεχνητά Νευρωνικά Δίκτυα (ANN) είναι ένας τύπος αλγορίθμου μηχανικής μάθησης που εμπνέεται από τη δομή και τη λειτουργία του ανθρώπινου εγκεφάλου.
Τα ANN μπορούν να μαθαίνουν από δεδομένα και να κάνουν προβλέψεις χωρίς να προγραμματίζονται ρητά.
B
Business Analytics
Τα Business Analytics είναι η διαδικασία όπου μια εταιρεία χρησιμοποιεί μεθόδους για να επεξεργαστεί δεδομένα και να βγάλει συμπεράσματα, με σκοπό να λάβει καλύτερες επιχειρηματικές αποφάσεις.
Οι μέθοδοι αυτοί ποικίλουν και μπορεί να είναι data mining, predictive analytics, machine learning και άλλα πολλά.
Big Data
Τα Big Data (Μεγάλα Δεδομένα) αναφέρονται σε σύνολα δεδομένων που είναι πολύ μεγάλα ή πολύπλοκα για να επεξεργαστούν με παραδοσιακές μεθόδους επεξεργασίας δεδομένων. Μπορούν να συλλεχθούν από διάφορες πηγές, συμπεριλαμβανομένων των μέσων κοινωνικής δικτύωσης και των χρηματοοικονομικών συναλλαγών.
Business Intelligence (BI)
Το Business Intelligence αναφέρεται στην διαδικασία όπου μια επιχείρηση συνδυάζει δεδομένα από διάφορες πηγές, ώστε να τα αναλύσει και να λάβει αποφάσεις από αυτά. Με απώτερο σκοπό περίπλοκα δεδομένα να παρουσιαστούν με απλό τρόπο και να ληφθούν οι κατάλληλες αποφάσεις.
C
Classification
Η ταξινόμηση (classification) είναι μια διαδικασία μηχανικής μάθησης που περιλαμβάνει την κατηγοριοποίηση δεδομένων σε προκαθορισμένες κλάσεις ή κατηγορίες με βάση τα χαρακτηριστικά τους. Χρησιμοποιείται για εργασίες όπως η ανίχνευση ανεπιθύμητων μηνυμάτων, η ανάλυση συναισθημάτων και η αναγνώριση εικόνων.
Clustering
Το clustering ή ανάλυση κατά συστάδες είναι μια machine learning τεχνική η οποία χρησιμεύσει για την επεξεργασία δεδομένων. Στην ουσία είναι ένας αλγόριθμος μάθησης χωρίς επίβλεψη. Αυτό που κάνει είναι να εντοπίζει στοιχεία τα οποία έχουν κοινά χαρακτηριστικά και να τα οργανώνει σε ομάδες ή συστάδες (clusters).
Computer Science
Η επιστήμη των υπολογιστών (computer science) είναι η μελέτη των αλγορίθμων, των δομών δεδομένων και των αρχών που διέπουν τα συστήματα υπολογιστών. Παρέχει τη θεωρητική και πρακτική βάση για πολλές τεχνικές και εργαλεία επιστήμης δεδομένων.
Computer Vision
Η υπολογιστική όραση (computer vision) αποτελεί ένα πεδίο της τεχνητής νοημοσύνης που εκπαιδεύει και επιτρέπει στους υπολογιστές να αντλούν βασικές πληροφορίες από διάφορες πηγές, όπως ψηφιακές εικόνες και βίντεο.
D
Dashboard
Ένα dashboard είναι μια οπτική απεικόνιση σημαντικών δεδομένων και βασικών δεικτών απόδοσης (KPI) που επιτρέπει στους χρήστες να παρακολουθούν και να αναλύουν πληροφορίες με μια ματιά. Οι επιστήμονες δεδομένων συχνά δημιουργούν dashboards για να παρουσιάσουν πληροφορίες σε συναδέλφους ή πελάτες τους.
Database
Μια βάση δεδομένων είναι μια οργανωμένη δομή μέσα στην οποία συλλέγονται δεδομένα και κατηγοριοποιούνται κατάλληλα, με σκοπό την καλύτερη αξιοποίηση τους.
Data Analytics
Η ανάλυση δεδομένων περιλαμβάνει τη διαδικασία ανάλυσης διάφορων δεδομένων για την εξαγωγή σημαντικών πληροφοριών και την υποστήριξη της λήψης αποφάσεων. Περιλαμβάνει μια σειρά τεχνικών, από τη βασική στατιστική ανάλυση έως και την προηγμένη μηχανική μάθηση.
Data Architect
Ο Data Architect, είναι ένας επαγγελματίας, ο οποίος ασχολείται με το σχεδιασμό, τη δημιουργία, την ανάπτυξη και τη διαχείριση της αρχιτεκτονικής δεδομένων ενός οργανισμού. Βασική αρμοδιότητά του είναι να δημιουργήσει το σχεδιασμό που ακολουθεί η εκάστοτε εταιρεία, σχετικά με τα δεδομένα της.
Data Cleaning
Το data cleaning, είναι η διαδικασία διόρθωσης ή αφαίρεσης δεδομένων τα οποία είναι λανθασμένα, βρίσκονται σε λανθασμένη μορφή, είναι αλλοιωμένα, διπλότυπα ή ελλιπή. Ο λόγος ύπαρξης των δεδομένων είναι η σωστή λειτουργία αλγορίθμων, οι οποίοι τρέχουν για να εξάγουν τα κατάλληλα αποτελέσματα.
Data Engineer
Ο Data Engineer είναι ένας επαγγελματίας, ο οποίος ειδικεύεται στην διαχείριση δεδομένων και συγκεκριμένα μεγάλων όγκων δεδομένων. Οι αρμοδιότητές του περιστρέφονται γύρω από την δημιουργία συστημάτων, μέσω των οποίων γίνεται συλλογή, αποθήκευση και ανάλυση δεδομένων.
Data Lake
Το Data Lake (λίμνη δεδομένων) αποτελεί ένα μεγάλο αποθετήριο ακατέργαστων, μη δομημένων και ημι-δομημένων data, που μπορούν να προέρχονται από πολλαπλές πηγές, συμπεριλαμβανομένων των JSON, CSV και Parquet.
Data Mining
Το data mining είναι η διαδικασία εξόρυξης πληροφοριών μέσα από την ανάλυση μεγάλου όγκου δεδομένων, αποσκοπώντας στην αναγνώριση τάσεων και προτύπων.
Data Science
Η επιστήμη δεδομένων είναι ένας πολυεπιστημονικός τομέας που συνδυάζει στοιχεία στατιστικής, επιστήμης υπολογιστών και γνώσης για την εξαγωγή συμπερασμάτων από δεδομένα, χρησιμοποιώντας συχνά τεχνικές όπως η μηχανική μάθηση.
Data Warehouse
Το Data Warehouse (αποθήκη δεδομένων) αποτελεί ένα κεντρικό αποθετήριο δομημένων δεδομένων που έχουν υποβληθεί σε επεξεργασία, μετασχηματισμό και μοντελοποίηση για την κάλυψη κάποιας συγκεκριμένης επιχειρηματικής ανάγκης.
Data Visualization
Η οπτικοποίηση δεδομένων είναι η αναπαράσταση δεδομένων και πληροφοριών σε οπτική μορφή, προκειμένου να διευκολύνει την διαδικασία κατανόησης και ερμηνείας πολύπλοκων και σύνθετων δεδομένων. Ο στόχος της οπτικοποίησης δεδομένων είναι η παρουσίαση δεδομένων με σαφή, συνοπτικό και ουσιαστικό τρόπο.
Deep Learning
Η βαθιά μάθηση (deep learning) είναι το υποσύνολο των μεθόδων μηχανικής μάθησης που βασίζονται σε τεχνητά νευρωνικά δίκτυα. Το επίθετο "deep" στη βαθιά εκμάθηση αναφέρεται στη χρήση πολλαπλών επιπέδων στο δίκτυο. Οι μέθοδοι που χρησιμοποιούνται μπορούν να είναι είτε υπό επίβλεψη, είτε ημι-εποπτευόμενες ή χωρίς επίβλεψη
E
ELT
Το ELT είναι μια διαδικασία όπου τα δεδομένα εξάγονται πρώτα από συστήματα πηγής, φορτώνονται σε ένα χώρο αποθήκευσης δεδομένων και στη συνέχεια μετασχηματίζονται για ανάλυση. Διαφέρει από το ETL, όπου ο μετασχηματισμός λαμβάνει χώρα πριν από τη φόρτωση.
ETL
O ETL είναι μια διαδικασία που περιλαμβάνει την εξαγωγή δεδομένων από συστήματα πηγής, τον μετασχηματισμό τους ώστε να ταιριάζει σε ένα σχήμα στόχου και τη φόρτωση δεδομένων σε μια βάση δεδομένων προορισμού.
F
F-Score
Το F-score (γνωστό και ως F1 score ή F-measure) είναι μια μέτρηση που χρησιμοποιείται για την αξιολόγηση της απόδοσης ενός μοντέλου Μηχανικής Μάθησης.
G
Gradient Descent
Το Gradient Descent είναι ένας αλγόριθμος βελτιστοποίησης για την εύρεση ενός τοπικού ελάχιστου μιας διαφοροποιήσιμης συνάρτησης. Στη μηχανική μάθηση χρησιμοποιείται απλώς για να βρεθούν οι τιμές των παραμέτρων μιας συνάρτησης (συντελεστές) που ελαχιστοποιούν όσο το δυνατόν περισσότερο μια συνάρτηση κόστους.
H
Hadoop
Το Apache Hadoop είναι ένα framework λογισμικού ανοιχτού κώδικα που δίνει τη δυνατότητα στον χρήστη να διαχειρίζεται μεγάλα σύνολα δεδομένων (τα λεγόμενα Big Data), επιτρέποντας σε ένα δίκτυο υπολογιστών να επιλύει πολύπλοκα προβλήματα δεδομένων.
Histogram
Το ιστόγραμμα είναι ένα γράφημα που δείχνει τη συχνότητα των αριθμητικών δεδομένων χρησιμοποιώντας μπάρες. Το ύψος μιας μπάρας (ο κατακόρυφος άξονας) αντιπροσωπεύει τη συχνότητα κατανομής μιας μεταβλητής (το ποσό ή πόσο συχνά εμφανίζεται αυτή η μεταβλητή).
K
K-Means
Η ομαδοποίηση k-means είναι μια μέθοδος κβαντοποίησης διανυσμάτων, αρχικά από το signal processing, που στοχεύει να χωρίσει n παρατηρήσεις σε k συμπλέγματα στα οποία κάθε παρατήρηση ανήκει στο σύμπλεγμα με τον πλησιέστερο μέσο όρο.
L
Linear Regression
Η ανάλυση γραμμικής παλινδρόμησης χρησιμοποιείται για την πρόβλεψη της τιμής μιας μεταβλητής με βάση την τιμή μιας άλλης μεταβλητής. Η μεταβλητή που θέλουμε να προβλέψουμε ονομάζεται εξαρτημένη μεταβλητή. Η μεταβλητή που χρησιμοποιείται για να προβλέψουμε την τιμή της άλλης μεταβλητής ονομάζεται ανεξάρτητη μεταβλητή.
M
Machine Learning
Το Machine Learning είναι ένα παρακλάδι της τεχνητής νοημοσύνης, που βασίζεται στην ιδέα πως οι υπολογιστές/μηχανές μπορούν να μαθαίνουν από τα δεδομένα που συλλέγουν με σκοπό να αναγνωρίζουν μοτίβα και να παίρνουν δικές τους αποφάσεις.
Median
Η διάμεσος (media) είναι η τιμή στη μέση ενός συνόλου δεδομένων, που σημαίνει ότι το 50% των δεδομένων έχουν τιμή μικρότερη ή ίση με τη διάμεσο και το 50% των δεδομένων έχουν τιμή μεγαλύτερη ή ίση με τη διάμεσο.
N
Natural Language Processing (NLP)
Το NLP (Natural Language Processing) αποτελεί έναν κλάδο της επιστήμης των υπολογιστών - και συγκεκριμένα της τεχνητής νοημοσύνης - και αναφέρεται στον τρόπο που οι μηχανές αντιλαμβάνονται και καταλαβαίνουν τις ανθρώπινες λέξεις, όπως ακριβώς οι ίδιοι οι άνθρωποι.
Normalization
Η κανονικοποίηση είναι η διαδικασία λήψης μιας μέτρησης και διαίρεσης με κάτι άλλο προκειμένου να γίνει ένας αριθμός πιο συγκρίσιμος ή να τεθεί σε ένα πιο κατανοητό πλαίσιο.
NoSQL
Η NoSQL αποτελεί μία μη σχεσιακή βάση δεδομένων, που σημαίνει ότι επιτρέπει διαφορετικές δομές από μια βάση δεδομένων SQL. Με άλλα λόγια, δεν λειτουργεί με σειρές και στήλες
O
Open Source
Το λογισμικό ανοιχτού κώδικα (open source) είναι λογισμικό με πηγαίο κώδικα που ο καθένας μπορεί να επιθεωρήσει, να τροποποιήσει και να βελτιώσει.
P
Predictive Analytics
Τα predictive analytics είναι η χρήση παλαιών και τωρινών δεδομένων, ώστε να δημιουργηθούν προβλέψεις σχετικά με το τι πιθανώς θα συμβεί στο μέλλον.
Python
Η Python είναι μια αντικειμενοστραφής γλώσσα προγραμματισμού υψηλού επιπέδου, με ενσωματωμένες δομές δεδομένων και δυναμικές ιδιότητες. Είναι κατάλληλη για δημιουργία αυτοματισμών, καθώς και χρήση σε συστήματα τεχνητής νοημοσύνης και μηχανικής μάθησης.
R
R
Η R είναι μια γλώσσα προγραμματισμού ανοιχτού κώδικα που παρέχει στον χρήστη τη δυνατότητα να κάνει υπολογιστική στατιστική και γραφήματα.
Regression
Η παλινδρόμηση είναι μια στατιστική μέθοδος που χρησιμοποιείται στα χρηματοοικονομικά, στις επενδύσεις και σε άλλους κλάδους που επιχειρεί να προσδιορίσει τη δύναμη της σχέσης μεταξύ μιας εξαρτημένης μεταβλητής και μιας σειράς άλλων μεταβλητών (γνωστές ως ανεξάρτητες μεταβλητές).
S
Sentiment Analysis
Η ανάλυση συναισθήματος αποτελεί μια μέθοδο στο χώρο του NLP για τον προσδιορισμό του συναισθηματικού τόνου μέσα από την ανάλυση ενός ψηφιακού κειμένου. Μέσα από την ανάλυση συναισθήματος μπορεί να προσδιοριστεί εάν ο συναισθηματικός τόνος ενός ορισμένου μηνύματος είναι θετικός, αρνητικός ή ακόμα και ουδέτερος.
Structured Data
Τα δομημένα δεδομένα είναι δεδομένα που έχουν τυποποιημένη μορφή για αποτελεσματική πρόσβαση τόσο από λογισμικό όσο και από ανθρώπους. Είναι συνήθως πίνακες με γραμμές και στήλες που ορίζουν με σαφήνεια τα χαρακτηριστικά δεδομένων.
SQL
Η SQL (Structured Query Language), είναι η γλώσσα που χρησιμοποιούν οι data analysts και οι data scientists, για να αντλήσουν και να οργανώσουν δεδομένα από σχεσιακές βάσεις δεδομένων, για περαιτέρω χρήση.
Standard Deviation
Η τυπική απόκλιση είναι ένα μέτρο του πόσο διασκορπισμένα είναι τα δεδομένα σε σχέση με τον μέσο όρο. Η χαμηλή ή μικρή τυπική απόκλιση υποδηλώνει ότι τα δεδομένα συγκεντρώνονται στενά γύρω από τη μέση τιμή και η υψηλή ή μεγάλη τυπική απόκλιση υποδηλώνει ότι τα δεδομένα είναι πιο διασκορπισμένα.
Supervised Learning
Η επιβλεπόμενη μάθηση χρησιμοποιεί ένα σετ εκπαίδευσης για να “διδάξει” μοντέλα να αποδώσουν το επιθυμητό αποτέλεσμα. Αυτό το σύνολο δεδομένων εκπαίδευσης περιλαμβάνει εισόδους και σωστές εξόδους, οι οποίες επιτρέπουν στο μοντέλο να μαθαίνει με την πάροδο του χρόνου
Synthetic Data
Τα συνθετικά δεδομένα αναφέρονται σε δεδομένα που παράγονται τεχνητά, χρησιμοποιώντας αλγόριθμους, μοντέλα ή στατιστικές τεχνικές για την αναπαραγωγή διαφόρων ιδιοτήτων, κατανομών και σχέσεων που βρίσκονται σε πραγματικά δεδομένα.
U
Unstructured Data
Τα μη δομημένα δεδομένα είναι πληροφορίες που δεν είναι διατεταγμένες σύμφωνα με ένα προκαθορισμένο μοντέλο δεδομένων και επομένως δεν μπορούν να αποθηκευτούν σε μια παραδοσιακή σχεσιακή βάση δεδομένων.
Unsupervised Learning
Η μη εποπτευόμενη μάθηση χρησιμοποιεί αλγόριθμους μηχανικής μάθησης για την ανάλυση και την ομαδοποίηση συνόλων δεδομένων χωρίς labels.
W
Web Scraping
Το Web Scraping, είναι μία μέθοδος, μέσω της οποίας μπορούμε να συλλέξουμε δεδομένα σε μια μη δομημένη μορφή, όπως για παράδειγμα HTML και να τα μεταφέρουμε σε δομημένη μορφή σε ένα αρχείο, όπως ένα φύλλο εργασίας του Excel.
Z
Z-Score
Το Z-Score είναι μια στατιστική μέτρηση της σχέσης μιας βαθμολογίας με τον μέσο όρο σε μια ομάδα βαθμολογιών. Μια βαθμολογία Z μπορεί να αποκαλύψει σε κάποιον εάν μια τιμή είναι τυπική για ένα καθορισμένο σύνολο δεδομένων ή αν είναι άτυπη.
Με Λίγα Λόγια
Όπως αναφέραμε, υπάρχουν πολλές ορολογίες στον κόσμο του Data Science και των τομέων που τον περιβάλλουν (πχ στατιστική).
Αν και δεν είναι εύκολο να γνωρίζει και να κατανοεί κανείς όλες τις ορολογίες, πιστεύουμε ότι οι 52 παραπάνω μπορούν να φανούν χρήσιμες σε οποιονδήποτε ενδιαφέρεται να εμβαθύνει περισσότερο στην επιστήμη των δεδομένων!