Apache Spark
Το Apache Spark είναι ένα πλαίσιο παράλληλης επεξεργασίας ανοικτού κώδικα, σχεδιασμένο για την ανάλυση και τη μοντελοποίηση Μεγάλων Δεδομένων (Big Data). Σε αντίθεση με τα παραδοσιακά εργαλεία επεξεργασίας που διαχειρίζονται δεδομένα σε ένα μόνο μηχάνημα, το Spark επιτρέπει τη διασπορά των δεδομένων και των υπολογισμών σε συστοιχίες (clusters) με πολλούς κόμβους. Αποτελεί το πρότυπο της βιομηχανίας για επεξεργασία δεδομένων υψηλής ταχύτητας, καθώς λειτουργεί κυρίως εντός μνήμης (in-memory), επιτρέποντάς του να επεξεργάζεται τεράστια σύνολα δεδομένων έως και 100 φορές ταχύτερα από παλαιότερα συστήματα βασισμένα σε δίσκους, όπως το MapReduce. Το Spark αντιπροσωπεύει τη δυνατότητα «βαριάς επεξεργασίας» ενός οργανισμού, παρέχοντας την υποδομή που απαιτείται για την εκτέλεση σύνθετης μηχανικής μάθησης και αναλύσεων πραγματικού χρόνου σε παγκόσμια κλίμακα.