
Δημοσιεύτηκε στις 14/10/2015 Ενημερώθηκε στις 19/03/2021
Datathon 2015 Recap
Έπρεπε να περάσουν 2 εβδομάδες από το event για να βρω χρόνο να πω δύο-τρία λογάκια για το Datathon 2015 που έγινε στις 3-4 του Οκτώβρη. So here we are…
Όπως και με το Battlehack, έτσι και τώρα, η όλη “περιπέτεια” ξεκίνησε από τον Σταύρο (Τσουρλιδάκη), ο οποίος ένα βραδάκι έστειλε το link του event και με ρώτησε αν “ψήνομαι” να πάρω μέρος.
Το ωραίο της υπόθεσης, είναι ότι μόλις πριν μερικές μέρες είχα τελειώσει ένα μάθημα για την R στο EDx το οποίο είχα αρχίσει το καλοκαίρι. Αν και μάθημα για αρχάριους, ήταν αρκετό για να μου κεντρίσει το ενδιαφέρον τόσο ώστε να θελήσω να ασχοληθώ σοβαρά με τον κόσμο του big-data και την ανάλυση δεδομένων.
Έτσι όταν είδα την θεματολογία του Datathon που μου έστειλε ο Σταύρος, χωρίς 2η σκέψη είπα ναι και δηλώσαμε μαζί με τον Δημήτρη (Μπαρμπάκο) συμμετοχή. Με τον Δημήτρη δεν είχαμε γνωριστεί από κοντά, συνεργαζόμασταν όμως στα πλαίσια του Hermes-V (περισσότερα σύντομα) εξ αποστάσεως. Ήταν επομένως ευκαιρία να γνωριστούμε και από κοντά.
Τι ήταν;
Το Datathon (το οποίο φαντάζομαι βγήκε από τις λέξεις data και hackathlon), ήταν ένα hackathlon με θέμα data analysis. Οργανώθηκε για 2η χρονιά από το Thinkbiz στα γραφεία του Skroutz (ή Skroutz Awesome Factory όπως προτιμούν τα παιδιά εκεί να αποκαλούν τα γραφεία τους) στη Νέα Ιωνία.

Σκοπός ήταν να αναλύσουμε ένα dataset (4GB) που μας δώθηκε και να βγάλουμε συμπεράσματα και προτάσεις βελτίωσης.
To event από την δική μας οπτική γωνία
Και οι τρεις μας δεν είχαμε καθόλου γνώση επί του θέματος. Κανείς δεν είχε ασχοληθεί στο παρελθόν με ανάλυση τόσο μεγάλης βάσης δεδομένων. Γι’ αυτό στην αρχή δοκιμάσαμε διαφορετικές προσεγγίσεις στο πρόβλημα.

Ο Δημήτρης ως ηλεκτρονικός, ενστικτωδώς πήγε να φορτώσει το dataset στο Matlab, ο Σταύρος ως web developer πήγε να φορτώσει την βάση σε MySQL με χρήση PHP και εγώ επειδή είχα πάρει μια γεύση από το EDx πήγα να φορτώσω το dataset στο R-Studio.
Το πρόβλημα με εμένα ήταν ότι στο EDx χρησιμοποιούσαμε ένα web περιβάλλον ειδικά σχεδιασμένο για το μάθημα. Ήξερα κάποιες βασικές εντολές, αλλά το πως να στήσω το περιβάλλον της R μου ήταν πρωτόγνωρο. Ξεκινούσα δηλαδή από το μηδέν.
Ο Σταύρος από την άλλη, δυσκολεύτηκε στο να φορτώσει τα δεδομένα στην βάση λόγω του όγκου τους και αν και ήταν εφικτό να το κάνει, με λίγους πρόχειρους υπολογισμούς που κάναμε, δεν θα προλαβαίναμε να φορτώσουμε (πόσο μάλλον να επεξεργαστούμε) τα δεδομένα στο 6ωρο που μας απέμενε.

Συμφωνήσαμε τότε όλοι να επικεντρωθούμε στην R. Κατέβασαν και οι υπόλοιποι το R Studio και ξεκινήσαμε το φόρτωμα. Πρακτικά στο επόμενο 4ωρο όλοι μάθαμε την R καθώς αυτά που είχα κάνει στο EDx, αν και χρήσιμα, κάλυπταν το 10-15% αυτών που θέλαμε να κάνουμε.
Με αυτά και μ’εκείνα φτάσαμε να έχει μείνει 1 ώρα για το τέλος. Ο Σταύρος άρχισε να σχεδιάζει την παρουσίαση, την οποία συμφωνήσαμε να την κάνουμε web page και όχι με powerpoint και οι άλλοι βοηθούσαμε όπου μπορούσαμε.
Στο τέλος είχαμε στα χέρια μας 3 διαγράμματα βάσει των συμπερασμάτων μας. Λόγω έλειψης χρόνου, η παρουσίαση ήταν ελλειπής και το αδύνατο σημείο μας, ένα αδύνατο σημείο που υπερκάλυψε ο Δημήτρης με μια πολύ ωραία ομιλία χαρίζοντάς μας έτσι την (ανεπίσημη) 3η θέση.
Περισσότερα για τους νικητές και το event μπορείτε να βρείτε στα Blogs του Thinkbiz και Skroutz.