Post Thumb

Datathon 2015 Recap

Έπρεπε να περάσουν 2 εβδομάδες από το event για να βρω χρόνο να πω δύο-τρία λογάκια για το Datathon 2015 που έγινε στις 3-4 του Οκτώβρη. So here we are…

Όπως και με το Battlehack, έτσι και τώρα, η όλη “περιπέτεια” ξεκίνησε από τον Σταύρο (Τσουρλιδάκη), ο οποίος ένα βραδάκι έστειλε το link του event και με ρώτησε αν “ψήνομαι” να πάρω μέρος.

Το ωραίο της υπόθεσης, είναι ότι μόλις πριν μερικές μέρες είχα τελειώσει ένα μάθημα για την R στο EDx το οποίο είχα αρχίσει το καλοκαίρι. Αν και μάθημα για αρχάριους, ήταν αρκετό για να μου κεντρίσει το ενδιαφέρον τόσο ώστε να θελήσω να ασχοληθώ σοβαρά με τον κόσμο του big-data και την ανάλυση δεδομένων.

Έτσι όταν είδα την θεματολογία του Datathon που μου έστειλε ο Σταύρος, χωρίς 2η σκέψη είπα ναι και δηλώσαμε μαζί με τον Δημήτρη (Μπαρμπάκο) συμμετοχή. Με τον Δημήτρη δεν είχαμε γνωριστεί από κοντά, συνεργαζόμασταν όμως στα πλαίσια του Hermes-V (περισσότερα σύντομα) εξ αποστάσεως. Ήταν επομένως ευκαιρία να γνωριστούμε και από κοντά.

Τι ήταν;

Το Datathon (το οποίο φαντάζομαι βγήκε από τις λέξεις data και hackathlon), ήταν ένα hackathlon με θέμα data analysis. Οργανώθηκε για 2η χρονιά από το Thinkbiz στα γραφεία του Skroutz (ή Skroutz Awesome Factory όπως προτιμούν τα παιδιά εκεί να αποκαλούν τα γραφεία τους) στη Νέα Ιωνία.

Imgur ID YXQi5GF
Reception του Skroutz Awesome Factory

Σκοπός ήταν να αναλύσουμε ένα dataset (4GB) που μας δώθηκε και να βγάλουμε συμπεράσματα και προτάσεις βελτίωσης.

To event από την δική μας οπτική γωνία

Και οι τρεις μας δεν είχαμε καθόλου γνώση επί του θέματος. Κανείς δεν είχε ασχοληθεί στο παρελθόν με ανάλυση τόσο μεγάλης βάσης δεδομένων. Γι’ αυτό στην αρχή δοκιμάσαμε διαφορετικές προσεγγίσεις στο πρόβλημα.

Imgur ID Fd8W1KD
Αφοσιωμένοι στο έργο

Ο Δημήτρης ως ηλεκτρονικός, ενστικτωδώς πήγε να φορτώσει το dataset στο Matlab, ο Σταύρος ως web developer πήγε να φορτώσει την βάση σε MySQL με χρήση PHP και εγώ επειδή είχα πάρει μια γεύση από το EDx πήγα να φορτώσω το dataset στο R-Studio.

Το πρόβλημα με εμένα ήταν ότι στο EDx χρησιμοποιούσαμε ένα web περιβάλλον ειδικά σχεδιασμένο για το μάθημα. Ήξερα κάποιες βασικές εντολές, αλλά το πως να στήσω το περιβάλλον της R μου ήταν πρωτόγνωρο. Ξεκινούσα δηλαδή από το μηδέν.

Ο Σταύρος από την άλλη, δυσκολεύτηκε στο να φορτώσει τα δεδομένα στην βάση λόγω του όγκου τους και αν και ήταν εφικτό να το κάνει, με λίγους πρόχειρους υπολογισμούς που κάναμε, δεν θα προλαβαίναμε να φορτώσουμε (πόσο μάλλον να επεξεργαστούμε) τα δεδομένα στο 6ωρο που μας απέμενε.

Imgur ID ACV4NHk
Από αριστερά, Δημήτρης, Σταύρος και εγώ

Συμφωνήσαμε τότε όλοι να επικεντρωθούμε στην R. Κατέβασαν και οι υπόλοιποι το R Studio και ξεκινήσαμε το φόρτωμα. Πρακτικά στο επόμενο 4ωρο όλοι μάθαμε την R καθώς αυτά που είχα κάνει στο EDx, αν και χρήσιμα, κάλυπταν το 10-15% αυτών που θέλαμε να κάνουμε.

Με αυτά και μ’εκείνα φτάσαμε να έχει μείνει 1 ώρα για το τέλος. Ο Σταύρος άρχισε να σχεδιάζει την παρουσίαση, την οποία συμφωνήσαμε να την κάνουμε web page και όχι με powerpoint και οι άλλοι βοηθούσαμε όπου μπορούσαμε.

Στο τέλος είχαμε στα χέρια μας 3 διαγράμματα βάσει των συμπερασμάτων μας. Λόγω έλειψης χρόνου, η παρουσίαση ήταν ελλειπής και το αδύνατο σημείο μας, ένα αδύνατο σημείο που υπερκάλυψε ο Δημήτρης με μια πολύ ωραία ομιλία χαρίζοντάς μας έτσι την (ανεπίσημη) 3η θέση.

Περισσότερα για τους νικητές και το event μπορείτε να βρείτε στα Blogs του Thinkbiz και Skroutz.