Η θεαματική ανάδυση των «μεγάλων δεδομένων» | Foreign Affairs - Hellenic Edition
Secure Connection

Η θεαματική ανάδυση των «μεγάλων δεδομένων»

Πώς τα big data αλλάζουν τον τρόπο που σκεφτόμαστε τον κόσμο

Στο μεγαλύτερο μέρος της Ιστορίας, οι άνθρωποι έχουν δουλέψει με σχετικά μικρές ποσότητες δεδομένων επειδή τα εργαλεία για τη συλλογή, την οργάνωση, την αποθήκευση και την ανάλυση της πληροφορίας ήταν φτωχά. Οι άνθρωποι ξεσκαρτάριζαν την πληροφορία που τους χρειαζόταν στη στοιχειωδέστερη μορφή της έτσι ώστε να μπορούν να την εξετάσουν ευκολότερα. Αυτή ήταν η ευφυΐα της μοντέρνας στατιστικής που ήλθε για πρώτη φορά στο προσκήνιο στα τέλη του δέκατου ένατου αιώνα κι έδωσε τη δυνατότητα στην κοινωνία να καταλάβει σύνθετες πραγματικότητες ακόμη κι όταν υπήρχαν λίγα δεδομένα. Σήμερα, το τεχνικό περιβάλλον έχει κάνει στροφή 179 μοιρών. Υπάρχει ακόμη, και θα υπάρχει πάντα, ένας φραγμός στο πόσα δεδομένα μπορούμε να διαχειριστούμε αλλά είναι πολύ πιο περιορισμένος από ό,τι ήταν, και θα γίνει ακόμη πιο περιορισμένος όσο περνάει ο καιρός.

Ο τρόπος με τον οποίο οι άνθρωποι διαχειρίζονταν το πρόβλημα της συλλογής της πληροφορίας στο παρελθόν γινόταν μέσω δειγματοληψίας. Όταν η συλλογή των δεδομένων ήταν δαπανηρή και η επεξεργασία τους ήταν δύσκολη και χρονοβόρα, το δείγμα ήταν σωτήριο. Η σύγχρονη δειγματοληψία βασίστηκε στην ιδέα ότι, με ένα ορισμένο περιθώριο λάθους, μπορεί κανείς να συνάγει κάτι για τον συνολικό πληθυσμό με βάση ένα μικρό υποσύνολο, καθώς το δείγμα έχει επιλεγεί τυχαία. Έτσι, τα exit polls τη νύχτα των εκλογών υποβάλλουν ερωτήματα σε ένα τυχαία επιλεγμένο δείγμα μερικών εκατοντάδων ανθρώπων προκειμένου να προβλέψουν την εκλογική συμπεριφορά μιας ολόκληρης χώρας. Για απλές ερωτήσεις, αυτή η διαδικασία λειτουργεί καλά. Αλλά αποσυντονίζεται όταν θέλουμε να πάμε βαθύτερα σε υπο-ομάδες μέσα στο ίδιο δείγμα. Τι γίνεται όταν ο δημοσκόπος θέλει να μάθει ποια υποψήφια άγαμη γυναίκα κάτω των τριάντα είναι πιο πιθανό να πάρει τις περισσότερες ψήφους; Ή ποια Αμερικανίδα ασιατικής καταγωγής, κάτω των 30, με πανεπιστημιακή μόρφωση, μπορεί να κάνει το ίδιο; Ξαφνικά, το τυχαίο δείγμα γίνεται εν πολλοίς άχρηστο, εφόσον μπορεί να υπάρχουν μόνο κάνα δύο άνθρωποι με αυτά τα χαρακτηριστικά στο δείγμα, πολύ λίγοι για να προσφέρουν μια εκτίμηση με κάποιο νόημα για το πως θα ψηφίσουν οι διάφορες πληθυσμιακές ομάδες. Αλλά αν συλλέξουμε όλα τα δεδομένα -«ν=όλα», για να χρησιμοποιήσουμε την ορολογία της στατιστικής- το πρόβλημα εξαφανίζεται.

Αυτό το παράδειγμα εγείρει ένα άλλο μειονέκτημα από τη χρήση ορισμένων δεδομένων αντί όλων. Στο παρελθόν, όταν οι άνθρωποι συνέλεγαν μόνο λίγα δεδομένα, έπρεπε συχνά να αποφασίσουν εξαρχής τι να συλλέξουν και πως να το χρησιμοποιήσουν. Σήμερα, όταν μαζεύουμε όλα τα δεδομένα, δεν χρειάζεται να γνωρίζουμε προκαταβολικά τι σκοπεύουμε να τα κάνουμε. Φυσικά, μπορεί να μην γίνεται πάντα να συλλέξουμε όλα τα δεδομένα, αλλά είναι όλο και πιο εφικτό να συλλάβουμε πολύ περισσότερα από όσα αφορούν ένα φαινόμενο, παρά μόνο ένα δείγμα του που θα στοχεύσει στην κατανόησή του ως όλο. Τα «μεγάλα δεδομένα» δεν έχουν στόχο τη δημιουργία κάπως μεγάλων δειγμάτων αλλά την όσο γίνεται μεγαλύτερη τιθάσευση των υπαρχόντων δεδομένων που αφορούν το υπό μελέτη θέμα. Χρειαζόμαστε ακόμη τη στατιστική. Απλώς δεν χρειαζόμαστε πλέον να στηριζόμαστε σε μικρά δείγματα.

Πρέπει να κάνουμε ένα συμβιβασμό, πάντως. Όταν αυξάνουμε την κλίμακα με όρους μεγέθους, θα πρέπει ίσως να εγκαταλείψουμε τα καθαρά, προσεκτικά οργανωμένα δεδομένα, και να ανεχτούμε λίγη ακαταστασία. Αυτή η ιδέα έρχεται σε αντίθεση με το πώς δούλευαν επί αιώνες οι άνθρωποι με τα δεδομένα. Παρ’ όλ’ αυτά, η εμμονή με την πιστότητα και την ακρίβεια είναι κατά μια έννοια ένα τεχνούργημα ενός περιβάλλοντος με περιορισμένη πρόσβαση στην πληροφορία. Όταν δεν υπήρχαν τόσα δεδομένα τριγύρω, οι ερευνητές έπρεπε να βεβαιωθούν ότι τα στοιχεία που τους ενδιέφερε να συγκεντρώσουν ήταν όσο το δυνατόν πιο ακριβή. Η άντληση πολύ περισσότερων δεδομένων σημαίνει ότι μπορούμε να επιτρέψουμε μερικές ανακρίβειες (θεωρώντας ότι τα δεδομένα μας δεν είναι εντελώς λάθος), και σε αντάλλαγμα να επωφεληθούμε από τη βαθιά γνώση που παρέχει ένα τεράστιο σώμα δεδομένων.

Ας εξετάσουμε τη μετάφραση. Μπορεί να θεωρείται προφανές ότι οι υπολογιστές μεταφράζουν καλά, εφόσον μπορούν να αποθηκεύουν πολλές πληροφορίες και να τις ανασύρουν γρήγορα. Αλλά αν το θέμα ήταν η απλή αντικατάσταση λέξεων από ένα Γαλλο-Αγγλικό λεξικό, η μετάφραση θα ήταν άγαρμπη. Η γλώσσα είναι σύνθετη. Έγινε σημαντική πρόοδος τη δεκαετία του ’90, όταν η ΙΒΜ πειραματίστηκε πάνω σε μια στατιστική μηχανή μετάφρασης. Τροφοδότησε τον υπολογιστή με τα πρακτικά τού καναδικού κοινοβουλίου, στα γαλλικά και τα αγγλικά, και τον προγραμμάτισε να συναγάγει ποια λέξη της μιας γλώσσας αντιστοιχεί καλύτερα στην άλλη. Αυτή η διαδικασία άλλαξε το έργο της μετάφρασης και το έκανε ένα τεράστιο ζήτημα πιθανοτήτων και μαθηματικών. Αλλά μετά από αυτή την αρχική βελτίωση, η πρόοδος βάλτωσε.

Την σκυτάλη πήρε η Google. Αντί να χρησιμοποιήσει ένα σχετικά μικρό αριθμό υψηλής ποιότητας μεταφράσεων, η τεράστια αναζήτηση επεξεργάστηκε περισσότερα δεδομένα αλλά από το λιγότερο οργανωμένο Διαδίκτυο – «δεδομένα του άγριου κόσμου» για να το πούμε έτσι. Η Google «ρούφηξε» μεταφράσεις από εταιρικούς ιστότοπους, έγγραφα από κάθε γλώσσα της Ευρωπαϊκής Ένωσης, ακόμη και μεταφράσεις από το τεράστιο σχέδιό της που έχει να κάνει με το σκανάρισμα βιβλίων. Αντί για εκατομμύρια σελίδων με κείμενα, η Google ανέλυε δισεκατομμύρια. Το αποτέλεσμα είναι ότι οι μεταφράσεις της είναι αρκετά καλές –καλύτερες από της ΙΒΜ- και καλύπτουν 65 γλώσσες. Οι μεγάλες ποσότητες ακατάστατων δεδομένων επικράτησαν έναντι των μικρών ποσοτήτων καθαρότερων δεδομένων.

ΑΠΟ ΤΗΝ ΑΙΤΙΟΤΗΤΑ ΣΤΗ ΣΥΣΧΕΤΙΣΗ