Archive for Ιουνίου 2008

 
 

Let the data work it out itself

Chris Anderson’s article in Wired is about the notion that vast amounts of data (in the order of Petabytes) will render models superfluous. The rationale is that in very complex systems for which vast data can easily be collected, it is more efficient to let the data make the model rather than devising it ourselves; or in the words of Google’s research director Peter Norvig: “All models are wrong, and increasingly you can succeed without them.”

Anderson believes we have overcome a critical point were the computing/storage power we have is enough to do this:

At the petabyte scale, information is not a matter of simple three- and four-dimensional taxonomy and order but of dimensionally agnostic statistics. It calls for an entirely different approach, one that requires us to lose the tether of data as something that can be visualized in its totality. It forces us to view data mathematically first and establish a context for it later. For instance, Google conquered the advertising world with nothing more than applied mathematics. It didn’t pretend to know anything about the culture and conventions of advertising — it just assumed that better data, with better analytical tools, would win the day. And Google was right.

The problem is that when the model’s causality is unknown (since we didn’t design it in the first place; the data did), we can never be sure when it will misfire: the black swan problem. While such models may work in domains like marketing, biology etc., where the cost of mistakes is low, it cannot be trusted in mission critical functions (see quant funds and subprime crisis).

Από τα δεδομένα στη γνώση

Πολλά έχουν γραφεί για το πως μπορούμε να παρουσιάσουμε πλούσια δεδομένα, έτσι ώστε να τα κάνουμε όσο το δυνατό πιο κατανοητά. Πέρα όμως από τις γενικές αρχές (π.χ. Tufte) υπάρχει και ένα κομμάτι τέχνης, που κάνει μια εξαιρετική δουλειά να ξεχωρίζει, όπως το αλληλεπιδραστικό γράφημα των NYT για τους ψηφοφόρους Obama και Clinton.

Organizational Effectiveness

Η Booz&co έχει δημιουργήσει ένα πολύ καλό παιχνίδι/προσομοιοτή του πόσο αποδοτική είναι η οργανωτική δομή και κουλτούρα μιας επιχείρησης.

Ανάλογα με το προφίλ του οργανισμού στο οποίο δρα, ο χρήστης πρέπει να επιλέξει μεταξύ ενός αριθμού δράσεων για να βελτιώσει την αποδοτικότητα της. Το ενδιαφέρον είναι ότι κάποιες κινήσεις που εκ πρώτης άποψης φαίνονται θετικές, έχουν αρνητικό αποτέλεσμα!

Εκτίμηση (πολύ) σπάνιων φαινομένων

Στον Guardian υπάρχει ένα ενδιαφέρον άρθρο σχετικά με τις λανθασμένες εκτιμήσεις που τείνουμε να κάνουμε σε σπάνια φαινόμενα (via Flowing Data) :

The single most pernicious threat to liberty today is humanity’s natural tendency to misunderstand the statistics of rare events. We’re just not wired to have good intuition about things that happen with extreme infrequency.
Το γεγονός αυτό είχε τονιστεί και από τον Nassib Taleb (Fooled by Randomness, The Black Swan), ο οποίος είχε δείξει την επίδραση που έχουν τέτοια σφάλματα στη συμπεριφορά των αγορών. Τέτοια σφάλματα οδηγούν σε πλήθος υποβέλτιστων επιλογών: μεγάλα αποθέματα στα εργοστάσια (επειδή κάποτε είχαμε ξεμείνει από α’ ύλη), χείριστες τακτικές στο πόκερ (επειδή μια φορά είχα κάνει φλος με δύο φύλλα στο χέρι) κλπ.

Chips

Το ενδιαφέρον στο άρθρο είναι ότι συνδέει την εσφαλμένη αυτή λογική με τις διάφορες στερήσεις ελευθερίας στο όνομα της τρομοκρατίας, ειδικά όταν τα εργαλεία μας δεν είναι αρκετά ακριβή:

Our innumeracy means that our fight against these super-rarities is likewise ineffective. Statisticians speak of something called the Paradox of the False Positive. Here’s how that works: imagine that you’ve got a disease that strikes one in a million people, and a test for the disease that’s 99% accurate. You administer the test to a million people, and it will be positive for around 10,000 of them – because for every hundred people, it will be wrong once (that’s what 99% accurate means). Yet, statistically, we know that there’s only one infected person in the entire sample. That means that your “99% accurate” test is wrong 9,999 times out of 10,000! Terrorism is a lot less common than one in a million and automated “tests” for terrorism – data-mined conclusions drawn from transactions, Oyster cards, bank transfers, travel schedules, etc – are a lot less accurate than 99%. That means practically every person who is branded a terrorist by our data-mining efforts is innocent.