di Sabina Leonelli
[È uscito, per Meltemi, La ricerca scientifica nell’era dei Big Data di Sabina Leonelli. Queste sono alcune pagine tratte dal primo capitolo]
Ci sono tanti modi di caratterizzare i Big Data. Un punto di partenza accettato da molti è la quantità. Le tecnologie digitali sviluppate negli ultimi trent’anni consentono enormi capacità di produrre, conservare e analizzare un numero crescente di dati. Non a caso le due caratteristiche più spesso associate ai Big Data sono il volume e la velocità. Il volume si riferisce alla dimensione dei file usati per archiviare e disseminare i dati, che grazie al potere crescente dei processori elettronici sta aumentando vertiginosamente e in maniera impossibile da percepire chiaramente per il sistema cognitivo umano (chi di noi comprende veramente la differenza tra un triliardo e un quadriliardo, cifre che per gente che lavora con Big Data sono relativamente normali?). La velocità si riferisce al ritmo incalzante e sempre più serrato con cui i dati vengono generati da tecnologie come, per esempio, il sequenziamento del genoma.
Nell’enfatizzare il numero dei dati e il formato digitale, questa definizione non tiene però conto di quattro fattori che riguardano la qualità dei Big Data e sono fondamentali per il loro utilizzo:
1) La varietà dei tipi di dati in uso, che comprende dati in formati non-digitali (come per esempio dati stampati su carta) e dati che pur essendo in formato digitale non sono facilmente analizzabili tramite algoritmi (come per esempio le fotografie);
2) il fatto che quel che viene percepito come grande quantità o velocità di dati dipende completamente dalle tecnologie usate per produrli, archiviarli e analizzarli, e quindi cambia continuamente da un anno all’altro. Per esempio, mentre all’inizio del millennio i Big Data erano quelli troppo numerosi per essere annotati con una normale spreadsheet di Microsoft Excel, adesso si pensa ai trilioni di dati ottenuti trami- te l’uso di social media come Facebook; mentre tre secoli fa si pensava alle collezioni di migliaia di osservazioni fatte da metrologi, cartografi e astronomi in giro per il mondo, difficilissime da analizzare e integrare in mappe geografiche senza accesso a computer;
3) la dipendenza dell’analisi dei dati dal con- testo in cui essi vengono valutati e usati, che può variare immensamente a seconda della situazione e delle domande poste dagli analisti – un fattore fondamentale per la mia analisi, su cui tornerò nel capitolo tre;
4) il fatto che non è possibile analizzare i Big Data senza avere accesso ai cosiddetti metadati, ossia a informazioni sulla loro provenienza (come sono stati generati, rispetto a cosa e in quali circostanze) che permettono agli analisti di valutare se i dati sono affidabili e quali interpretazioni sono plausibili.
Per tenere conto di questi aspetti, altre caratteristiche sono state associate ai Big Data negli ultimi anni (figura 1). Oltre a varietà dei formati, si parla anche di varietà dei fenomeni a cui i dati possono riferirsi, e di approcci usati per analizzarli; di veridicità nell’interpretazione dei dati e nel modo in cui rappresentano la realtà4; di validità dei dati rispetto ai modi in cui vengono analizzati; di volatilità nel tempo, ossia la capacità dei dati di rimanere affidabili e leggibili nonostante l’evoluzione di nuove tecnologie di archiviazione; e di valore loro assegnato da settori diversi della società, anche questo infinitamente variabile a seconda del periodo storico o della località.
I Big Data non sono dunque solo “tanti dati”. Quello che davvero li caratterizza sono i vari modi in cui vengono prodotti e veicolati tra diversi settori sociali. In questo consistono il potere e la vera promessa dei Big Data: permettere di instaurare connessioni tra settori e approcci con cui nel passato è risultato difficile – sia per barriere sociali sia per motivi tecnici – dialogare direttamente. Invece che cercare di definire cosa siano i Big Data in termini di caratteristiche fi- siche e quantità, propongo quindi di caratterizzarli in virtù di come vengono usati. I Big Data sono dati di tipi e provenienze diversi che vengono messi in relazione l’uno con gli altri, spesso in forma digitale e in modi che si prestano all’apprendimento automatico, così da produrre nuove forme di analisi e conoscenza. Come di- scusso da due eminenti sociologi dei dati, Boyd e Crawford, l’espressione Big Data segnala “la capacità di esplorare, aggregare e relazionare vasti insiemi di dati”. Per capire come funzionano i Big Data, dobbiamo quindi volgere lo sguardo verso le strutture, le istituzioni e le abilità/professioni che rendono possibile questa capacità.
[mmagine: Andreas Gursky, Amazon]