A metà dicembre 2010 su Science sono apparsi i primi risultati del progetto di digitalizzazione dei volumi presenti nelle biblioteche pubbliche di vari paesi del mondo, realizzato in collaborazione con Google. L’iniziativa ha molteplici ambiti di applicazione. Permette infatti di studiare i tempi di ingresso e la diffusione nella letteratura di ogni genere di parola. E può fornire interessanti spunti di riflessione e di analisi sulla nostra società. Perché l’uso delle parole rispecchia l’attenzione e l’urgenza che un determinato problema riveste in un dato momento storico.

 

Il 16 dicembre 2010 è un giorno che passerà alla storia. Annotatelo con molta cura e ricordatelo nel tempo.

IL PROGETTO…

Che cosa può mai essere accaduto in quella data? La rivista americana Science ha pubblicato un piccolo articolo, di sole cinque pagine, che riporta i primi risultati di un progetto nato con Google diversi anni fa. (1)
Il progetto si propone di digitalizzare il patrimonio librario presente nelle biblioteche pubbliche di vari paesi del mondo tra i quali spiccano gli Stati Uniti, la Gran Bretagna, la Francia, la Germania. Il lavoro è ancora in una fase preliminare, ma i numeri in gioco e i risultati finora conseguiti offrono interessanti prospettive di studio e di ricerca in molte discipline, inclusa l’economia, riuscendo a soddisfare nel contempo le tante curiosità del singolo utente. (2)
I volumi digitalizzati finora sono 15 milioni (pari al 12 per cento di tutti quelli pubblicati a partire dal 1500). Un sottoinsieme di questi 15 milioni (pari a 5,2 milioni, ovvero il 4 per cento dell’intero pubblicato) è stato sottoposto a un successivo trattamento che ha consentito il riconoscimento di ogni parola. Il risultato dell’esercizio è un corpus di oltre 500 miliardi di parole – detti anche lemmi – (361 in inglese, 45 in francese, 45 in spagnolo, 37 in tedesco, 13 in cinese, 35 in russo e 2 in ebraico).
Per permetterne un uso più agevole, e per superare il problema del copyright, sono stati creati  insiemi costituiti da un lemma  singolo (per esempio dog) fino a stringhe composte da 5 parole (per esempio the-United-States-of-America). Si formano in questo modo stringhe di parole – detti n-grammi – di differente lunghezza. (3)
Manca l’italiano, ma nel marzo 2010 Google e il ministero per i Beni e le attività culturali hanno siglato un accordo per la digitalizzazione di circa 1 milione di volumi delle biblioteche nazionali di Roma e Firenze. (4)

…E LE APPLICAZIONI

Gli ambiti di applicazione sono molteplici e qualche esempio sarà certamente chiarificatore.
Abbiamo considerato cinque rilevanti problemi di politica ambientale (e l’uso dell’inglese, per le ragioni spiegate, è obbligatorio): deforestation, climate change, ozone layer, acid rain, water pollution.
Il grafico 1 riporta, per ogni variabile, la frequenza relativa, ovvero il rapporto tra le volte in cui la parola è presente nel database selezionato e il totale della parole del database. In quest’esempio, ogni dato è espresso come una media mobile di tre anni, tenendo presente che il database si ferma, per questa prima versione, al 2000.
Le dinamiche relative alle variabili scelte sono molto interessanti: nel 1970 il tema più sentito era quello dell’inquinamento dell’acqua e fenomeni come il cambiamento climatico o il cosiddetto "buco dell’ozono" erano molto meno noti, o comunque non oggetto di ampia pubblicistica. A distanza di trenta anni la situazione è radicalmente mutata: il cambiamento climatico è diventato il tema più pubblicato e, a partire dal 1995, ha superato la parola deforestazione. Per rimanese sempre su questioni ambientali è molto interessante (grafico non riportato) osservare la dinamica dei termini "climate change", "greenhouse effect" e "global warming" e vedere come la prima definizione ("climate change") si sia imposta nel tempo.
Probabilmente, in molti casi sono risultati attesi, se non addirittura scontati. Ma spesso si tratta di fenomeni che prima non era possibile, o era comunque più difficile, quantificare. Disporre di dati sulla frequenza con cui ricorrono certi termini può essere di grande aiuto nelle analisi empiriche o statistiche di stampo sociologico, storico, economico e può essere funzionale a ulteriori elaborazioni relativamente alla misurazione, ad esempio, di distanze, convergenze, rapporti relativi tra fenomeni o concetti.

FATTI E PAROLE

Va tuttavia sottolineata la necessità di trattare queste informazioni con cautela perché un’associazione – o in termini statistici, una correlazione – non implica nessi di causalità tra le variabili considerate.
Acquista dunque particolare rilevanza chiedersi se sia possibile identificare un nesso di causalità tra il fatto e la parola.
È l’eterna battaglia tra l’uovo e la gallina. Sotto questa diversa luce è possibile identificare almeno tre tipi di parole o insiemi di parole:
a.        lemmi per i quali sia possibile attendersi ex ante un nesso di causalità tra il fatto e la parola. Per esempio: non è possibile trovare "the Beatles" in letteratura prima del 1960, semplicemente perché i Beatles non esistevano. È la nascita dei Beatles (il fatto) che crea la parola. Possono naturalmente esserci diversi fenomeni di retroazione sui quali sarebbe interessante indagare.  È possibile cioè che il maggiore interesse espresso per i Beatles nelle pagine della letteratura si sia trasformato in maggiore successo per i musicisti di Liverpool invertendo, almeno temporaneamente, il nesso di causalità.
b.       lemmi che sono sempre esistiti, ma che hanno assunto un diverso peso o significato nel tempo o in rapporto ad altri lemmi. Un esempio evidente lo si evince dalla dinamica dei lemmi "man" e "woman". Quest’ultimo ha più che raddoppiato la propria presenza nel quarantennio 1970-2000 e, a partire dalla prima metà degli anni Ottanta, ha superato il lemma "man", caratterizzato da una costante diminuzione della propria frequenza sui libri durante tutto il XX secolo.
c.        lemmi che non descrivono qualche cosa che è stato creato (the Beatles), oppure che esisteva e ha socialmente cambiato natura (woman). Descrivono qualcosa che è stato identificato prima nella riflessione e nelle parole dei libri e poi registrato dalla società. È come se un pensatore, illuminando un tratto della nostra realtà, gli avesse dato un nome. Un esempio per tutti. Karl Popper ha pubblicato "The Open Society and its Enemies" nel 1945. Il termine "open society" esisteva, molto marginalmente, anche prima della pubblicazione del volume e descriveva evidentemente altri contesti. Ma è dagli anni Cinquanta in poi che il termine ha assunto il significato che conosciamo. È un caso esattamente opposto a quello di "the Beatles", in cui la parola precede il fatto.
Se consideriamo il modo in cui i diversi lemmi possono essere utilizzati, si intravede un ampio campo di applicazione legato all’uso di queste variabili. Ad esempio, se uno studioso avesse bisogno di valutare l’importanza del dibattito sui civil rights, attraverso il conteggio delle parole comprese nei volumi pubblicati, potrebbe trovare una misura, per quanto imprecisa, della dimensione del fenomeno.
È evidente, altresì, che l’uso delle parole riflette l’attenzione e l’urgenza del problema per la società. Il lemma "inflation" ha conosciuto un incremento notevole nel quindicennio 1970-85 per poi ridursi considerevolmente negli anni successivi.
Strumenti come happiness o welfare, income o Gdp, oppure l’evoluzione del trilemma I love you, o anche la valutazione dei tempi di ingresso e della diffusione nella letteratura di ogni genere di parola può fornire interessanti spunti di riflessione e di analisi sulla nostra società. In definitiva, non solo gli studi sul linguaggio o le analisi empiriche di politica economica potranno trarre nuova linfa dagli ngrams, ma qualsiasi ricercatore appartenente a qualunque disciplina potrà coglierne i benefici.
Lascio infine al lettore la riflessione sul secondo grafico proposto che mette a confronto i di-grammi my rights e my duties.

 

Grafico 1

 

Grafico 2

(1)“Quantitative Analysis of Culture Using Millions of Digitized Books”, Michel, et al., Science 1199644DOI:10.1126/science.1199644.
(2) http://ngrams.googlelabs.com/
(3) Un n-gramma è una sottosequenza di n elementi di una data sequenza. Un n-gramma di lunghezza 1 è chiamato "unigramma", di lunghezza 2 "digramma", di lunghezza 3 "trigramma" e, da lunghezza 4 in poi, "n-gramma". Nel nostro caso l’unigramma è la singola parola, per es. “country”, il digramma è “old country” e così proseguendo.

https://sites.google.com/a/pressatgoogle.com/italianlibraries/home

Lavoce è di tutti: sostienila!

Lavoce.info non ospita pubblicità e, a differenza di molti altri siti di informazione, l’accesso ai nostri articoli è completamente gratuito. L’impegno dei redattori è volontario, ma le donazioni sono fondamentali per sostenere i costi del nostro sito. Il tuo contributo rafforzerebbe la nostra indipendenza e ci aiuterebbe a migliorare la nostra offerta di informazione libera, professionale e gratuita. Grazie del tuo aiuto!

Leggi anche:  Il successo del Pnrr? Dipende dalla capacità di spesa dei comuni
Leggi anche:  Come garantire la sicurezza sociale dei lavoratori delle piattaforme*