La strada di Dozza: Statistica e verità II

Lo scaltro Shakuni, dei Kauravi, con un dado truccato spoglia Yudhishtira di ogni bene, diritto e libertà; costringendo così il clan dei Pandava all'esilio. (Dal Mahabharata di Peter Brook).

Ecco qui alcuni commenti e considerazioni sulle situazioni di cui scrivevo nel primo post "statistico".

(1) Passaggi pedonali: io sceglierei, in assenza di ulteriori ragioni, di passare dove ci sono stati meno incidenti. Il senso comune, che ci guida nella vita quotidiana, è anche in questo caso un buon consigliere;... (5)... ci si chiede dunque come mai delle persone che, attraversando una strada, scelgono quella storicamente più sicura, quando giocano al Lotto vanno a caccia dei numeri "ritardatari". Infatti, o il gioco è onesto (e allora, alla prossima estrazione, il 77 vale come il 24 o come qualunque altro numero); o è disonesto, allora sorge il sospetto che -che so- il 77 sia stato escluso dall'urna (o più sottile imbroglio, come è avvenuto in passato), quindi è meglio non giocarlo.
Per fare un esempio più radicale, se la moneta del prestigiatore dà esito Croce per dieci lanci consecutivi, pensate che "ora è il turno di Testa", o che la moneta ha Croce su entrambe le facce? (Dietro il comportamento anti-razionale di tanti giocatori del Lotto c'è una distorta lettura della Legge dei Grandi Numeri, che tutto può dire, tranne che l'urna -notoriamente inconsapevole- ricordandosi delle passate estrazioni abbia un sussulto egualitario e aiuti il 77a uscire. Meglio confidare nei sogni, a questo punto.)
Anche (3) è una variazione sullo stesso tema. Se dado e lanciatore sono onesti, tutti i numeri avranno la stessa possibilità di uscire (con uguale probabilità) alla prossima estrazione. Certo, il dado potrebbe essere truccato. Memori dei passaggi pedonali, dagli esiti passati si direbbe che il dado sia truccato in modo da favorire 5 e 2, che (senza garanzie di onesto gioco) darei quindi per favoriti alla prossima estrazione.

Nel caso (2), quello del test medico, le cose sono leggermente meno intuitive (e i risvolti, diciamo così, civili sono ben più importanti che nel gioco del Lotto). Il dato epidemiologico dice che il leprecaunismo colpisce un individuo su 4 milioni. Questo vuol dire che, se somministrate un test che non dà mai esito positivo (un flacone d'acqua schietta), questo test fallirà in un caso circa su 4 milioni (quello del'individuo malato). Quindi, il test A -apparentemente più attendibile- potrebbe benissimo essere (e forse è) acqua schietta.
Torniamo indietro e cerchiamo di capire cosa vogliamo dal test; quali sono quindi i dati statistici che c'interessano. Noi siamo interessati a scoprire i casi di malattia con ragionevole certezza. Il dato più interessante, quindi, sarà dato dalla percentuale dei casi di malattia in cui il test, fallendo, ci dà esito negativo. Siamo invece disposti a tollerare un ragionevole numero di casi in cui il test dà esito positivo, pur in assenza di malattia. Vogliamo avere quindi due dati: percentuale di casi di malattia non rilevati come tali (il dato che vogliamo più piccolo possibile); percentuale di casi di non malattia rilevati come di malattia (un dato che vogliamo sia ragionevolmente sotto controllo). I dati che ci forniva il problema non ci danno alcun ausilio per fare la nostra scelta.
Questo esempio mi ha fatto anche riflettere sulla maniera in cui i media presentano alcuni casi di malasanità. Si presentano come ugualmente (scandalosamente) nocive diagnosi incorrette di sanità e di malattia. Il fatto è che il medico ha il compito primario (e il paziente ha l'interesse primario che il compito sia ben assolto) di trovare e debellare la malattia. Il danno maggiore proviene dal non rilevare (quindi non curare) la patologia: il danno psicologico di una (temporanea) diagnosi di malattia, in realtà inesistente, esiste, ma è di ordine inferiore rispetto al primo.

Nel caso (6), correrei a vedere le ragioni dello scambio euro-dollaro nell'anno precedente al discorso del monarca. Non sarei stupito di scoprire che il dollaro s'è deprezzato (o l'euro apprezzato) della misura indicata dal re. (L'esempio è preso dalla realtà: un importante leader europeo, effettivamente, fece quel discorso durante la piccola stagnazione del 2004-5).

Il caso (4) punta verso un indicatore diverso dalla semplice media: c'immette nel discorso sulla varianza. Non sarei stupito di trovare delle piccole scuole tra le peggiori, come tra le migliori.
Qualitativamente, e in un esempio con meno parametri, il ragionamento è questo. Immaginate di avere un gran numero di biglie (cento, per esempio), ugualmente divise in bianche e nere. Sistematele casualmente in delle urne, ciascuna delle quali contiene un piccolo numero di biglie (diciamo quattro). Non vi stupirà scoprire che alcune delle urne, del tutto casualmente, contengono solo biglie nere (il 100% delle biglie nell'urna sono nere), mentre altre conterranno solo biglie bianche.
Sistemate ora le stesse biglie in delle urne assai più grandi (per esempio, quattro urne, ciascuna delle quali può contenere venticinque biglie). Assai difficilmente un'urna conterrà biglie dello stesso colore. In nessuna urna, a meno di casi estremamente improbabili, ci saranno solo biglie nere.
Se facciamo la classifica delle urne in base alla percentuale delle biglie nere contenute, nelle prime posizioni (ma anche nelle ultime!) troveremo delle urne piccole. Quelle grandi (per la "legge dei grandi numeri", infatti) saranno perlopiù in mezzo alla classifica.
La morale è: diffidare dei discorsi pregiudiziali del tipo "piccolo è bello" (ma anche di quelli "piccolo è brutto"). Piccolo sarà bello (o brutto), ma non in base al tipo di dato che avevo presentato per questo caso.
(La teoria delle probabilità quantifica esattamente la diversa probabilità che hanno le urne piccole e quelle grandi di avere una certa percentuale di biglie nere; in base a pochi parametri dati).