Tra Platone, Narciso e il principio di realtà: cosa ci insegnano i nuovi modelli di AI

Cosa significa davvero “comprendere” per una macchina, in particolare per l‘AI, che è, allo stato attuale, la macchina delle macchine? Negli ultimi mesi, alcuni paper apparentemente molto tecnici hanno aperto al riguardo una questione sorprendentemente filosofica e, a mio avviso, affascinante.

Il punto è radicale: quando un sistema artificiale rappresenta il mondo, sta davvero “comprendendo“ qualcosa del mondo e dunque ci aiuta a comprenderlo oppure sta soltanto raffinando una forma sempre più elegante di ripetizione statistica?

La ricerca attuale si sviluppa secondo tre principali ipotesi interpretative che possono essere meglio comprese rifacendosi a tre figure, Platone e il suo mito della caverna, Narciso e il suo mito del rispecchiamento e il principio (psicoanalitico) di realtà.

Platone: la convergenza delle rappresentazioni

Il paper The Platonic Representation Hypothesis di Minyoung Huh, Brian Cheung, Tongzhou Wang e Phillip Isola propone una tesi affascinante: reti neurali molto diverse tra loro — modelli di visione, di linguaggio, multimodali — sembrano convergere progressivamente verso strutture rappresentazionali simili.

In altre parole, sistemi addestrati su immagini, parole o combinazioni delle due cose finiscono per organizzare il mondo secondo geometrie latenti comparabili. Nonostante input differenti, sviluppano spazi interni che iniziano ad assomigliarsi.

Gli autori ipotizzano che questa convergenza non sia casuale, ma il segnale di qualcosa di più profondo: una sorta di “modello statistico condiviso della realtà”. Il riferimento a Platone è esplicito. Come nella filosofia platonica, esisterebbe una forma ideale dietro le sue manifestazioni sensibili, così i modelli AI sembrerebbero avvicinarsi a una struttura astratta comune del reale.

Naturalmente bisogna essere prudenti. Non è affatto detto che questi sistemi stiano scoprendo “la realtà in sé”. Potrebbero semplicemente convergere verso la maniera in cui noi umani organizziamo il mondo: i nostri linguaggi, le nostre categorie, i nostri dataset, le nostre abitudini percettive.

Ma anche così, il punto resta notevole: l’intelligenza artificiale non apprende soltanto risposte, ma costruisce mappe interne sempre più sofisticate.

Le conseguenze di tale ipotesi interpretativa possono essere altrettanto radicali e pericolose.

La prima è una nuova forma di realismo algoritmico.

Se un sistema predittivo identifica certi comportamenti come più probabili — ad esempio il rischio di recidiva, la probabilità di abbandono scolastico, la compatibilità professionale di un candidato — il passo successivo è trattare quella probabilità come se fosse una proprietà ontologica della persona.

Il possibile diventa essenza. È una mutazione epistemologica importante: la previsione smette di essere ipotesi e diventa identità.

La seconda conseguenza è la marginalizzazione dell’evento inatteso.

La logica platonica privilegia ciò che converge, ciò che si ripete, ciò che statisticamente appare stabile. Ma la vita psichica — e spesso anche la vita sociale — è costruita proprio sulle rotture di continuità: il sintomo inatteso, l’atto creativo, il fallimento trasformativo, l’errore che apre una nuova possibilità. Un modello che riconosce soprattutto la regolarità rischia di trattare la novità come rumore. La psicoanalisi, al contrario, nasce proprio dall’attenzione a ciò che interrompe il pattern: il lapsus, il sogno, il sintomo, il transfert. Lì dove l’algoritmo vede anomalia, il clinico spesso vede significato.

È vero che si potrebbe fare un parallelo tra tale ipotesi platonica dell’AI e il concetto della funzione alfa di Bion. L’esperienza grezza, informe, potenzialmente ingestibile della molteplicità incomprensibile — i suoi “elementi beta” — viene trasformata in qualcosa di rappresentabile, pensabile, simbolizzabile.

La differenza è però decisiva: nella mente umana questa trasformazione è affettiva, incarnata, attraversata dal desiderio e dall’angoscia. Nel modello artificiale no. È una funzione alfa senza soggetto: organizza, ma non soffre; trasforma, ma non vive.

La terza conseguenza riguarda la responsabilità.

Se la rappresentazione algoritmica viene percepita come più neutrale, più oggettiva e più vicina alla realtà rispetto al giudizio umano, si produce una silenziosa “delega epistemica” (Epifani). La decisione non appare più come scelta interpretativa, ma come semplice riconoscimento di un ordine già dato. È il vecchio sogno tecnocratico: sostituire il conflitto con il calcolo.

Narciso: il narcisismo statistico

Il secondo filone interpretativo della percezione della realtà da parte dell’AI sembra contraddire il primo.

Diversi studi recenti sul cosiddetto self-preference bias mostrano che un LLM, quando viene usato come valutatore, tende a preferire testi che assomigliano ai propri.

Il lavoro Self-Preference Bias in LLM-as-a-Judge mostra che GPT-4 assegna punteggi più alti a output con minore “perplexity” rispetto alla propria distribuzione probabilistica: in parole semplici, preferisce ciò che per lui appare più naturale, più familiare, più simile alla propria maniera di generare linguaggio.

Questo significa che il modello non valuta soltanto il contenuto di un testo, ma tende a riconoscere come migliore ciò che conferma il proprio stile implicito di plausibilità.

È qui che Platone incontra Narciso e ne viene sopraffatto. Se da una parte i modelli convergono verso strutture condivise, dall’altra restano però prigionieri della propria distribuzione interna. Non guardano soltanto il mondo: guardano il mondo attraverso lo specchio della propria probabilità.

Si potrebbe parlare di un vero e proprio narcisismo statistico. Naturalmente non si tratta di narcisismo in senso psicologico: non c’è un Io, non c’è autostima, non c’è investimento libidico. Ma la dinamica strutturale ricorda qualcosa di molto noto alla clinica: la coazione a ripetere. Il sistema tende a preferire ciò che conferma la propria organizzazione interna. Non perché desideri ripetere, ma perché la sua architettura matematica rende più plausibile il già familiare.

Una ripetizione senza desiderio, ma non senza conseguenze. Ed è qui che il problema diventa politico oltre che tecnico.

Pensiamo a un algoritmo di selezione del personale che valuta CV prodotti da candidati diversi. Se quel sistema tende a preferire profili che assomigliano ai propri criteri impliciti — spesso costruiti su dati storici già selettivi — il rischio non è solo tecnico, ma sociale: la probabilità si trasforma in norma, e il passato viene travestito da merito oggettivo.

Ciò che il modello riconosce come “migliore” non è necessariamente il migliore, ma il più compatibile con il proprio specchio statistico.

Il principio di realtà: quando il mondo resiste

La terza figura è quella forse più importante. Yann LeCun, da tempo critico verso l’idea che la semplice predizione del prossimo token possa bastare a produrre intelligenza, insiste su un punto semplice: comprendere non significa solo completare bene una frase.

Serve un world model. Il paper LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels si muove esattamente in questa direzione. L’obiettivo non è prevedere parole, ma stati futuri del mondo.

Il sistema osserva sequenze di immagini, movimenti, azioni fisiche e costruisce rappresentazioni latenti che gli permettono di anticipare ciò che accadrà dopo. Non predice il pixel successivo, ma la dinamica implicita degli eventi. In questo senso il passaggio è decisivo: dall’interpretazione alla previsione. Non basta più classificare bene il presente. Serve anticipare il futuro.

Qui il parallelo psicoanalitico è con il principio di realtà. La mente non vive soltanto di rappresentazioni interne; deve confrontarsi con il limite, la frustrazione, la sorpresa, la resistenza del mondo.

Una fantasia può essere coerente e rassicurante, ma il reale la corregge. Il world model introduce proprio questa esigenza: non basta che una rappresentazione sia internamente elegante; deve reggere quando il mondo risponde. L’intelligenza non coincide con la coerenza, ma con la capacità di modificarsi davanti all’errore.

Questo vale anche in ambito clinico.

Un chatbot terapeutico può essere estremamente convincente proprio perché conferma bene la narrativa del paziente. Può validare, rassicurare, persino sembrare empatico. Ma se non introduce mai discontinuità riflessiva, se non oppone alcuna resistenza simbolica, rischia di diventare non uno strumento terapeutico ma uno specchio sofisticato o peggio di incrementare o indurre convinzioni deliranti (Sycophancy).

Non ogni conferma è cura. A volte la cura comincia proprio nel punto in cui il sistema — umano o artificiale — non conferma immediatamente ciò che vorremmo sentirci dire.

La sintesi: tra convergenza, ripetizione e correzione

Se mettiamo insieme questi tre livelli, potremmo dire che i modelli convergono nella forma, ma divergono nella prospettiva. E riescono a comprendere e farci comprendere qualcosa solo quando la realtà resiste abbastanza da correggerli.

La rappresentazione platonica ci dice che esiste una grammatica statistica del mondo.
Il self-preference bias ci ricorda che ogni modello tende a confondere questa grammatica con la propria voce. Il world model introduce infine il correttivo decisivo: il reale non coincide mai del tutto con ciò che appare più probabile.

Tradotto in termini psicoanalitici:

– la convergenza rappresentazionale ricorda la funzione alfa;

– l’autoreferenzialità del modello ricorda la coazione a ripetere;

– la previsione e la correzione ricordano il principio di realtà.

La vera domanda

Per anni abbiamo chiesto all’AI se sapesse parlare come noi. Forse la domanda giusta è un’altra: sa accorgersi quando ha torto?

Perché il rischio non è che le macchine sviluppino un inconscio umano. Il rischio è più sottile: che trasformino la propria probabilità interna in realtà apparente. Un sistema che ripete bene se stesso può sembrare intelligente proprio perché ci restituisce un mondo perfettamente coerente. Ma la coerenza non è ancora verità. Il problema dell’AI, allora, non è soltanto se rappresenti il mondo, ma se sappia uscire dalla propria rappresentazione quando il mondo la smentisce.

È qui che si gioca la differenza tra simulazione e pensiero.

E forse anche tra efficienza e responsabilità.

Corollario pratico: quando l’AI viene confrontata con il criterio di realtà

C’è stato un piccolo episodio, apparentemente marginale, durante una conversazione con ChatGPT mentre stavo lavorando a questo articolo, che in realtà spiega meglio di molti paper il problema di cui stiamo parlando.

Avevo chiesto di mettere in relazione i tre recenti filoni di ricerca sull’intelligenza artificiale con tre grandi figure: Platone, Narciso e il principio di realtà.

A un certo punto ChatGPT, sintetizzando, ha indicato Platone, Narciso e il principio di realtà come “tre figure dell’intelligenza artificiale contemporanea”

Una frase elegante, scorrevole, apparentemente perfetta.

Ma sbagliata.

Perché Platone non è una “figura dell’AI”, Narciso non è una categoria tecnica del machine learning e il principio di realtà non è un modulo computazionale. Sono, rispettivamente, un filosofo, una figura mitologica e un concetto psicoanalitico.

La formulazione corretta sarebbe stata:

“tre figure simboliche per interpretare l’intelligenza artificiale contemporanea.”

La differenza sembra grammaticale — un semplice genitivo — ma in realtà è epistemologica.

Nella prima formulazione, il linguaggio trasformava una metafora in un’essenza: sembrava che Platone, Narciso e il freudiano principio di realtà appartenessero ontologicamente all’AI.
Nel secondo caso, restavano ciò che erano: strumenti interpretativi usati da noi per comprendere il fenomeno.

Quell’errore, piccolo ma rivelatore, è diventato una dimostrazione pratica delle tre stesse teorie.

Era un errore “platonico”, perché una forma di lettura era stata trasformata in una struttura ontologica: la metafora si era reificata. L’ombra era stata scambiata per l’Idea.

Era anche un errore “narcisistico”, perché la frase funzionava troppo bene. Era elegante, coerente, persuasiva. Il modello aveva preferito la bellezza interna della formulazione alla precisione concettuale. In termini contemporanei: una forma di self-preference bias stilistico.

Infine, è intervenuto il principio di realtà: l’obiezione umana, che ha introdotto resistenza semantica. È stato necessario dire, in sostanza: attenzione, questa frase produce un equivoco reale. E lì la coerenza interna ha dovuto cedere alla realtà del linguaggio condiviso. È esattamente ciò che dovrebbe accadere anche nei sistemi di AI.

Un modello non diventa affidabile perché produce frasi eleganti e plausibili, ma perché esiste qualcuno — o qualcosa — che può interrompere quella plausibilità e dire: fermati, qui stai confondendo la tua rappresentazione con il mondo.

È il principio del cosiddetto Human-in-the-Loop: non l’umano come semplice controllore, ma come introduzione di alterità, di conflitto interpretativo, di resistenza epistemica.

In fondo, il problema dell’AI non è che sbaglia. Anche noi sbagliamo continuamente.

Il problema è quando sbaglia troppo bene. Quando la probabilità si presenta come verità. Quando la coerenza prende il posto del reale. Quando una frase ben costruita smette di sembrare un’ipotesi e comincia a sembrare un destino.

Forse la vera intelligenza — artificiale o umana — non comincia quando troviamo la risposta giusta, ma quando qualcuno ci costringe a riformulare la domanda.