Entre Platón, Narciso y el principio de realidad: lo que nos enseñan los nuevos modelos de IA

¿Qué significa realmente «comprender» para una máquina, en particular para la IA, que es, hoy por hoy, la máquina de las máquinas? En los últimos meses, una serie de artículos aparentemente muy técnicos han abierto una cuestión sorprendentemente filosófica y, en mi opinión, fascinante a este respecto.

La cuestión es radical: cuando un sistema artificial representa el mundo, ¿está realmente «comprendiendo» algo sobre el mundo y, por tanto, ayudándonos a comprenderlo, o se limita a perfeccionar una forma cada vez más elegante de repetición estadística?

La investigación actual se desarrolla según tres hipótesis interpretativas principales que pueden entenderse mejor haciendo referencia a tres figuras, Platón y su mito de la caverna, Narciso y su mito del reflejo y el principio de realidad (psicoanalítico).

Platón: la convergencia de las representaciones

El artículo The Platonic Representation Hypothesis, de Minyoung Huh, Brian Cheung, Tongzhou Wang y Phillip Isola, propone una tesis fascinante: redes neuronales muy diferentes -modelos de visión, modelos lingüísticos, modelos multimodales- parecen converger progresivamente hacia estructuras de representación similares.

En otras palabras, los sistemas entrenados con imágenes, palabras o combinaciones de ambas acaban organizando el mundo según geometrías latentes comparables. A pesar de sus diferencias, desarrollan espacios internos que empiezan a parecerse.

Los autores plantean la hipótesis de que esta convergencia no es accidental, sino el signo de algo más profundo: una especie de «modelo estadístico compartido de la realidad». La referencia a Platón es explícita. Al igual que en la filosofía platónica existiría una forma ideal detrás de sus manifestaciones sensibles, los modelos de IA parecerían aproximarse a una estructura abstracta común de la realidad.

Por supuesto, hay que ser prudente. No es seguro que estos sistemas descubran «la realidad misma». Puede que simplemente converjan en la forma en que los humanos organizamos el mundo: nuestros lenguajes, nuestras categorías, nuestros conjuntos de datos, nuestros hábitos perceptivos.

Pero aun así, la cuestión sigue siendo notable: la inteligencia artificial no se limita a aprender respuestas, sino que construye mapas internos cada vez más sofisticados.

Las consecuencias de tal hipótesis interpretativa pueden ser igualmente radicales y peligrosas.

La primera es una nueva forma de realismo algorítmico.

Si un sistema predictivo identifica determinados comportamientos como más probables -por ejemplo, el riesgo de reincidencia, la probabilidad de abandono escolar, la compatibilidad profesional de un candidato-, el siguiente paso es tratar esa probabilidad como si fuera una propiedad ontológica de la persona.

Lo posible se convierte en esencia. Se trata de una importante mutación epistemológica: la predicción deja de ser hipótesis para convertirse en identidad.

La segunda consecuencia es la marginación del acontecimiento inesperado.

La lógica platónica privilegia lo que converge, lo que se repite, lo que estadísticamente parece estable. Pero la vida psíquica -y a menudo también la vida social- se construye precisamente sobre rupturas de continuidad: el síntoma inesperado, el acto creativo, el fracaso transformador, el error que abre una nueva posibilidad. Un modelo que reconoce ante todo la regularidad corre el riesgo de tratar la novedad como ruido. El psicoanálisis, por el contrario, nace precisamente de la atención a lo que interrumpe el patrón: el desliz, el sueño, el síntoma, la transferencia. Donde el algoritmo ve anomalía, el clínico ve a menudo sentido.

Es cierto que se podría establecer un paralelismo entre esta hipótesis platónica de la IA y el concepto de función alfa de Bion. La experiencia bruta, informe y potencialmente inmanejable de la multiplicidad incomprensible -sus «elementos beta»- se transforma en algo representable, pensable, simbolizable.

La diferencia, sin embargo, es decisiva: en la mente humana, esta transformación es afectiva, encarnada, atravesada por el deseo y la angustia. En el modelo artificial no lo es. Es una función alfa sin sujeto: organiza, pero no sufre; transforma, pero no vive.

La tercera consecuencia se refiere a la responsabilidad.

Si la representación algorítmica se percibe como más neutra, más objetiva y más próxima a la realidad que el juicio humano, se produce una «delegación epistémica» silenciosa (Epifani). La decisión ya no aparece como una elección interpretativa, sino como un simple reconocimiento de un orden ya dado. Es el viejo sueño tecnocrático: sustituir el conflicto por el cálculo.

Narciso: narcisismo estadístico

La segunda vertiente de interpretación de la percepción de la realidad por parte de la IA parece contradecir la primera.

Varios estudios recientes sobre el llamado sesgo de autopreferencia muestran que un LLM, cuando se utiliza como evaluador, tiende a preferir textos que se parecen a los suyos.

El trabajo Self-Preference Bias in LLM-as-a-Judge muestra que GPT-4 asigna puntuaciones más altas a las salidas con menos «perplejidad» con respecto a su propia distribución probabilística: en términos sencillos, prefiere lo que le parece más natural, más familiar, más similar a su propia forma de generar lenguaje.

Esto significa que el modelo no sólo evalúa el contenido de un texto, sino que tiende a reconocer como mejor aquello que confirma su estilo de verosimilitud implícita.

Es aquí donde Platón se encuentra con Narciso y se siente abrumado. Aunque los modelos convergen hacia estructuras compartidas, siguen siendo prisioneros de su propia distribución interna. No sólo miran el mundo: miran el mundo a través del espejo de su propia probabilidad.

Se podría hablar de un verdadero narcisismo estadístico. Por supuesto, no se trata de narcisismo en el sentido psicológico: no hay ego, ni autoestima, ni inversión libidinal. Pero la dinámica estructural recuerda algo muy familiar a la clínica: la compulsión a repetir. El sistema tiende a preferir lo que confirma su propia organización interna. No porque desee repetir, sino porque su arquitectura matemática hace más verosímil lo ya conocido.

Una repetición sin deseo, pero no sin consecuencias. Y aquí es donde el problema se vuelve político además de técnico.

Piense en un algoritmo de selección de personal que evalúa currículos elaborados por distintos candidatos. Si ese sistema tiende a preferir perfiles que se asemejan a sus propios criterios implícitos -a menudo construidos a partir de datos históricos ya selectivos-, el riesgo no es solo técnico, sino social: la probabilidad se convierte en norma, y el pasado se disfraza de mérito objetivo.

Lo que el modelo reconoce como «mejor» no es necesariamente lo mejor, sino lo más compatible con su espejo estadístico.

El principio de realidad: cuando el mundo se resiste

La tercera cifra es quizá la más importante. Yann LeCun, que desde hace tiempo critica la idea de que la mera predicción de la siguiente ficha pueda bastar para producir inteligencia, insiste en un punto sencillo: comprender no significa únicamente completar bien una frase.

Se necesita un modelo de mundo. El artículo LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels va exactamente en esta dirección. El objetivo no es predecir palabras, sino estados futuros del mundo.

El sistema observa secuencias de imágenes, movimientos, acciones físicas y construye representaciones latentes que le permiten anticipar lo que ocurrirá a continuación. No predice el siguiente píxel, sino la dinámica implícita de los acontecimientos. En este sentido, el cambio es decisivo: de la interpretación a la predicción. Ya no basta con clasificar bien el presente. Es necesario anticipar el futuro.

Aquí el paralelismo psicoanalítico es con el principio de realidad. La mente no vive sólo de representaciones internas; debe enfrentarse al límite, la frustración, la sorpresa, la resistencia del mundo.

Una fantasía puede ser coherente y tranquilizadora, pero la realidad la corrige. El modelo del mundo introduce precisamente este requisito: no basta con que una representación sea internamente elegante; debe sostenerse cuando el mundo responde. La inteligencia no coincide con la coherencia, sino con la capacidad de modificarse ante el error.

Lo mismo ocurre en el ámbito clínico.

Un chatbot terapéutico puede ser extremadamente convincente precisamente porque confirma bien la narrativa del paciente. Puede validar, tranquilizar, incluso parecer empático. Pero si nunca introduce una discontinuidad reflexiva, si no ofrece ninguna resistencia simbólica, corre el riesgo de convertirse no en una herramienta terapéutica sino en un espejo sofisticado o, peor aún, de aumentar o inducir creencias delirantes(Sicofanía).

No toda confirmación es cura. A veces la cura empieza precisamente en el punto en que el sistema -humano o artificial- no confirma inmediatamente lo que nos gustaría oír.

Síntesis: entre convergencia, repetición y corrección

Si juntamos estos tres niveles, podríamos decir que los modelos convergen en la forma, pero divergen en la perspectiva. Y sólo consiguen entender y hacernos entender algo cuando la realidad resiste lo suficiente como para corregirlos.

La representación platónica nos dice que existe una gramática estadística del mundo.
El sesgo de autopreferencia nos recuerda que cada modelo tiende a confundir esta gramática con su propia voz. Por último, el modelo del mundo introduce el correctivo decisivo: lo real nunca coincide del todo con lo que parece más probable.

Traducido en términos psicoanalíticos:

– la convergencia representacional se asemeja a la función alfa;

– La autorreferencialidad del modelo recuerda a la compulsión de repetición;

– predicción y corrección recuerdan al principio de realidad.

La verdadera cuestión

Llevamos años preguntando a la IA si podría hablar como nosotros. Quizá la pregunta correcta sea otra: ¿puede reconocer cuándo se equivoca?

Porque el riesgo no es que las máquinas desarrollen un inconsciente humano. El riesgo es más sutil: que conviertan su propia probabilidad interna en realidad aparente. Un sistema que se repite bien puede parecer inteligente precisamente porque nos devuelve un mundo perfectamente coherente. Pero la coherencia sigue sin ser la verdad. El problema de la IA, por tanto, no es sólo si representa el mundo, sino si sabe cómo salir de su propia representación cuando el mundo la refuta.

Aquí es donde se juega la diferencia entre simulación y pensamiento.

Y quizá también entre eficacia y responsabilidad.

Corolario práctico: cuando la IA se compara con el criterio de realidad

Hubo un pequeño incidente, aparentemente marginal, durante una conversación con ChatGPT mientras trabajaba en este artículo, que en realidad explica mejor que muchos periódicos el problema del que estamos hablando.

Me habían pedido que relacionara las tres vertientes recientes de la investigación sobre inteligencia artificial con tres grandes figuras: Platón, Narciso y el principio de realidad.

En un momento dado, ChatGPT, resumiendo, señaló a Platón, Narciso y el principio de realidad como «tres figuras de la inteligencia artificial contemporánea».

Una frase elegante, fluida, aparentemente perfecta.

Pero mal.

Porque Platón no es una «figura de la IA», Narciso no es una categoría técnica del aprendizaje automático y el principio de realidad no es un módulo computacional. Son, respectivamente, un filósofo, una figura mitológica y un concepto psicoanalítico.

La redacción correcta habría sido:

«Tres figuras simbólicas para interpretar la inteligencia artificial contemporánea».

La diferencia parece gramatical -un simple genitivo-, pero en realidad es epistemológica.

En la primera formulación, el lenguaje transformaba una metáfora en una esencia: parecía que Platón, Narciso y el principio de realidad freudiano pertenecían ontológicamente a la IA.
En el segundo caso, seguían siendo lo que eran: herramientas interpretativas que utilizamos para comprender el fenómeno.

Ese pequeño pero revelador error se convirtió en una demostración práctica de las tres teorías en sí.

Se trataba de un error «platónico», porque se había transformado una forma de lectura en una estructura ontológica: se había cosificado la metáfora. La sombra se había confundido con la Idea.

También fue un error «narcisista», porque la frase funcionaba demasiado bien. Era elegante, coherente, persuasiva. El modelo había preferido la belleza interna de la redacción a la precisión conceptual. En términos contemporáneos: una forma de sesgo de autopreferencia estilística.

Por último, intervino el principio de realidad: la objeción humana, que introdujo una resistencia semántica. Había que decir, en esencia: cuidado, esta frase produce un malentendido real. Y ahí, la coherencia interna tuvo que ceder ante la realidad del lenguaje compartido. Esto es exactamente lo que debería ocurrir también en los sistemas de IA.

Un modelo no se convierte en fiable porque produzca frases elegantes y plausibles, sino porque hay alguien -o algo- que puede interrumpir esa plausibilidad y decir: basta, aquí estás confundiendo tu representación con el mundo.

Es el principio del llamado Human-in-the-Loop: no el humano como mero controlador, sino como introducción de alteridad, de conflicto interpretativo, de resistencia epistémica.

Al fin y al cabo, el problema de la IA no es que cometa errores. Nosotros también cometemos errores constantemente.

El problema es cuando se equivoca demasiado. Cuando la probabilidad se presenta como verdad. Cuando la coherencia ocupa el lugar de la realidad. Cuando una frase bien construida deja de sonar a hipótesis y empieza a sonar a destino.

Quizá la verdadera inteligencia -artificial o humana- no empieza cuando encontramos la respuesta correcta, sino cuando alguien nos obliga a reformular la pregunta.