¿Qué son las alucinaciones de los modelos de IA?

Hace unos días, al repasar las novedades de GPT-4, mencioné las alucinaciones como uno de los principales problemas de los modelos de inteligencia artificial. El término elegido es, en vedad, bastante explicativo, pero aún así, creo que es interesante profundizar un poco en el mismo para entender en qué consiste, por qué hace que no debamos tomar nunca las salidas de una inteligencia artificial como algo 100% fiable y definitivo, las razones por las que se producen y qué medidas se están tomando para intentar mitigarlas. Así pues, empecemos por el principio.

¿Qué son las alucinaciones?

En el contexto de la inteligencia artificial, las alucinaciones se refieren a un comportamiento anómalo en el que un modelo genera información o percepciones falsas, sin que exista una fuente externa de estímulo que justifique su existencia. Hemos hablado, en más de una ocasión, de la tendencia de algunas herramientas generativas (no solo de texto, también de imágenes y de otros muchos campos) de proporcionar información inventada/incoherente. Desde las caras del horror de DALL-E 2 hasta los poemas inventados de Miguel Hernández, pero también las interpretaciones erróneas de los datos recibidos por sensores pueden ser consideradas alucinaciones.

Las alucinaciones son un problema en cualquier sistema basado en inteligencia artificial que deba inferir una respuesta, sea del tipo que sea, a partir de a la interpretación de sus datos de entrada en base a su proceso de aprendizaje. Sin embargo, la importancia de las mismas varía sustancialmente en función del contexto. Porque, claro, no es lo mismo que una IA generativa de texto se invente un poema y se lo atribuya a un autor real, o que dé una definición errónea de una palabra, a que el sistema experto responsable de la conducción autónoma de un vehículo malinterprete la información de sus sensores y provoque un accidente.

La llegada de la inteligencia artificial a aplicaciones críticas ha puesto el foco, por lo tanto, en un problema que anteriormente ya estaba identificado, pero que ha cobrado más importancia que nunca, pues campos como la seguridad, la medicina y similares no se pueden arriesgar a confiar en la inteligencia artificial si existe el riesgo de que las alucinaciones provoquen respuestas incorrectas sin que éstas puedan ser inferidas, al menos en principio, en base a los datos con los que se ha alimentado el modelo.

¿Por qué se producen?

Hay varias razones por la que un modelo de inteligencia artificial puede sufrir alucinaciones, que suelen ser distintas dependiendo de si hablamos de modelos de aprendizaje supervisado y de modelos de aprendizaje no supervisado. Esto ya lo explicamos en el artículo sobre los fundamentos de la inteligencia artificial, pero vamos a recordarlo de manera abreviada.

Aprendizaje supervisado: el modelo es entrenado con datos etiquetados junto con la salida esperada. El objetivo del modelo es aprender a mapear los datos de entrada a sus correspondientes salidas esperadas, para poder predecir la salida para nuevos datos de entrada. Un ejemplo sencillo, alimentamos el modelo con un dataset de fotos de perros y gatos, etiquetando cada una de ellas con el tipo de mascota que se muestra en la misma. El objetivo es que el modelo aprenda a distinguir entre perros y gatos para identificarlos en las imágenes que le proporcionemos cuando ya esté listo para la acción.
Aprendizaje no supervisado: en este caso, como seguramente ya habrás imaginado, el modelo es entrenado con datos no etiquetados. Este tipo de entrenamiento se utiliza cuando lo que queremos es que el modelo sea capaz de encontrar patrones y estructuras ocultas en los datos por sí mismo. Por ejemplo, si se están analizando datos de redes sociales para identificar grupos de usuarios con intereses similares utilizando el aprendizaje no supervisado, el modelo buscará patrones ocultos en los datos que sugieran que ciertos usuarios tienen intereses similares, sin que se le proporcione ninguna etiqueta específica.

Alucinaciones en modelos con aprendizaje supervisado

La principal causa de alucinaciones en un modelo de aprendizaje supervisado es el sobreajuste (overfitting), que se produce cuando el modelo se ajusta demasiado a los datos de entrenamiento y pierde la capacidad de generalizar para nuevos datos. Retomando el ejemplo de las fotos de perros y gatos, si el modelo se ajusta demasiado a las imágenes de entrenamiento, puede memorizarlas en lugar de aprender patrones útiles que pueda aplicar a nuevas imágenes. Como resultado, el modelo puede clasificar correctamente las imágenes de entrenamiento, pero fallar en las imágenes nuevas que no ha visto antes.

Alucinaciones en modelos con aprendizaje no supervisado

En este caso, la causa más citada para que el modelo «alucine» es la falta de suficiente información en los datos de aprendizaje-entrada. Si el modelo no tiene suficiente información para comprender completamente los patrones en los datos, puede generar información incorrecta.

También cobra especial importancia en los modelos de aprendizaje no supervisado la presencia de ruido, es decir, de información que no resulta útil, pero que puede llevar al modelo a detectar falsos patrones que, posteriormente, empleará al procesar los datos de entrada.

Otras causas comunes en ambos tipos de aprendizaje

Hay algunos problemas que se pueden dar en ambos casos (aunque algunos de ellos puedan ser más comunes en un tipo de aprendizaje que en otro). Estos son los más comunes:

Entrenamiento insuficiente: en base a su función y su complejidad, un modelo puede necesitar de un enorme conjunto de datos para que su entrenamiento sea suficiente. En caso contrario, es posible que no sea capaz de obtener toda la información necesaria para identificar correctamente los patrones.
Datasets sesgados: los conjuntos de datos empleados en el entrenamiento deben ser tan diversos como sea posible. Imagina, por ejemplo, un modelo que tiene que analizar fotografías identificando rostros. Si la IA responsable de esta función solo ha sido entrenada empleando fotos de personas de una raza-etnia, es muy probable que cometa errores a la hora de procesar imágenes con personas de otras razas.
Complejidad del modelo: si el modelo es demasiado complejo, puede aprender a reconocer patrones que no son importantes o que no tienen una correspondencia directa con la realidad, lo que puede llevar a la generación de información falsa.
Fallos de diseño del algoritmo: si hay errores en el código del modelo, esto también puede provocar alucinaciones. Estos errores pueden deberse a fallos tipográficos, errores de lógica o problemas con la forma en que se procesan los datos.

¿Cómo se pueden evitar?

Llegados a este punto, ya serás plenamente consciente de que hablamos de un problema muy complejo y que, por lo tanto, no tiene una solución sencilla. Sin embargo, sí que hay buenas prácticas y técnicas que pueden reducir sustancialmente el riesgo de que un modelo experimente alucinaciones.

Lo primero es, claro, partir de un dataset amplio y bien editado. Debemos tener en cuenta, para este fin, que debe ser lo más representativo y diverso posible, minimizar tanto como podamos el volumen de ruido y, por supuesto, no emplear los mismos datos para el proceso de entrenamiento y para el de validación. Esto último es lo que se conoce como validación cruzada ingenua, y el resultado de la misma es que obtendremos unos resultados que pueden ser mucho mejores que los que obtendríamos de emplear un conjunto de datos distintos. ¿Consecuencia? Pensaremos que el modelo funciona mejor de lo que realmente lo hace.

Otra buena práctica es la regularización, que impone restricciones en la complejidad del modelo, con la que podremos evitar problemas como el sobreajuste. Existen varias técnicas de regularización, como LASSO (Least Absolute Shrinkage and Selection Operator), Rigde (también conocida como regresión contraída) y regularización de abandono (dropout), entre otras. En todos los casos, se busca reducir la complejidad y evitar que el modelo memorice los datos de entrenamiento, en vez de ser capaz de generalizar a partir de dicho proceso.

Un enfoque muy interesante es el uso de modelos de adversarios generativos (GAN, por sus siglas en inglés, y que seguramente te resultará familiar por GauGAN2, de NVIDIA) para generar datos falsos que puedan ser utilizados para entrenar la red neuronal de manera que sea más resistente a las alucinaciones. Durante el entrenamiento, la red generadora y la red discriminadora se entrenan enfrentándose entre sí. La red generadora intenta crear datos que engañen a la red discriminadora, mientras que ésta intenta distinguir entre los datos creados por la red generadora y los datos reales. Con el tiempo, la red generadora aprende a generar datos más realistas y la red discriminadora se vuelve más efectiva en la detección de datos generados.

Otro enfoque para reducir las alucinaciones en la inteligencia artificial es el uso de técnicas de explicabilidad. Estas técnicas permiten entender cómo toma decisiones la red neuronal y qué características de los datos de entrada son más importantes para su proceso de aprendizaje. Al comprender mejor cómo funciona el modelo, es posible identificar las causas de las alucinaciones y tomar medidas para corregirlas.

Además, se están desarrollando técnicas específicas para reducir las alucinaciones en aplicaciones críticas para la seguridad, como la conducción autónoma. En este contexto, es fundamental que la red neuronal sea capaz de detectar con precisión los objetos y las situaciones del entorno para tomar decisiones seguras. Para lograrlo, se están utilizando técnicas de aprendizaje por refuerzo que permiten que la red neuronal aprenda de manera iterativa a partir de la retroalimentación que recibe del entorno.

Estos son solo algunos de los métodos y buenas prácticas para evitar, o al menos mitigar en la medida de lo posible, las alucinaciones de los modelos de inteligencia artificial. No obstante, y aunque se producen avances en este sentido de manera regular, y además hay inteligencias artificiales generativas, como la del nuevo Bing, que documentan siempre sus respuestas con las fuentes, lo que supone una excelente medida para mitigar las alucinaciones, debemos recordar que éstas pueden producirse en cualquier momento y, en consecuencia, debemos actuar siempre con ciertas reservas ante las salidas de las mismas.

Esto no significa, claro, que debamos descartar el uso de la inteligencia artificial, ni mucho menos. Los responsables de los modelos conceden prioridad a buscar soluciones para este problema, y en muchos casos el resultado es fiable. Lo importante es, eso sí, no confiarnos.

Buscar este blog

Electronic Lab