Desaprendizaje en modelos de IA

Nuevas estrategias para borrar datos, corregir sesgos y adaptar modelos sin reentrenarlos

may 12, 2025

Imagina que un día te levantas y alguien te pregunta "¿Quién es Harry Potter?", y tú, completamente confundido, respondes que no tienes ni idea. Suena a un episodio de amnesia, ¿verdad? Aunque también puede ser que no hayas oído hablar del personaje de J.K. Rowling. Bueno, pues algo así es lo que ocurrió con un modelo de lenguaje tras aplicarle técnicas de desaprendizaje para eliminar toda referencia a la saga del joven mago. Ese experimento, documentado en el paper "Who's Harry Potter? Approximate Unlearning in LLMs", no es ciencia ficción ni un hechizo Obliviate, es la nueva frontera en el desarrollo de inteligencia artificial.

Y es que en el mundo de la IA, donde todo gira en torno a acumular conocimiento y disponer de más y más memoria, resulta que aprender a olvidar se ha convertido en una habilidad tan importante como la de aprender. ¿Contradictorio? Quizás, pero absolutamente necesario.

El arte de desaprender

Para entender por qué es importante que una IA "olvide", piensa en tu propia experiencia. ¿Cuántas veces has querido borrar de tu memoria algo incorrecto o que ya no te sirve que aprendiste hace años? ¿O ese recuerdo vergonzoso que te persigue incansablemente cada vez que escuchar una canción o te bebes un chupito de…? El cerebro humano, con toda su complejidad, no tiene un botón de "eliminar", pero los modelos de IA sí pueden tenerlo, y eso abre todo un mundo de posibilidades.

El desaprendizaje en modelos de lenguaje (LLM) se refiere precisamente a la capacidad de eliminar la influencia de datos específicos que el modelo ha incorporado durante su entrenamiento. No es simplemente ignorar información, sino literalmente "desaprenderla".

Este proceso cobra especial relevancia cuando pensamos en el GDPR y su famoso "derecho al olvido", o cuando necesitamos eliminar información errónea o potencialmente dañina que un modelo ha aprendido. Tradicionalmente, esto suponía reentrenar el modelo completo desde cero, excluyendo los datos no deseados, algo así como volver a enseñar todo el plan de estudios a un alumno solo porque se equivocó en una fórmula de química.

FUSED: La memoria selectiva de las máquinas

Entre las técnicas más innovadoras en este campo está FUSED (Federated Unlearning via Selective Sparse Adapter), presentada recientemente en el artículo "Unlearning through Knowledge Overwriting: Reversible Federated Unlearning via Selective Sparse Adapter". Este método es particularmente interesante porque aborda tres desafíos clave en el desaprendizaje federado:

La indiscriminación
La irreversibilidad
Los altos costes.

¿Cómo funciona FUSED? En lugar de modificar directamente los parámetros originales del modelo, introduce adaptadores dispersos en capas específicas, identificadas mediante un análisis de sensibilidad. Estos adaptadores son como pequeñas "notas adhesivas" que se colocan sobre el conocimiento que queremos que el modelo olvide, sobrescribiéndolo sin alterar la estructura base.

El proceso se puede resumir en tres pasos:

Identificación de capas críticas: Se analiza cada capa del modelo para determinar cuáles son más sensibles al conocimiento que se desea eliminar.
Construcción de adaptadores dispersos: Se insertan estos adaptadores ligeros y eficientes en las capas identificadas.
Sobrescritura del conocimiento: Los adaptadores se entrenan específicamente para "tapar" el conocimiento no deseado.

Lo más interesante de FUSED es su reversibilidad. Si en algún momento decides que ese conocimiento vuelve a ser útil, simplemente quitas los adaptadores y ¡voilà! El modelo recupera su memoria original. Es como poder quitar y poner recuerdos a voluntad. Los experimentos muestran que FUSED alcanza una efectividad similar al reentrenamiento completo, pero con una eficiencia significativamente mayor.

Las técnicas para hacer olvidar a una IA

FUSED no es la única técnica en el arsenal del desaprendizaje. Existen otras aproximaciones:

Unlearning a través de ejemplos negativos: Este enfoque, propuesto en el estudio "Large Language Model Unlearning", es como enseñarle al modelo a evitar ciertos temas mediante ejemplos de lo que no debe hacer. Imagina decirle a alguien "no pienses en un elefante" (Qué grande George Lakoff) y por supuesto inmediatamente pensará en un elefante. Con las IA ocurre algo similar, pero podemos entrenarlas para que efectivamente eviten esos pensamientos no deseados.
Adaptadores LoRA ortogonales: El marco O3 introduce estos adaptadores que permiten un desaprendizaje continuo sin interferir con el conocimiento previamente adquirido. Además, incorpora un detector de datos fuera de distribución (OOD) para evaluar si una entrada se parece a lo que el modelo ha "olvidado", actuando como un sistema de alerta temprana.
Prompts con embeddings corruptos (ECO): La técnica ECO es particularmente ingeniosa, ya que modifica los embeddings (representaciones vectoriales) en los prompts para guiar al modelo a evitar generar contenido no deseado durante la inferencia. Lo mejor es que no necesita alterar los parámetros del modelo.

El cerebro y la máquina: desaprendizaje en paralelo

Lo interesante es que este proceso de desaprendizaje en IA tiene paralelismos con cómo funciona nuestro propio cerebro. En los humanos, la plasticidad sináptica permite reforzar o debilitar conexiones neuronales, facilitando tanto el aprendizaje como el desaprendizaje. En los modelos de lenguaje, ajustamos pesos y conexiones dentro de la red neuronal para lograr efectos similares.

También compartimos limitaciones: así como hay recuerdos difíciles de borrar completamente en humanos (como esa canción pegadiza que no puedes sacarte de la cabeza), en los LLMs puede ser complicado garantizar que la información desaprendida no influya indirectamente en otras respuestas.

Desafíos éticos y técnicos

El desaprendizaje no está exento de complicaciones. Entre los principales desafíos encontramos:

Identificación precisa: Determinar exactamente qué datos deben ser eliminados sin afectar el rendimiento general del modelo es como intentar quitar una pieza específica de un jenga ya construido.
Evaluación de efectividad: ¿Cómo sabemos si el modelo realmente ha olvidado? Desarrollar métricas para esto es crucial pero complejo.
Consideraciones éticas: El poder de hacer "olvidar" a una IA podría usarse para manipular el conocimiento del modelo de forma indebida, creando sesgos o eliminando información valiosa por motivos cuestionables.

El futuro del desaprendizaje

A medida que los modelos de lenguaje se integran más en nuestra sociedad, el desaprendizaje se vuelve una herramienta esencial para mantenerlos alineados con nuestros valores y regulaciones cambiantes. Es la diferencia entre modelos estáticos, congelados en el tiempo, con todos sus errores e imperfecciones, y sistemas dinámicos capaces de evolucionar y adaptarse.

El desaprendizaje también abre la puerta a modelos más personalizados. Imagina un asistente de IA que pueda "olvidar" temas que te resultan incómodos o información obsoleta para tu campo profesional, adaptándose constantemente a tus necesidades.

¿Un derecho al olvido digital?

En un mundo donde nuestros datos entrenan estos modelos, el desaprendizaje nos acerca a un verdadero "derecho al olvido digital". Si decides que no quieres que tus datos formen parte del conocimiento de una IA, técnicas como FUSED podrían permitir eliminar tu huella sin necesidad de reentrenar todo el sistema.

Como señala el estudio, "Who's Harry Potter? Approximate Unlearning in LLMs", es posible eliminar información específica de un modelo sin necesidad de reentrenarlo por completo, lo que hace viable aplicar estos principios a escala.

El equilibrio entre recordar y olvidar

Al final, tanto para humanos como para máquinas, la sabiduría no solo consiste en lo que sabemos, sino también en lo que elegimos olvidar. El desaprendizaje en LLM no es solo una solución técnica a problemas regulatorios; es un paso hacia inteligencias artificiales más flexibles, éticas y, en cierto modo, más humanas.

Como en tantos aspectos de la vida, el progreso depende de un equilibrio delicado: en este caso, entre la capacidad de recordar y la valentía de olvidar.

Referencias y recursos

Eldan, R., & Russinovich, M. (2023). Who’s Harry Potter? Approximate Unlearning in LLMs (arXiv:2310.02238). arXiv. https://doi.org/10.48550/arXiv.2310.02238
Gao, C., Wang, L., Weng, C., Wang, X., & Zhu, Q. (2024). Practical Unlearning for Large Language Models. CoRR, abs/2407.10223. https://doi.org/10.48550/ARXIV.2407.10223
Liu, C. Y., Wang, Y., Flanigan, J., & Liu, Y. (2024). Large Language Model Unlearning via Embedding-Corrupted Prompts (arXiv:2406.07933). arXiv. https://doi.org/10.48550/arXiv.2406.07933
Machine unlearning. (2024). En Wikipedia. https://en.wikipedia.org/w/index.php?title=Machine_unlearning&oldid=1266133364
Sky of Unlearning (SoUL): Rewiring Federated Machine Unlearning via Selective Pruning | AI Research Paper Details. (s. f.). Recuperado 6 de mayo de 2025, de https://aimodels.fyi
Yao, Y., Xu, X., & Liu, Y. (2024). Large Language Model Unlearning (arXiv:2310.10683). arXiv. https://doi.org/10.48550/arXiv.2310.10683
Zhong, Z., Bao, W., Wang, J., Zhang, S., Zhou, J., Lyu, L., & Lim, W. Y. B. (2025). Unlearning through Knowledge Overwriting: Reversible Federated Unlearning via Selective Sparse Adapter (arXiv:2502.20709). arXiv. https://doi.org/10.48550/arXiv.2502.20709

CluPad (por Carlos Guadián)

Discusión sobre este post