Scott Zoldi

Director de analítica de FICO

No hay duda de que la IA está en la conversación de cualquier reunión corporativa hoy en día. Pero, como siempre, no es oro todo lo que reluce y estamos empezando a ver “alucinaciones” relacionadas con esta tecnología, especialmente en su uso con ChatGPT, una herramienta verdaderamente útil si se aprovecha correctamente.

Según una encuesta realizada a un millar de abogados en EEUU, el 80 % afirmó que no confiaba en la IA generativa para realizar su trabajo y casi 9 de cada 10 no ocultaba inquietudes éticas al utilizar la herramienta. ¿A qué puede deberse esto? Tal vez al uso erróneo que se ha hecho de ella. Por ejemplo, tras la denuncia de un pasajero a la aerolínea Avianca por haber sufrido una lesión al chocar un carrito de la compañía contra él. La aerolínea desestimó la reclamación por haberla realizado fuera de plazo según el Convenio de Montreal, pero los abogados del pasajero reclamaron con jurisprudencia para exigir una compensación. Sin embargo, esos casos habían sido “fabricados” por ChatGPT cuando el abogado pidió al chatbot que identificara sentencias favorables similares. Finalmente, el pasajero no sólo no recibió su indemnización, sino que, además, los abogados fueron multados con 55.000 dólares.

Pero estas “alucinaciones” mostradas por la IA generativa no se circunscriben a un sólo sector. Bloomberg publicó el año pasado que, en sus respectivos informes anuales, “Goldman Sachs, Citigroup, JPMorgan Chase y otras firmas de Wall Street están alertando a los inversores sobre nuevos riesgos a la hora de utiliza la IA, entre los que se incluyen las alucinaciones del software, cuestiones morales e incluso amenazas de seguridad”.

Al fin y al cabo, la presión por utilizar las últimas tecnologías lleva a mantener enfoques, en ocasiones, demasiado agresivos que pueden afectar negativamente, sobre todo a las entidades reguladas. Por eso, es primordial abordar la IA generativa desde un ámbito responsable, utilizando soluciones como los modelos de lenguaje enfocado (FLM) y modelos enfocados en tareas específicas para prevenir las alucinaciones antes de que ocurran.

Un estudio de la Universidad de Stanford mostró que herramientas de IA generativa, como ChatGPT, tienen una tasa de error de hasta el 82 % cuando se utilizan para fines legales. Sin embargo, otras herramientas GenAI diseñadas específicamente para aplicaciones legales son mejores, con alucinaciones “tan sólo” en el 17% de los casos, según otro estudio de la misma universidad, pero aun así no deberían utilizarse sin una revisión minuciosa, lo que, al final, consume mucho tiempo. El problema es el mismo a la larga: el usuario no es consciente de la alucinación y puede validarla en lugar de resolverla.

Detectar una alucinación no es tan sencillo, especialmente porque los algoritmos LLM no se pueden interpretar fácilmente y no ofrecen la visibilidad necesaria para justificar las respuestas. Incluso en contextos en los que se mencionan referencias RAG (Retrieval-Augmented Generation por sus siglas en inglés, Generación Aumentada con Recuperación, una técnica usada para mejorar la precisión de modelos de lenguaje LLM al complementar su conocimiento con información externa relevante al momento de generar una respuesta), es posible descubrir que no se han utilizado realmente.

Y, ¿cómo resolver esto? La mejor manera de minimizar las alucinaciones es construyendo un modelo de IA generativa propio. De esta manera, se puede tener un control crítico de los datos usados en el entrenamiento, así como restringir el RAG para asegurar que no se use para aumentar las alucinaciones. Además, se deben exigir políticas que prioricen los procesos en los que se usan estas herramientas según cada contexto de negocio y, en definitiva, validar los resultados.

Un enfoque práctico comenzaría por utilizar modelos de lenguaje pequeño (SLM), que son menos complejos que los de lenguaje grande (LLM) y que se han diseñado para realizar tareas específicas. Después, se puede ir un paso más allá con modelos de lenguaje enfocado (FLM), un nuevo concepto en el desarrollo de los SLM que se centra en conjuntos de datos pequeños pero muy específicos para cada dominio. Este nivel de precisión garantiza que los datos seleccionados son de gran calidad y relevancia para las tareas asignadas.

En definitiva, el enfoque FLM es muy diferente a los usuales LLM y SLM, que no ofrecen control sobre los datos usados para construir el modelo. Esta capacidad es crucial para prevenir alucinaciones y daños, porque ofrece transparencia y control sobre los datos con los que se construye el modelo de lenguaje enfocado en un dominio, los usuarios pueden crear modelos de lenguaje enfocados en tareas específicas, con vocabulario y contextos de entrenamiento ajustados a la tarea en cuestión y, además, gracias a la transparencia y control de los datos, el FLM resultante puede ir acompañado de una puntuación de confianza con cada respuesta, lo que permite una operación basada en el riesgo de la IA generativa. Estas puntuaciones medirían cuánto se alinean las respuestas con los conocimientos ancla (verdades) del dominio o tarea del FLM.