Cómo validar un sistema RAG: Guía práctica para Product Managers

Sumary

¿Qué es un sistema RAG?

¿Por qué es difícil la validación RAG?

¿Se puede automatizar la validación?

Flujo de validación de un sistema RAG

Criterios de evaluación RAG

¿Qué es un sistema RAG?

Un sistema RAG combina un motor de recuperación de información (por ejemplo, una base de datos de búsqueda o vectorial) con un modelo generativo de gran lenguaje (LLM), lo que le permite responder a preguntas basadas tanto en datos propios como en conocimientos generales externos.

¿Por qué es difícil la validación RAG?

A diferencia de los sistemas tradicionales basados en reglas, los sistemas RAG no son deterministas. Las respuestas dependen de:

El modelo que utiliza
Los documentos recuperados
El enunciado de la pregunta de entrada

En nuestro caso con COGNOS, el reto es aún mayor: los usuarios cargan sus archivos o conectan fuentes de conocimiento privadas. No podemos acceder al contenido real utilizado en el momento de la inferencia. A pesar de ello, debemos garantizar un nivel mínimo de fiabilidad.

¿Se puede automatizar la validación?

Sí, herramientas como MLflow, RAGAS, UpTrain, Opik o marcos personalizados que utilizan LangChain pueden ayudar a automatizar el proceso. Sin embargo, antes de automatizar, hay que saber qué validar y por qué.

Este post se centra en la base manual que debe establecer antes de la automatización.

Flujo de validación de un sistema RAG

Dividamos este proceso en dos grandes etapas. La primera, la preparación, es la base de toda la validación. Hay que preparar datos de muestra, pero también las preguntas que se quieren hacer y las respuestas que se esperan.

1. Preparación de los datos

Empieza por reunir muestras realistas de documentos: políticas, facturas, requisitos, CV, etc. Evite en lo posible los ejemplos sintéticos.

Una característica que hace clave la privacidad de COGNOS es que garantiza que no se compartirá ningún dato con terceros durante el proceso de validación.

Ejemplo: Un documento de política de empresa que regule los permisos retribuidos, el trabajo a distancia o las revisiones de los empleados: documentos reales con un lenguaje técnico y denso.

2. Diseño de la pregunta

Para cada documento o conjunto de documentos:

Empieza con preguntas sencillas y ve aumentando la complejidad.
Define las condiciones previas (por ejemplo, «Requiere política_empresa.pdf»).
Especifica el contexto previsto del que debe partir el modelo.

Sugerencias:

Parafrasea preguntas para comprobar la comprensión semántica.
Incluye prompts multilingües si el sistema admite varios idiomas.
Añade casos de prueba negativos (por ejemplo, preguntas que no deben responderse).
Refleja las preocupaciones reales de los usuarios y define las preguntas por persona si el sistema desempeña múltiples funciones.

Ejemplo:

Pregunta: ¿A cuántos días de vacaciones tengo derecho?
Documento requerido: «politica_empresa.pdf»
Contexto esperado: «Cada trabajador tiene derecho a disfrutar de hasta 23 días de vacaciones».

3. Ejecución de la prueba

Una vez que el conjunto de datos y el conjunto de preguntas estén listos, ejecute las consultas. Aunque este paso puede automatizarse, la clave está en obtener registros completos de entrada-salida para su validación.

Criterios de evaluación RAG

Relevancia del contexto

Antes de juzgar el resultado, confirma que el contexto recuperado es correcto. ¿Ha localizado el sistema la parte pertinente del documento?

Herramientas como COGNOS proporcionan una «vista de origen» para que pueda inspeccionar lo que se recuperó antes de que el modelo generara una respuesta.

Valida que el contenido recuperado coincide con la sección esperada. Esto ayuda a aislar los fallos en la recuperación de los errores de generación.

Precisión de la respuesta

Una vez verificado el contexto, evalua la calidad de la respuesta generada utilizando las siguientes categorías:

Exacto / Inexacto: ¿Es la respuesta objetivamente correcta?
Completo / Incompleto: ¿Incluye toda la información crítica?

Generado / Fallido: ¿Generó el modelo una respuesta coherente, o pasó por defecto a una respuesta alternativa o falló silenciosamente?

Ejemplo:

Documento: «Todos los empleados recibirán cuentas de Microsoft 365 excepto el personal de almacén».
Pregunta: «¿Todos los empleados tienen cuentas de Microsoft 365?».
Respuesta: «Sí, todos lo hacen». → Incorrecto por omisión.

Categorías

Análisis de datos Aplicaciones Empresariales Arquitectura de software Ciberseguridad Cultura y Compromiso Empowering Business Innovación y Research Inteligencia Artificial Modernización e Infraestructuras Noticias

Monica Menchon

Product Owner • Plain Concepts