RAG vs KAG: Comparativa y diferencias en la generación aumentada de conocimiento en GenAIPlain Concepts

Introducción

En un panorama de rápida evolución en el campo del procesamiento del lenguaje natural (PLN) y los sistemas de IA, hay dos metodologías que están ganando importancia: RAG (generación aumentada por recuperación) y KAG (generación aumentada por conocimiento).

Estos dos enfoques mejoran las capacidades de los modelos lingüísticos al integrar fuentes de conocimiento externas, pero difieren en la forma en la que acceden al conocimiento y lo utilizan.

Hemos recopilado sus puntos más importantes a tener en cuenta para compararlos, analizar sus arquitecturas, casos de uso, ventajas, etc.

¿Qué es RAG?

RAG o Retrieval-Augmented Generation es un framework que combina el poder de los modelos basados en recuperación y generación. Se ha convertido en una de las aplicaciones más importantes de la IA generativa, la cual conecta documentos externos (PDFs, vídeos, etc.) a LLM para casos de preguntas y respuestas.

El funcionamiento de RAG se sustenta en dos pilares:

Recuperación: una consulta pasa a través de un sistema de recuperación, que obtiene documentos o pasajes relevantes de una fuente de conocimiento externa.
Generación: estos pasajes recuperados se incorporan como contexto a un modelo generativo (como GPT-4 o Gemini) y el modelo sintetiza la información para generar una respuesta relevante.

Sus aplicaciones son variadas y van desde la respuesta a preguntas de dominio abierto o chatbots que requieren acceso a información actualizada o específica de un dominio, hasta los motores de búsqueda personalizados.

Sus principales ventajas se centran en que combina los puntos fuertes de la recuperación (precisión) y la generación (fluidez del lenguaje natural) y que reduce la “alucinación”, pues basa sus resultados en los datos recuperados. Esto hace que haya un acceso dinámico al conocimiento, haya mejores respuestas contextuales o una integración eficiente del conocimiento.

Hace poco se presentó GraphRAG, el cual mejora la recuperación de RAG mediante el análisis y la creación de gráficos de conocimiento. Aún así, existen algunas limitaciones que deben abordarse y que, gracias a KAG (Knowledge Augmented Generation), se superan muchos de esos problemas.

¿Qué es KAG?

KAG o Knowledge-Augmented Generation presenta un enfoque híbrido que mejora las capacidades generativas de los modelos de lenguaje mediante la incorporación directa de gráficos de conocimiento estructurado o bases de conocimiento externas en la arquitectura del modelo.

A diferencia de RAG, que recupera datos no estructurados, KAG se centra en la integración de conocimiento estructurado para mejorar la calidad de la generación. Está basado en el motor OpenSPG y aborda las limitaciones de los sistemas tradicionales de preguntas y respuestas.

Sus componentes clave son:

Razonamiento lógico: admite capacidades de razonamiento avanzadas, como el razonamiento de varios pasos, lo que le permite conectar e inferir respuestas a partir de múltiples fragmentos de información relacionada.
Conocimiento específico del dominio: está diseñado para bases de conocimiento verticales, lo que hace que funcione bien en dominios que requieren conocimientos profundos y especializados. Además, integra datos estructurados y no estructurados en un sistema unificado.
Precisión mejorada: reduce los errores y proporciona respuestas más claras y precisas.
Integración de gráficos de conocimiento: puede incorporar esquemas y reglas específicos del dominio, lo que hace que sea adaptable a diferentes necesidades profesionales, desde responder preguntas fáciles hasta razonas en escenarios complejos.
Personalización: puede incorporar esquemas y reglas específicos del dominio, lo que lo hace adaptable a diferentes necesidades profesionales.

Sus grandes ventajas van desde el conocimiento estructurado o la precisión mejorada para preguntas basadas en hechos, hasta respuestas consistentes y menos propensas a errores.

Sin embargo, aún está limitado al inherente conocimiento codificado en el gráfico de conocimiento, desafíos de escalabilidad o dependencia de la calidad del gráfico de conocimiento.

¿Cómo funciona KAG?

Podemos resumir el funcionamiento de KAG como un proceso de dos pasos, basado en aprender y responder:

Aprendizaje: KAG toma todos los documentos, datos o conocimientos que se le proporciona y los divide en fragmentos más pequeños y significativos. Después identifica piezas importantes de información (nombre, fechas, relaciones o hechos) y construye un mapa de conocimiento, una red de ideas conectadas.
Responder: cuando se le formula una pregunta, KAG comprende lo que se está preguntando y puede reescribir la pregunta para que quede más claro (si fuese necesario). A partir de aquí, busca en el gráfico de conocimiento para encontrar la información más relevante, razona y conecta múltiples piezas de información para dar la respuesta completa. Y, finalmente, reúne todo en una respuesta clara y similar a una humana.

RAG vs KAG: Diferencias clave

Tanto RAG como KAG presentan enfoques de vanguardia para mejorar las capacidades de los modelos generativos, pero son adecuadas para diferentes tipos de tareas.

RAG destaca en tareas de dominio abierto, donde es necesario recuperar y sintetizar datos dinámicos y no estructurados. Por su parte, KAG es más eficaz en escenarios que requieren información estructurada y factual de gráficos de conocimiento.

Además, se diferencian en lo siguiente:

Uso del gráfico de conocimiento

RAG o GraphRAG utilizan un gráfico de conocimiento general para la recuperación, pero carece de razonamiento profundo.

KAG por su parte, construya gráficos de conocimiento específicos del dominio y utiliza razonamiento avanzado para interpretar la información.

Capacidades de razonamiento

RAG recupera datos, pero tiene dificultades para combinarlos y usarlos en consultas complejas.

KAG utiliza razonamiento de múltiples saltos para conectar y sintetizar información para obtener respuestas precisas.

Manejo de consultas complejas

RAG es muy eficaz para consultas simples, pero puede pasar por alto el panorama general. Mientras que KAG destaca en consultas complejas y específicas del dominio, desglosándolas y sintetizando las respuestas.

Precisión

GraphRAG ha mejorado la precisión, pero aún es propenso a errores en consultas complejas. En cambio, KAG ofrece precisión a nivel profesional, gracias a combinar recuperación, razonamiento y alineación de gráficos.

La elección entre una y otra dependerá en gran medida del tipo de datos con los que se trabaja y de la naturaleza de la tarea en cuestión. Para aplicaciones de uso general que requieren recuperar y generar respuestas basadas en una gran variedad de documentos, RAG suele ser la mejor opción. Sin embargo, para tareas que requieren respuestas consistentes y basadas en hechos a partir de conocimientos estructurados, KAG ofrece un enfoque más confiable.

Ambos métodos siguen evolucionando e irán ganando aún más importancia en la creación de sistemas de IA más potentes y precisos en el futuro.