Generación aumentada por recuperación

From Wikipedia, the free encyclopedia

La generación aumentada por recuperación (conocido comúnmente como RAG, siglas en inglés para Retrieval Augmented Generation) es una técnica que permite a los grandes modelos lingüísticos (LLM) recuperar e incorporar nueva información. [1] Con el RAG, los modelos de lenguaje (LLMs) no responden a las consultas de los usuarios hasta que consultan un conjunto específico de documentos. Estos documentos complementan la información de los datos de entrenamiento preexistentes del LLM [2] y les permite utilizar información específica del dominio o actualizada que no está disponible en los datos de entrenamiento. [2] [3] Por ejemplo, esto ayuda a los chatbots basados en LLM a acceder a datos internos de la empresa o a generar respuestas basadas en fuentes fiables.

Un RAG mejora los grandes modelos lingüísticos (LLM) al incorporar la recuperación de información antes de generar respuestas. [4] A diferencia de los LLM tradicionales, que dependen de datos de entrenamiento estáticos, RAG extrae texto relevante de bases de datos, documentos subidos o fuentes web.[1] Según Ars Technica, «El RAG es una forma de mejorar el rendimiento de los LLM, en esencia, combinando el proceso de LLM con una búsqueda web u otro proceso de consulta de documentos para ayudar a los LLM a ceñirse a los hechos». Este método ayuda a reducir las alucinaciones de la IA, [4][5] que han provocado que los chatbots describan políticas inexistentes o recomienden casos legales inexistentes a abogados que buscan citas para respaldar sus argumentos.[6]

El RAG también reduce la necesidad de reentrenar a los LLM con nuevos datos, lo que ahorra costos computacionales y financieros. [1] Además de mejorar la eficiencia, el RAG también permite a los LLM incluir fuentes en sus respuestas, para que los usuarios puedan verificar las fuentes citadas. Esto proporciona mayor transparencia, ya que los usuarios pueden cotejar el contenido recuperado para garantizar su precisión y relevancia.

El término RAG se introdujo por primera vez en un artículo de investigación de 2020 [4] de Meta . [7] [3]

Los LLM pueden proporcionar información incorrecta. Por ejemplo, cuando Google presentó por primera vez su herramienta LLM, "Google Bard", esta proporcionó información incorrecta sobre el Telescopio Espacial James Webb . Este error contribuyó a una caída de 100 mil millones de dólares en el valor de las acciones de la compañía .[6] Un RAG se utiliza para prevenir estos errores, pero no resuelve todos los problemas. Por ejemplo, los LLM pueden generar información errónea incluso al obtener información de fuentes objetivamente correctas si malinterpretan el contexto.[8] MIT Technology Review ofrece el ejemplo de una respuesta generada por IA que afirma: "Estados Unidos ha tenido un presidente musulmán, Barack Hussein Obama". El modelo extrajo esta información de un libro académico titulado retóricamente Barack Hussein Obama: ¿El primer presidente musulmán de Estados Unidos? El LLM no "conocía" ni "entendía" el contexto del título, lo que generó una afirmación falsa.[2]

Los LLM con RAG están programados para priorizar la información nueva. Esta técnica se denomina "prompt stuffing". Sin estas indicaciones, el input al LLM la genera solo el usuario; con la inserción de indicaciones, se añade contexto relevante adicional a este input para guiar la respuesta del modelo. Este enfoque proporciona al LLM información clave al inicio del input, lo que le permite priorizar los datos proporcionados sobre el conocimiento de entrenamiento preexistente. [9]

Proceso

La generación aumentada por recuperación (en inglés, Retrieval-augmented generation, RAG) mejora los modelos lingüísticos extensos (en inglés, large languages models, LLM) al incorporar un mecanismo de recuperación de información que permite a los modelos acceder y utilizar datos adicionales a su conjunto de entrenamiento original. AWS afirma: «un RAG permite a los LLM recuperar información relevante de fuentes de datos externas para generar respuestas más precisas y contextualmente relevantes» («indexación»).[10] Este enfoque reduce la dependencia de conjuntos de datos estáticos, que pueden quedar obsoletos rápidamente. Cuando un usuario realiza una consulta, el RAG utiliza un recuperador de documentos para buscar contenido relevante en las fuentes disponibles antes de incorporar la información recuperada en la respuesta del modelo («recuperación»).[11] Ars Technica señala que «cuando se dispone de nueva información, en lugar de tener que volver a entrenar el modelo, basta con aumentar la base de conocimiento externa del modelo con la información actualizada» («aumento»).[6] Al integrar dinámicamente datos relevantes, el RAG permite a los LLM generar respuestas más informadas y contextualmente fundamentadas («generación»).[5] IBM afirma que "en la fase generativa, el LLM se basa en un prompt aumentado y su representación interna de los datos de entrenamiento para sintetizar una respuesta atractiva adaptada al usuario en ese instante.[1]

Etapas clave del RAG

Indexación

Normalmente, los datos a referenciar se convierten en embeddings del LLM, representaciones numéricas en forma de un gran espacio vectorial.[8] Un RAG se puede utilizar con datos no estructurados (generalmente texto), semiestructurados o estructurados (por ejemplo, grafos de conocimiento ). [12] Estas incrustaciones se almacenan posteriormente en una base de datos vectorial para permitir la recuperación de documentos . [13]

Descripción general del proceso de RAG, que combina documentos externos y aportes del usuario en un prompt en el LLM para obtener resultados personalizados

Recuperación

Dada una consulta de usuario, primero se llama a un recuperador de documentos para seleccionar los documentos más relevantes que se utilizarán para ampliar la consulta.[2][4] Esta comparación se puede realizar utilizando una variedad de métodos, que dependen en parte del tipo de indexación utilizada.[1]

Aumento

El modelo introduce esta información recuperada relevante en el LLM mediante prompt engineering de la consulta original del usuario.[10][14] Las implementaciones más recientes (a partir de 2023) también pueden incorporar módulos de aumento específicos con capacidades como la expansión de consultas hacia múltiples dominios y el uso de memoria y auto-mejora para aprender de recuperaciones previas.

Generación

Finalmente, el LLM puede generar resultados basados tanto en la consulta como en los documentos recuperados.[2][15] Algunos modelos incorporan pasos adicionales para mejorar los resultados, como la reclasificación de la información recuperada, la selección del contexto y el fine-tuning .

Mejoras

Desafíos

Referencias

Related Articles

Wikiwand AI