MAISON CODE .
/ Tech · AI · LLM · RAG · Machine Learning

LLM Fine-Tuning vs RAG: Cómo enseñar IA a su negocio

¿Deberías entrenar tu propio modelo de IA? Probablemente no. La diferencia matemática entre 'Aprender una habilidad' (Afinar) y 'Leer un libro' (RAG).

AB
Alex B.
LLM Fine-Tuning vs RAG: Cómo enseñar IA a su negocio

El concepto erróneo del “entrenamiento”

En 2025, todos los CTO tendrán el mismo mandato: “Necesitamos nuestra propia IA”. Vienen a nosotros y nos dicen: “Queremos entrenar un modelo con nuestros datos para que conozca nuestro catálogo de productos”. Cuando dicen “Entrenar”, se imaginan un aprendizaje al estilo “Matrix”. Cargue los datos y la IA sabrá kung fu. Este es un malentendido fundamental de cómo funcionan los modelos de lenguajes grandes (LLM). Asumen que la tubería es: Documentos -> Ajustes -> Modelo inteligente. En realidad, Fine-Tuning casi nunca es la herramienta adecuada para la inyección de conocimientos. Para entender por qué, debemos distinguir entre Memoria procedimental (habilidades) y Memoria semántica (hechos). Fine-Tuning le enseña al modelo cómo hablar. RAG le enseña al modelo de qué hablar.

Por qué Maison Code analiza esto

En Maison Code, construimos sistemas de IA empresarial. Vemos empresas que gastan 50.000 dólares para perfeccionar Llama 3 en su documentación, sólo para descubrir que el modelo todavía alucina. “¿Por qué decía que el producto cuesta €50? ¡Actualizamos el precio a €60 en el conjunto de datos!” Porque Las pesas son pegajosas. Una vez que un modelo aprende un hecho durante el entrenamiento, es difícil desaprenderlo. Implementamos arquitecturas RAG (Generación Aumentada de Recuperación) porque son dinámicas, más económicas y basadas en la verdad. Salvamos a nuestros clientes de la “Trampa del Entrenamiento”.

La analogía del estudiante

Imagine que está enviando a un estudiante (el LLM) a un examen de Biología (La consulta del usuario). El estudiante es inteligente pero no conoce el plan de estudios específico de su universidad (Sus Datos Comerciales).

Enfoque 1: Entrenamiento previo (el niño)

Se trata de construir el cerebro desde cero. Le enseñas al niño a leer, escribir, hacer lógica y comprender el mundo. Costo: 100 millones de dólares + 10 000 GPU. Quién hace esto: OpenAI, Google, Meta, Mistral. NUNCA debes hacer esto. A menos que seas una nación soberana.

Enfoque 2: Ajuste (La Escuela de Medicina)

Tomas a un estudiante inteligente y lo envías a la escuela de medicina durante 4 años. Se comportan como un médico. Hablan como un médico usando palabras latinas. Escriben recetas correctamente. ¿Pero conocen la presión arterial del Paciente John Doe en este momento? No. Porque se graduaron ayer. No tienen acceso al expediente del paciente en vivo. El ajuste fino cambia el comportamiento y el estilo. Enseña la nueva sintaxis del modelo (por ejemplo, “MaisonScript”), o cómo ser grosero/educado, o cómo generar JSON. NO es bueno para los hechos, porque los hechos cambian. Costo: €1,000 - €10,000.

Enfoque 3: RAG (El examen a libro abierto)

Tomas un estudiante inteligente. No los envías a la escuela de medicina. En lugar de eso, les das un libro de texto enorme (Tu base de datos) y les dices: “Puedes buscar la respuesta durante el examen”. Cuando surge la pregunta (“¿Cuál es la presión arterial de John Doe?”), el estudiante busca en el libro, encuentra la página, la lee y genera la respuesta. RAG (Generación Aumentada de Recuperación) maneja el Conocimiento. Costo: €0.01 por consulta.

Análisis profundo: generación aumentada de recuperación (RAG)

RAG es la arquitectura elegida para el 95% de las aplicaciones de IA empresarial. Resuelve dos problemas enormes:

  1. Alucinación: el modelo se ve obligado a utilizar el contexto proporcionado. Si el contexto dice “Las ventas fueron de 5 millones de dólares”, el modelo no adivinará “10 millones de dólares”.
  2. Estancamiento: No es necesario volver a entrenar el modelo cuando cambia su inventario. Simplemente actualiza la base de datos.

La pila RAG

  1. Ingestión:
    • Tome sus archivos PDF, documentos de Notion y base de datos SQL.
    • Fragmentar: divídalos en partes pequeñas (por ejemplo, 500 palabras). Superpóngalas en 50 palabras para preservar el contexto.
  2. Incrustación:
    • Pasar cada fragmento a través de un modelo de incrustación (OpenAI text-embedding-3-small o Cohere).
    • Esto convierte texto en un vector (una lista de 1536 números).
  3. Base de datos de vectores:
    • Almacene estos vectores en Pinecone, Weaviate o pgvector.
  4. Recuperación:
    • El usuario pregunta: “¿Tenemos camisetas rojas?”
    • Convertir pregunta a vector.
    • Base de datos de búsqueda de “vecinos más cercanos” (similitud de coseno).
    • DB devuelve: “Paquete de camisa roja - Existencias: 50”.
  5. Generación:
    • Mensaje de construcción:
      Eres un asistente útil. Responda la pregunta del usuario basándose ÚNICAMENTE en el contexto siguiente.
      Contexto: "Paquete de camisa roja - Existencias: 50"
      Pregunta: "¿Tenemos camisas rojas?"
      Respuesta:
    • LLM responde: “Sí, tenemos 50 en stock”.

Cuando sea necesario: ajuste fino (adaptación del dominio)

Entonces, ¿es inútil el ajuste fino? No. Tiene casos de uso específicos en los que RAG falla.

Caso de uso 1: El generador de código Dispones de un lenguaje de programación interno llamado “MaisonScript”. GPT-4 nunca lo ha visto. RAG no ayudará porque si recupera un fragmento de código, el modelo aún no comprende la gramática o las reglas del compilador. Puedes ajustar Llama 3 en 50.000 líneas de MaisonScript. Ahora “habla” el idioma con fluidez.

Caso de uso 2: La voz de la marca Eres una marca de lujo. Nunca usas emojis. Siempre suenas un poco distante y francés. La personalidad predeterminada de GPT-4 es “Funcionalidad de animadora”. La ingeniería rápida (“No usar emojis”) es débil. Se olvida. Lo ajusta en 1000 correos electrónicos anteriores de su equipo de conserjería. Ahora adopta esa personalidad de forma natural el 100% del tiempo.

Caso de uso 3: Latencia y reducción de costos GPT-4 es caro y lento. Puede utilizar GPT-4 para generar datos de entrenamiento (Preguntas + Respuestas perfectas). Luego, ajusta un modelo pequeño (Mistral 7B o GPT-3.5) con esos datos. El modelo pequeño aprende a imitar al modelo grande. Ahora ejecuta el modelo pequeño por 1/10 del costo y 10 veces la velocidad. Esto es Destilación.

El análisis costo/beneficio

CaracterísticaTRAPOAjuste fino
Fuente de conocimientoDinámico (DB en tiempo real)Estático (conjunto de entrenamiento)
Tiempo de configuraciónDíasSemanas/Meses
MantenimientoBaja (sincronización automática)Alto (Vuelve a entrenar en cada derrape)
PrecisiónAlto (Conectado a tierra)Medio (posibles alucinaciones)
CostoAlmacenamiento + EmpotracionesComputación (formación de GPU)
Mejor paraControl de calidad, búsqueda, análisisEstilo, Tono, Código, Lógica

11. Evaluación: ¿Cómo sabes que funciona?

“El modelo tiene buena pinta.” -> Esto no es ingeniería. Utilizamos el marco RAGAS (Evaluación de generación aumentada de recuperación). Mide:

  1. Fidelidad: ¿La respuesta depende únicamente del contexto?
  2. Relevancia de la respuesta: ¿Realmente calculó la presión arterial?
  3. Precisión del contexto: ¿La base de datos devolvió la página correcta? Ejecutamos este conjunto de evaluación en CI/CD. Si la precisión del modelo cae por debajo del 90%, la implementación falla.

12. Escalado de bases de datos vectoriales (el límite de 10 M)

La piña es ideal para vectores de 100k. ¿Qué pasa con 100 millones? A escala, “Exact KNN” (encontrar la combinación perfecta) es demasiado lento. Usamos el índice HNSW (Mundo pequeño navegable jerárquico). Es una búsqueda aproximada (ANN). Cambia una precisión del 1% por una velocidad de 1000x. También habilitamos la Búsqueda híbrida (palabra clave + vector) para manejar búsquedas de SKU exactas (“Muéstrame SKU-123”) en las que la búsqueda de vectores es notoriamente mala.

13. Conservación de datos: basura que entra, basura que sale

Entrenar con 100 malos ejemplos es peor que entrenar con 0. Si entrena un modelo en sus registros de atención al cliente y sus agentes son groseros, la IA será grosera. Curación de datos es el 80% del trabajo.

  1. Deduplicación: elimine preguntas idénticas.
  2. Eliminación de PII: elimine correos electrónicos y números de teléfono.
  3. Estándar de oro: Haga que un humano senior reescriba las respuestas para que sean perfectas. Creamos una herramienta interna “Maison Annotate” para ayudar a los equipos a limpiar sus conjuntos de datos antes de que se active una sola GPU.

14. Entrenamiento eficiente: LoRA (adaptación de bajo rango)

El ajuste completo actualiza 70 mil millones de parámetros. Esto requiere 8 GPU H100 (€30/hora). LoRA congela los pesos principales y solo entrena una pequeña capa “Adaptador” (1% de los parámetros). Resultado: puedes entrenar Llama 3 en una única GPU de consumo (RTX 4090). El archivo del adaptador tiene solo 100 MB. Puede intercambiar adaptadores en caliente en tiempo de ejecución:

  • El usuario A habla con el “Adaptador médico”.
  • El usuario B habla con el “Adaptador legal”. Todos servidos desde el mismo modelo base.

15. Conclusión: El futuro híbrido

Los mejores sistemas utilizan ambos. A esto lo llamamos RAG afinado.

  1. Ajuste un modelo pequeño y eficiente para que sea realmente bueno leyendo el formato de su documento específico y generando su esquema JSON específico.
  2. Utilice RAG ​​para alimentar ese modelo con los datos más recientes de la base de datos. Esto le proporciona la fiabilidad de un especialista (Fine-Tuning) con conocimientos de una enciclopedia (RAG). No elijas. Combinar.

¿Modelo alucinando?

Si su chatbot de IA miente a sus clientes o su proyecto de “Capacitación” no logró generar resultados, Maison Code puede rediseñar su canal. Implementamos sistemas RAG de nivel de producción utilizando Pinecone y LangChain para conectar su IA con la verdad.



Contrata a nuestros Arquitectos.