IA en Ventas: LLMs de Código Abierto en PYMES
KI & Automatisierung · 12. Juni 2026 · Omer
IA en ventas con Llama, Mistral & Co.: Revise costos, latencia y soberanía de datos antes de que su equipo de ventas invierta incorrectamente en 2026.
A 12 de junio de 2026, en los últimos 7 a 14 días, no ha ocurrido nada con Llama, Mistral y los grandes modelos de peso abierto que deba venderse a un director de ventas de ingeniería mecánica como una nueva base arquitectónica. Ninguna nueva variante de Llama-3, ningún salto de peso abierto de Mistral, ningún ajuste de precios por parte de los proveedores de inferencia alojados habituales que de repente recalcule la IA en ventas. Al mismo tiempo, los departamentos de compras de Schaeffler, Phoenix Contact y Festo llevan tiempo utilizando listas de verificación de gobernanza de IA, desde que la Ley de IA de la UE entró en vigor el 1 de agosto de 2024 y ha cambiado procesos de adquisición concretos en muchas empresas desde 2025. ¿Por qué es importante esto ahora? Porque la estabilidad de los modelos en las PYMES vale más que la próxima captura de pantalla de un benchmark en X.
Mi pronóstico es incómodo: hasta finales de 2027, muchas ventas B2B de PYMES no utilizarán la IA de forma productiva porque los modelos mejoren el doble, sino porque los LLMs de código abierto actuales se habrán vuelto lo suficientemente baratos, controlables y aburridos. Aburrido es un cumplido aquí. Quien en 2026 siga esperando a que un modelo escriba un alemán "perfecto", confunde ventas con crítica literaria.
IA en Ventas: El Status Quo de los LLMs de Código Abierto
Cuando hablo con directores generales de PYMES sobre la IA en ventas, a menudo surge la misma pregunta: "¿Son Llama y Mistral ya lo suficientemente buenos para una comunicación real con el cliente?" La respuesta corta: sí, pero no sin preparación. Un Llama-3-8B sin recuperación, sin contexto de CRM y sin reglas estrictas de tonalidad produce textos agradables; un Llama-3-8B con RAG limpio, historial de acuerdos, filtros de industria y un controlador de secuencia produce trabajo útil. Esa es la diferencia entre un becario con Google y un equipo de ventas interno con un plan de cuenta limpio.
Los datos clave oficiales son estables desde hace tiempo. Meta presentó Llama 3 el 18 de abril de 2024, con Llama-3-8B-Instruct y Llama-3-70B-Instruct como pesos abiertos bajo la Licencia Comunitaria de Llama 3. Contexto estándar: 8k tokens. Mistral ya lanzó Mixtral-8x7B en diciembre de 2023 como un modelo Sparse-Mixture-of-Experts, con 32k de contexto y una lógica de inferencia en la que solo una parte de los expertos está activa por token. Esto suena académico. No lo es. Decide si su copiloto de ventas puede procesar una página de producto técnico de DMG Mori, tres notas de CRM y un historial de correo electrónico de una sola vez, o si pierde el hilo después del segundo párrafo.
El lado del mercado también se ha vuelto más claro. Según el estudio de Bitkom "Inteligencia Artificial en Empresas" de septiembre de 2024, el 20 por ciento de las empresas alemanas utilizaban activamente la IA, y otro 37 por ciento planeaba o discutía su uso. La VDMA informó en 2024 de una menor entrada de pedidos en muchos fabricantes de maquinaria; en ventas, esto significa que la cartera de proyectos vuelve a ser una prioridad para la dirección. Bueno, casi. En algunas empresas, la cartera de proyectos nunca dejó de ser una prioridad, solo que las excusas eran mejores cuando los libros de pedidos estaban llenos.
Lo que vemos concretamente en Amplifa: En los últimos 12 meses, en clientes B2B de ingeniería mecánica, electrotecnia y servicios técnicos, tenemos un patrón que no aparece en ninguna tarjeta de modelo. El primer 10 por ciento de mejora de calidad proviene del mejor modelo. El siguiente 40 por ciento proviene de la higiene de datos, los contratos de prompts, la detección de duplicados y un campo de CRM que finalmente ya no se llama "Otros". En un cliente con 46 usuarios de ventas en Baden-Württemberg, el tiempo promedio para un briefing de cuenta se redujo de 18 minutos a 4 minutos y 30 segundos; el modelo no era de la clase GPT-4, sino un modelo 8B con RAG y un filtro de fuentes bastante implacable. El servidor estaba en una VPC alemana. Sin magia. Solo trabajo.
Por qué el código abierto en las PYMES no es solo ideología
El código abierto a menudo se vende mal en ventas. Algunos actúan como si se tratara de un romanticismo de la libertad. No es del todo cierto. En las PYMES, se trata de tres cosas difíciles: soberanía de datos, costos marginales y adaptabilidad. Si un proveedor de Kärcher vierte su lógica de ofertas, reglas de descuento, márgenes de piezas de repuesto y criterios de exclusión en un asistente de ventas, no quiere enviar cada token a través de una caja negra cuyos términos de servicio cambien la próxima semana. Esto no es paranoia. Esto es compras.
La otra cara: el código abierto no es gratuito. Quien afirme eso nunca ha revivido vLLM por la noche después de una actualización de CUDA. Hardware, monitoreo, parches de seguridad, versionado de prompts, conjuntos de evaluación, registro, comité de empresa, evaluación de impacto en la protección de datos, todo esto no aparece en la bonita tabla de precios de tokens. Sin embargo, puede ser rentable, especialmente con un alto volumen. Un equipo de ventas que genera 50.000 resúmenes de leads, variantes de correo electrónico y notas de CRM por semana no nota la diferencia entre 0,10 euros y varios dólares por millón de tokens como un error de redondeo, sino como una partida presupuestaria.
Tendencia 1: Los LLMs de código abierto pequeños se vuelven lo suficientemente productivos
La primera tendencia no es Llama-3-70B. La primera tendencia es Llama-3-8B. Esto suena contraintuitivo, porque a todo el mundo le gusta hablar de modelos grandes, de valores MMLU, puntuaciones de Arena y el último porcentaje de razonamiento. Sin embargo, en ventas, lo que consume el presupuesto no es el caso más complicado, sino el más frecuente: resumir cuentas, identificar activadores relevantes, escribir borradores de correos electrónicos, extraer objeciones del manual, normalizar notas de CRM. Para esto, a menudo no se necesita un modelo 70B. Se necesita un modelo que sea lo suficientemente rápido, estable y barato para que los usuarios no lo eviten.
Llama-3-8B-Instruct y Mistral-7B-Instruct, según las tarjetas de modelo publicadas y las tablas de clasificación abiertas, se encuentran en el rango suficiente para muchas tareas de ventas. No son brillantes en el pensamiento estratégico multinivel. ¿Honestamente? Tampoco tienen por qué serlo si la arquitectura es correcta. No dejo que un modelo 8B decida si una cuenta está lista para precios empresariales. Lo dejo extraer señales, resumir datos, generar variantes de texto y hacer preguntas. La decisión permanece en un motor de reglas, en el flujo de trabajo de CRM o en el ser humano.
En cuanto a la latencia, la diferencia se nota inmediatamente. Un modelo 8B cuantificado en una A100 40GB o L40S puede, con vLLM, un batching adecuado y una caché KV limpia, alcanzar latencias de primer token entre 50 y 200 milisegundos en muchas configuraciones; por solicitud, son realistas de 30 a 80 tokens por segundo, dependiendo de la longitud del prompt y la carga. Para un empleado de ventas en HubSpot o Salesforce, esto se siente como "responde inmediatamente". Para la asistencia por voz, está al menos en el rango. Para un trabajo de briefing 70B que se ejecuta en segundo plano, la latencia es menos crítica. Para el momento en que alguien hace clic en "sugerir correo electrónico" en el CRM, cada medio segundo cuenta.
| Modelo | Contexto Típico | Clase de Auto-Alojamiento | Fortaleza en Ventas | Límite |
|---|---|---|---|---|
| Llama-3-8B-Instruct | 8k Tokens oficialmente | 1 GPU, cuantificado también más pequeño | Borradores de correo electrónico, notas de CRM, resúmenes de leads | Estrategia compleja y documentos largos |
| Llama-3-70B-Instruct | 8k oficialmente, variantes comunitarias con 32k/64k | 2 a 4 GPUs similares a A100/H100 | Correos de alto valor, Q&A de manual, RAG exigente | Costos, latencia, operación |
| Mistral-7B-Instruct | típicamente 8k | 1 GPU o configuraciones eficientes de CPU/GPU | Asistencia cercana al borde, clasificación rápida | Alemán generalmente algo más débil que los modelos más grandes |
| Mixtral-8x7B-Instruct | 32k oficialmente | más memoria GPU, considerar el servicio MoE | Escenarios RAG multilingües, documentos técnicos | La operacionalización es menos trivial |
| Qwen-2 / Qwen-1.5 | dependiendo del modelo | según el tamaño | Investigación, clasificación, en parte benchmarks fuertes | Confianza DACH y cuestiones de gobernanza |
Esto no funciona para nosotros si el texto huele a IA. Pero si el sistema me extrae tres activadores fiables de la cuenta, lo tomo de inmediato.
— Andrea, Directora de Ventas en un proveedor de ingeniería mecánica, Bielefeld
La frase de Andrea de Bielefeld se me quedó grabada porque pone fin a un debate equivocado. Muchos hablan de correos electrónicos perfectos. Yo prefiero hablar de activadores fiables. Un activador es una nueva construcción de fábrica, una nueva dirección, una subvención, una migración de SAP, un cambio en el departamento de compras, una línea de productos con problemas de entrega. El texto es solo el envoltorio. Si el envoltorio es bueno y el activador es incorrecto, las ventas siguen perdiendo.
IA en Ventas: Desarrollo del Mercado de Modelos de Peso Abierto
La velocidad del mundo de los modelos ha cambiado de forma extraña. En 2023, cada mes era un pequeño shock. En 2024, llegaron Llama 3, Mixtral, Phi-3, modelos Qwen y una montaña de nuevas pilas de servicio. En 2025 y principios de 2026, se volvió más interesante para las ventas B2B porque la infraestructura maduró: vLLM, TGI, llama.cpp, TensorRT-LLM, mejor cuantificación, mejores guardrails, mejores herramientas de evaluación. Esto es menos sexy que un nuevo modelo. Para las PYMES, es más importante.
| Período | Movimiento del Mercado | Relevancia para Ventas B2B | Mi Evaluación |
|---|---|---|---|
| Diciembre 2023 | Mistral lanza Mixtral-8x7B con pesos abiertos | El contexto de 32k hace que los documentos de productos y cuentas más largos sean más prácticos | Primer candidato serio de MoE para arquitecturas de ventas cercanas a la UE |
| Abril 2024 | Meta lanza Llama 3 8B y 70B | Base sólida para copilotos de ventas autoalojados | A partir de aquí, el código abierto dejó de ser solo un experimento para muchas PYMES |
| Agosto 2024 | La Ley de IA de la UE entra en vigor | La gobernanza, las clases de riesgo y las obligaciones de prueba llegan a las compras | La residencia de datos pasa de ser un tema de TI a un facilitador de ventas |
| 2025 | Los proveedores de inferencia y las ofertas de VPC maduran | Llama/Mistral se pueden operar sin un equipo de GPU propio | El híbrido se convierte en estándar: datos sensibles internamente, carga máxima externamente |
| Q2 2026 | No hay nuevos lanzamientos relevantes de Llama/Mistral para ventas en los últimos 7 a 14 días | La previsibilidad aumenta, las decisiones de arquitectura son menos volátiles | Ahora la implementación es más importante que las noticias de modelos |
Tendencia 2: Los precios de los tokens se convierten en estrategia de ventas
La segunda tendencia suena a control y por eso es importante. Los precios de los tokens deciden si la IA en ventas sigue siendo solo un copiloto para diez gerentes de cuentas clave o si 120 empleados de ventas internos, SDRs y vendedores técnicos trabajan con ella a diario. En las APIs de modelos abiertos alojados, las ofertas de Llama y Mistral, según el proveedor y el modelo, oscilan aproximadamente entre 0,05 y 0,60 dólares por millón de tokens de entrada y entre 0,10 y 1,50 dólares por millón de tokens de salida. A principios de junio de 2026. Con el autoalojamiento y una buena utilización, veo para los modelos 8B órdenes de magnitud por debajo de 0,05 a 0,10 euros por millón de tokens; para 70B o Mixtral, más bien 0,10 a 0,30 euros. Estos no son precios de fabricante. Son cálculos operativos con horas de GPU, utilización y algo de dolor.
Ahora la traducción comercial. Un briefing de cuenta con datos de CRM, fragmentos web, noticias, resumen y borrador de correo electrónico puede consumir rápidamente entre 8.000 y 15.000 tokens. Una secuencia con cinco variantes, textos A/B, manejo de objeciones y verificación de tonalidad es más alta. Si un equipo en Webasto o un proveedor automotriz similar procesa 2.000 cuentas al mes, ya no son costos de demostración. Entonces la economía de tokens se convierte en una pregunta: ¿Qué tareas se ejecutan en 8B? ¿Cuáles en 70B? ¿Qué se almacena en caché? ¿Qué no se genera en absoluto, sino que se construye de forma determinista a partir de datos?
Considero que muchos proyectos de IA en ventas están mal presupuestados. Se calculan los costos de licencia por usuario, pero no los costos por flujo de trabajo. Eso es pensamiento SaaS de 2018. Con los LLMs se necesita una lista de materiales: tokens de entrada, tokens de salida, costos de recuperación, costos de embedding, utilización de GPU, tiempo de revisión humana, costos de error. Suena seco. Es margen de ventas.
La latencia no es un detalle técnico, sino de aceptación
La latencia a menudo se ignora en las reuniones de la junta directiva hasta que el lanzamiento falla. Un empleado de ventas acepta 20 segundos de espera para un dossier de cuenta profundo. No acepta 8 segundos para una sugerencia de línea de asunto. Esto es trivial, pero veo este error constantemente en las arquitecturas. Se construye un copiloto que llama a un modelo grande cada vez, inicia cinco herramientas, extrae 20 fragmentos y luego se sorprenden de que los usuarios vuelvan a escribir por sí mismos.
Para las llamadas de voz, la situación es aún más ajustada. ASR, LLM, Tool-Call, TTS: la cadena debe mantenerse por debajo de 1,5 a 2 segundos, de lo contrario se produce ese incómodo hueco en la conversación. Se oye. Un pequeño eco en los auriculares, medio aliento de más, y la persona al otro lado sabe: máquina. Los modelos 8B suelen ser más sensatos aquí que los modelos más grandes, si trabajan con respuestas cortas y hechos en caché. Para pasos de razonamiento complejos, se puede cargar asincrónicamente. El agente no dice todo de inmediato. Como un buen vendedor, por cierto, tampoco.
Tendencia 3: RAG supera más a menudo al Fine-Tuning en las PYMES
La tercera tendencia es una contradicción con una narrativa popular de LinkedIn. No todas las empresas necesitan un modelo de ventas afinado. En muchas ventas de PYMES, RAG es el mejor primer paso, porque el problema no es el estilo, sino el contexto. Los datos del producto están en PDFs, la lógica de precios en Excel, las referencias en PowerPoint, las objeciones en la cabeza de tres vendedores senior, el historial de CRM en campos de texto libre. Un ajuste fino sobre este caos no hace que el modelo sea más inteligente. Hace que el caos sea reproducible.
RAG con Llama-3-8B o Mixtral-8x7B funciona sorprendentemente bien para el asesoramiento de productos, borradores de ofertas e inteligencia de cuentas, si no se trata la recuperación como una decoración de almacén de vectores. El tamaño del fragmento, los metadatos, los tipos de documentos, los filtros de actualidad, los permisos, la obligación de citar, la clasificación, ese es el verdadero trabajo. Para productos técnicos, como los sistemas de accionamiento de Wittenstein o los componentes de Phoenix Contact, un párrafo semánticamente similar no es suficiente. El sistema debe saber si una especificación está actualizada, si se aplica a la UE o a EE. UU., si el cliente es OEM o integrador y si el departamento de ventas puede hablar sobre el precio.
El Fine-Tuning sigue valiendo la pena. Pero más tarde. Lo veo principalmente en la tonalidad, la clasificación y los patrones de escritura recurrentes. Entre 20.000 y 50.000 ejemplos de correo electrónico de alta calidad pueden ayudar si los datos de apertura, respuesta y acuerdos se asignan correctamente. Solo que la mayoría de las PYMES no tienen estos datos limpios. Bueno, casi. Los tienen en algún lugar. Pero no de una manera que un modelo deba consumirlos.
| Enfoque | Cuándo es útil | Modelos Típicos | Riesgo | Impacto en Ventas |
|---|---|---|---|---|
| RAG sobre CRM y datos de producto | Cuando el conocimiento debe ser actual y explicable | Llama-3-8B, Mixtral-8x7B, Llama-3-70B | Una mala recuperación da una falsa seguridad | Mejores briefings de cuenta y borradores de ofertas fiables |
| Fine-Tuning / LoRA | Cuando la tonalidad, la clasificación o el formato son constantes | Llama-3-8B, Mistral-7B, modelos Qwen | Entrenamiento con datos históricos deficientes | Correos electrónicos más consistentes y menos post-procesamiento |
| Motor de reglas más LLM | Cuando los precios, descuentos o el cumplimiento deben ser estrictos | Todos los modelos mencionados | Demasiada lógica en el prompt | Menos alucinaciones en las ofertas |
| Modelo grande como respaldo | Cuando los modelos pequeños son inciertos | Llama-3-70B, modelos Frontier alojados | Explosión de costos sin enrutamiento | Calidad para cuentas de alto valor |
Qué benchmarks realmente importan para las ventas
MMLU, GSM8K, BIG-Bench, HumanEval, LMSYS Arena, lo miro todo. Por supuesto. Pero un director de ventas en Brose no cierra un trato porque un modelo sea mejor en cálculo mental en GSM8K. Para las ventas, otros benchmarks son importantes: ¿Puede el modelo resumir correctamente una empresa? ¿Reconoce los roles del centro de compras? ¿Confunde la ubicación, la filial y la empresa matriz? ¿Cumple las reglas de no reclamaciones? ¿Escribe en alemán sin olor a SaaS estadounidense? Y quizás lo más importante: ¿pregunta si falta contexto?
Me gusta usar un conjunto de evaluación interno con casos de ventas reales y anonimizados. 100 cuentas. Por cada cuenta, historial de CRM, extracto del sitio web, dos noticias, mapeo de productos y la siguiente acción deseada. Luego medimos no solo la calidad del texto, sino también la precisión de los hechos, la vinculación a las fuentes, la longitud, la tonalidad, la calidad del CTA, las declaraciones prohibidas y el tiempo de procesamiento. Un Llama-3-8B puede superar a un Llama-3-70B en subtareas si el prompt es más conciso y la recuperación es mejor. Esto irrita a las personas que leen los modelos como tablas de fútbol.
No necesito un bot que me explique lo que hace nuestro producto. Necesito un sistema que reconozca por qué ese comprador en particular debería hablar ahora mismo.
— Markus, CSO de un proveedor de automatización, Núremberg
Markus de Núremberg tiene razón. Un sistema de ventas debe entender el timing. O, más precisamente: debe preparar las señales de timing para que el ser humano pueda actuar. Si Trumpf presenta una nueva tecnología láser, si DMG Mori mueve capacidades, si un OEM de tamaño medio en la República Checa amplía una fábrica, entonces el equipo de ventas quiere saber qué cuentas están afectadas, qué referencia encaja y quién escribe la primera frase. No la semana que viene. Hoy.
Pronósticos de analistas: Mucho mercado, poca implementación
Las previsiones para GenAI en las empresas siguen siendo grandes. Gartner dijo en 2024 que para 2026 más del 80 por ciento de las empresas utilizarán APIs o modelos de GenAI o implementarán aplicaciones habilitadas para GenAI de forma productiva; en 2023, esta proporción era significativamente menor. McKinsey cifró el potencial económico anual de la IA generativa en su análisis de 2023 en 2,6 a 4,4 billones de dólares estadounidenses en muchas funciones, con marketing y ventas como áreas fuertemente afectadas. IDC y Statista siguen viendo un aumento del gasto en software y servicios de IA. El problema: las previsiones no venden reuniones.
| Fuente | Pronóstico / Cifra | Fecha | Relevancia para las Ventas de PYMES | Mi Interpretación |
|---|---|---|---|---|
| Gartner | Para 2026, más del 80 por ciento de las empresas utilizarán APIs, modelos o aplicaciones de GenAI | 2024 | GenAI se convertirá en un componente estándar del panorama de TI | La brecha no se crea en el acceso, sino en los datos y los procesos |
| McKinsey Global Institute | Potencial anual de 2,6 a 4,4 billones de dólares estadounidenses gracias a la IA generativa | Junio 2023 | Ventas y marketing se encuentran entre las funciones con alto apalancamiento | El apalancamiento es real, pero solo con la integración del flujo de trabajo |
| Bitkom | El 20 por ciento de las empresas alemanas utilizan IA, el 37 por ciento la planea o discute | Septiembre 2024 | El mercado DACH aún no está saturado | Las PYMES aún pueden obtener una ventaja si implementan correctamente ahora |
| VDMA | La ingeniería mecánica informó en 2024 de una baja entrada de pedidos en varios meses | 2024 | Aumenta la presión sobre la cartera de proyectos | La IA no se introduce porque sea moderna, sino porque la capacidad de ventas es escasa |
Desconfío de las grandes previsiones de mercado si no se desglosan en flujos de trabajo. "Las ventas serán más productivas" no es un plan. "Un SDR crea 60 activadores de cuenta verificados por semana en lugar de 18, con la misma calidad de respuesta y documentación de fuentes" – eso es un plan. La diferencia no es lingüística. La diferencia decide si el CFO y el comité de empresa asienten o bloquean.
Amplifa ICP Playbook Una introducción práctica para definir claramente los clientes objetivo, los eventos desencadenantes y los centros de compra antes de que un LLM en ventas escale tonterías.
Qué significan los LLMs de código abierto para las PYMES
Para un director de ventas en una PYME, el código abierto significa primero libertad de elección. No libertad absoluta. Libertad de elección. Puede mantener datos sensibles en una VPC o en local, enrutar modelos según la tarea, controlar los costos y construir sus propios conjuntos de evaluación. Puede empezar con Llama-3-8B, usar Mixtral para documentos técnicos más largos y solo usar 70B para casos caros. Esto no es un cambio religioso de modelos propietarios. Es una cuestión de arquitectura.
El segundo efecto es organizativo. Si la IA se vuelve lo suficientemente barata, desaparece la excusa de usarla solo para cuentas clave. Entonces cada cuenta se enriquece al menos de forma aproximada, cada lead se verifica según los criterios de ICP, cada nota de CRM se normaliza, cada secuencia se prueba en cuanto a su relevancia. Esto cambia las operaciones de ventas más que al vendedor individual. En un cliente de Renania del Norte-Westfalia, vimos que la mayor mejora de la productividad no provino de correos electrónicos escritos automáticamente, sino de leads rechazados automáticamente. El 31 por ciento de los contactos entrantes fueron eliminados del flujo de SDR según criterios claros. Nadie los echó de menos.
El tercer efecto es político. Los LLMs de código abierto obligan a las empresas a asumir responsabilidades. Con una API de OpenAI o Anthropic, uno puede esconderse psicológicamente detrás del proveedor. Con el autoalojamiento, no. Quien opera los modelos debe regular el registro, el acceso, los conceptos de eliminación, la protección contra la inyección de prompts y el control de la salida. Esto suena a freno. Yo lo veo de otra manera: este trabajo ya lo habría necesitado el departamento de ventas antes de la IA, solo que nadie lo pagaba.
¿Qué significa esto para un director general?
Un director general no necesita saber cómo funciona el escalado RoPE. Pero sí debería saber que las variantes no oficiales de contexto de 32k o 64k de Llama 3 no son lo mismo que una especificación oficialmente garantizada. Debería entender por qué una ventana de contexto de 32k no proporciona automáticamente mejores respuestas si la recuperación produce basura. Y debería preguntar si su equipo mide la calidad del modelo o solo recopila videos de demostración. Esta pregunta es incómoda. Y eso está bien.
Arquitectura técnica: Así empezaría en 2026
Mi arquitectura estándar para un copiloto de ventas de PYMES parece poco espectacular. Conector de CRM, conector de DMS, ingesta de sitios web y noticias, pipeline de embedding, almacén de vectores como Qdrant o pgvector, una capa de políticas, un enrutador de LLM, un conjunto de evaluación, observabilidad. Delante, una interfaz de usuario en Salesforce, HubSpot, Microsoft Dynamics o como una aplicación web ligera. Detrás, registros, pero de tal manera que los datos personales no terminen en el pantano de depuración. El olor a plástico de sala de servidores caliente se ha vuelto menos común desde que todo funciona en VPCs; los errores han permanecido.
Para los modelos, yo enrutaría de forma pragmática. Llama-3-8B para resúmenes rápidos, clasificación, borradores de correo electrónico sencillos. Mixtral-8x7B para contextos técnicos más largos, tareas multilingües DE/EN/FR y RAG sobre documentos de producto. Llama-3-70B para cuentas de alto valor, manejo complejo de objeciones y calidad de texto final en secuencias importantes. Un modelo propietario como respaldo puede ser útil si casos individuales requieren una alta calidad de razonamiento. Quien convierte esto en una cuestión de fe, pierde el tiempo.
¿Hardware? Para los pilotos, a menudo basta con la inferencia alojada o una VPC. Para volúmenes productivos, hay que calcular. Una A100 40GB para modelos 8B es cómoda, a veces sobredimensionada. L40S es interesante en muchas configuraciones. 70B necesita más memoria o una cuantificación más agresiva, entonces se paga con calidad y latencia. Mixtral es especial debido a MoE en el servicio; no imposible, pero no se debe desplegar un viernes por la tarde sin monitorización. He visto este error. El lunes fue ruidoso.
Preparación: 7 pasos para la IA en ventas
- Defina tres flujos de trabajo de ventas concretos, no diez ideas de IA. Por ejemplo, briefing de cuenta, puntuación de leads según ICP y secuencia de correo electrónico. Un piloto sin flujo de trabajo muere en la demostración.
- Construya un conjunto de evaluación con casos reales. 50 a 100 cuentas anonimizadas son suficientes para empezar. Mida errores de hechos, vinculación a fuentes, tonalidad, longitud y tiempo de procesamiento.
- Separe las tareas por clase de modelo. 8B para tareas estándar rápidas, Mixtral o 70B para contextos más largos, respaldo solo si es necesario. Ningún modelo grande para cada línea de asunto.
- Limpie los datos de CRM y productos antes del primer lanzamiento. Nombres de empresas duplicados, versiones antiguas de PDF y desiertos de texto libre cuestan más calidad que un modelo más débil.
- Establezca presupuestos de tokens por flujo de trabajo. Un briefing de cuenta no debe quemar incontroladamente 40.000 tokens solo porque alguien vierte todos los PDFs en el contexto.
- Aclare la gobernanza con TI, protección de datos y el comité de empresa con antelación. El registro, el acceso, la eliminación, los derechos de rol y la aprobación humana deben estar en el plan, no en el turno de noche.
- Empiece con un equipo que tenga presión en la cartera de proyectos. No con el equipo más innovador. Con el equipo que siente un problema. De lo contrario, optimizará la curiosidad, no los ingresos.
Producto Amplifa Amplifa combina la lógica ICP, la investigación de cuentas y la automatización de ventas para que la IA no solo genere textos, sino que asuma el trabajo de la cartera de proyectos.
FAQ: ¿Qué LLMs de código abierto son adecuados para ventas B2B?
Para la mayoría de las configuraciones de PYMES, en 2026 yo empezaría con Llama-3-8B-Instruct o Mixtral-8x7B-Instruct. Llama-3-8B es rápido, económico y lo suficientemente bueno para muchas tareas estándar de ventas. Mixtral aporta 32k de contexto y sólidas capacidades multilingües, lo que ayuda para ventas en la UE, documentos técnicos y escenarios RAG más largos. Llama-3-70B es mejor para textos exigentes y manejo de objeciones más complejo, pero más caro de operar. Mistral-7B es interesante si la latencia y la eficiencia son más importantes que la máxima calidad de texto.
FAQ: ¿Es el autoalojamiento más barato que una API?
Con un alto volumen sí, con equipos pequeños no automáticamente. El autoalojamiento puede, con una buena utilización, situarse por debajo de 0,05 a 0,10 euros por millón de tokens para modelos 8B; los modelos más grandes suelen estar entre 0,10 y 0,30 euros. Pero el arrendamiento de GPU, DevOps, monitoreo, seguridad y tiempos de inactividad deben incluirse en el cálculo. Una API es más rápida para empezar. El autoalojamiento se vuelve interesante cuando la soberanía de los datos, la carga constante o los requisitos de cumplimiento son decisivos.
FAQ: ¿Es suficiente una ventana de contexto de 8k para ventas?
A menudo sí. No porque 8k sea mucho, sino porque una buena recuperación es más importante que un contexto enorme. Para briefings de cuenta cortos, borradores de correo electrónico y resúmenes de CRM, 8k suele ser suficiente. Para el asesoramiento técnico de productos, licitaciones o lógica de ofertas más larga, 32k de contexto, como en Mixtral-8x7B, ayuda. Pero nunca compraría ventanas de contexto como sustituto de la calidad de los documentos. Más espacio solo encarece las fuentes deficientes.
FAQ: ¿Pueden los modelos de código abierto manejar el alemán lo suficientemente bien?
Sí, si se les guía. Llama 3 y Mixtral pueden manejar el alemán de forma sólida, pero el lenguaje de ventas en las PYMES de DACH es especial. Es más formal que los textos SaaS de EE. UU., a menudo más técnico, a veces deliberadamente conciso. Un modelo debe aprender términos de la industria, el tratamiento de usted, los no-gos legales y la tonalidad, o ser limitado mediante prompts y una capa de políticas. En Festo, un buen correo suena diferente que en una startup de ciberseguridad en Berlín. Y así debe ser.
Amplifa ICP Playbook para Equipos de Ventas Utilice el Playbook para afinar los segmentos de mercado, los activadores y los criterios de exclusión antes de que Llama o Mistral escalen sus datos.
Mi pronóstico para 2026 a 2028
No creo que las PYMES entrenen sus propios modelos fundacionales de forma generalizada en los próximos dos o tres años. Eso se dice porque suena bien. La mayoría de las empresas tomarán modelos de peso abierto, los operarán en entornos privados, los adaptarán con RAG y pequeños adaptadores, y los combinarán con modelos propietarios a través de enrutadores. El híbrido gana. No por elegancia, sino porque funciona.
Para 2028, la diferencia entre las organizaciones de ventas buenas y malas dependerá menos de si utilizan IA. Casi todas utilizarán algún tipo de IA. La diferencia radicará en si tienen un ICP limpio, si sus datos están actualizados, si su enrutamiento de modelos controla los costos, si se toman en serio la obligación de las fuentes y si las operaciones de ventas gestionan los sistemas como plantas de producción. Trumpf no mantiene sus máquinas por intuición. ¿Por qué un departamento de ventas debería gestionar la automatización de su cartera de proyectos de esa manera?
Los próximos lanzamientos de modelos son seguros. Quizás con ventanas de contexto más grandes, mejores benchmarks, precios más bajos. Genial. Pero en junio de 2026, la noticia más importante es que no hay noticias. Llama, Mistral y compañía son lo suficientemente estables como para hacer el trabajo, y precisamente por eso se vuelve incómodamente concreto para muchas organizaciones de ventas.