KI & Automatisierung · 12. Juni 2026 · 24 Min. Lesezeit · Omer, Senior Engineer, Amplifa
KI im Vertrieb: Open-Source-LLMs im Mittelstand
KI im Vertrieb mit Llama, Mistral & Co.: Prüfen Sie Kosten, Latenz und Datenhoheit, bevor Ihr Sales-Team 2026 falsch investiert.
Stand 12. Juni 2026 ist in den letzten 7 bis 14 Tagen bei Llama, Mistral und den großen Open-Weight-Modellen nichts passiert, was man einem Vertriebsleiter im Maschinenbau als neue Architekturgrundlage verkaufen sollte. Keine neue Llama-3-Variante, kein Mistral-Open-Weight-Sprung, keine Preisanpassung bei den üblichen gehosteten Inference-Anbietern, die KI im Vertrieb plötzlich neu rechnet. Gleichzeitig laufen die Einkaufsabteilungen bei Schaeffler, Phoenix Contact und Festo längst mit KI-Governance-Checklisten herum, seit der EU AI Act am 1. August 2024 in Kraft getreten ist und seit 2025 in vielen Unternehmen konkrete Beschaffungsprozesse verändert. Warum zählt das jetzt? Weil Stabilität bei Modellen im Mittelstand mehr wert ist als der nächste Benchmark-Screenshot auf X.
Meine Prognose ist unbequem: Bis Ende 2027 werden viele mittelständische B2B-Vertriebe nicht deshalb KI produktiv nutzen, weil die Modelle noch einmal doppelt so gut werden, sondern weil die heutigen Open-Source-LLMs billig genug, kontrollierbar genug und langweilig genug geworden sind. Langweilig ist hier ein Kompliment. Wer 2026 noch wartet, bis ein Modell „perfekt“ Deutsch schreibt, verwechselt Vertrieb mit Literaturkritik.
KI im Vertrieb: Der Status quo bei Open-Source-LLMs
Wenn ich mit Geschäftsführern im Mittelstand über KI im Vertrieb spreche, kommt oft dieselbe Frage: „Sind Llama und Mistral schon gut genug für echte Kundenkommunikation?“ Die kurze Antwort: ja, aber nicht nackt. Ein Llama-3-8B ohne Retrieval, ohne CRM-Kontext und ohne harte Regeln für Tonalität produziert nette Texte; ein Llama-3-8B mit sauberem RAG, Deal-Historie, Branchenfiltern und einem Sequenz-Controller produziert brauchbare Arbeit. Das ist ein Unterschied wie zwischen einem Praktikanten mit Google und einem Inside-Sales-Team mit sauberem Account-Plan.
Die offiziellen Eckdaten sind seit einiger Zeit stabil. Meta hat Llama 3 am 18. April 2024 vorgestellt, mit Llama-3-8B-Instruct und Llama-3-70B-Instruct als offenen Gewichten unter der Llama 3 Community License. Standard-Kontext: 8k Tokens. Mistral hat Mixtral-8x7B bereits im Dezember 2023 als Sparse-Mixture-of-Experts-Modell veröffentlicht, mit 32k Kontext und einer Inference-Logik, bei der pro Token nur ein Teil der Experten aktiv ist. Das klingt akademisch. Ist es nicht. Es entscheidet, ob Ihr Sales-Copilot eine technische Produktseite von DMG Mori, drei CRM-Notizen und einen E-Mail-Verlauf in einem Rutsch verarbeiten kann – oder ob er nach dem zweiten Absatz den Faden verliert.
Die Marktseite ist ebenfalls klarer geworden. Laut Bitkom-Studie „Künstliche Intelligenz in Unternehmen“ vom September 2024 nutzten 20 Prozent der deutschen Unternehmen KI aktiv, weitere 37 Prozent planten oder diskutierten den Einsatz. Der VDMA meldete 2024 bei vielen Maschinenbauern schwächere Auftragseingänge; im Vertrieb heißt das: Pipeline wird wieder Chefsache. Naja, fast. In manchen Firmen war Pipeline nie weg vom Tisch, nur die Ausreden waren besser, als die Auftragsbücher voll waren.
Was wir bei Amplifa konkret sehen: In den letzten 12 Monaten haben wir bei B2B-Kunden aus Maschinenbau, Elektrotechnik und technischer Dienstleistung ein Muster, das in keiner Model Card steht. Die ersten 10 Prozent Qualitätsgewinn kommen vom besseren Modell. Die nächsten 40 Prozent kommen von Datenhygiene, Prompt-Verträgen, Duplikat-Erkennung und einem CRM-Feld, das endlich nicht mehr „Sonstiges“ heißt. Bei einem Kunden mit 46 Sales-Nutzern in Baden-Württemberg sank die durchschnittliche Zeit für ein Account-Briefing von 18 Minuten auf 4 Minuten 30 Sekunden; das Modell war dabei nicht GPT-4-Klasse, sondern ein 8B-Modell mit RAG und einem ziemlich gnadenlosen Quellenfilter. Der Server stand in einer deutschen VPC. Kein Zauber. Nur Arbeit.
Warum gerade Open Source im Mittelstand nicht nur Ideologie ist
Open Source wird im Vertrieb oft falsch verkauft. Manche tun so, als ginge es um Freiheitsromantik. Stimmt nicht ganz. Im Mittelstand geht es um drei harte Dinge: Datenhoheit, Grenzkosten und Anpassbarkeit. Wenn ein Kärcher-Zulieferer seine Angebotslogik, Rabattregeln, Ersatzteilmargen und Ausschlusskriterien in einen Sales-Assistenten kippt, will er nicht jedes Token durch irgendeine Blackbox schicken, deren Terms of Service nächste Woche anders aussehen. Das ist keine Paranoia. Das ist Einkauf.
Die andere Seite: Open Source ist nicht kostenlos. Wer das behauptet, hat noch nie vLLM nachts nach einem CUDA-Update wiederbelebt. Hardware, Monitoring, Security Patches, Prompt-Versionierung, Evaluationssets, Logging, Betriebsrat, Datenschutzfolgeabschätzung – das alles landet nicht in der schönen Tokenpreis-Tabelle. Trotzdem kann es sich rechnen, vor allem bei hohem Volumen. Ein Vertrieb, der pro Woche 50.000 Lead-Summaries, E-Mail-Varianten und CRM-Notizen generiert, merkt den Unterschied zwischen 0,10 Euro und mehreren Dollar pro Million Tokens nicht als Rundungsfehler, sondern als Budgetzeile.
Trend 1: Kleine Open-Source-LLMs werden produktiv genug
Der erste Trend ist nicht Llama-3-70B. Der erste Trend ist Llama-3-8B. Das klingt kontraintuitiv, weil alle gern über große Modelle sprechen, über MMLU-Werte, Arena-Scores und das letzte Prozent Reasoning. Im Vertrieb frisst aber nicht der komplizierteste Fall das Budget, sondern der häufigste: Account zusammenfassen, passende Trigger erkennen, E-Mail-Entwurf schreiben, Einwand aus dem Playbook ziehen, CRM-Notiz normalisieren. Dafür braucht man oft kein 70B-Modell. Man braucht ein Modell, das schnell, stabil und billig genug ist, damit Nutzer es nicht umgehen.
Llama-3-8B-Instruct und Mistral-7B-Instruct liegen nach den veröffentlichten Model Cards und offenen Leaderboards im Bereich, der für viele Sales-Aufgaben ausreicht. Sie sind nicht brillant bei mehrstufigem strategischem Denken. Ehrlich? Müssen sie auch nicht, wenn die Architektur stimmt. Ich lasse ein 8B-Modell nicht entscheiden, ob ein Account reif für Enterprise-Pricing ist. Ich lasse es Signale extrahieren, Daten zusammenfassen, Textvarianten erzeugen und Rückfragen stellen. Die Entscheidung bleibt in einer Regelengine, im CRM-Workflow oder beim Menschen.
Bei Latenz sieht man den Unterschied sofort. Ein quantisiertes 8B-Modell auf einer A100 40GB oder L40S kann mit vLLM, passendem Batching und sauberem KV-Cache in vielen Setups First-Token-Latenzen zwischen 50 und 200 Millisekunden erreichen; pro Anfrage sind 30 bis 80 Tokens pro Sekunde realistisch, je nach Prompt-Länge und Auslastung. Für einen Sales-Mitarbeiter in HubSpot oder Salesforce fühlt sich das wie „antwortet sofort“ an. Für Voice-Assistenz ist es zumindest im Korridor. Für einen 70B-Briefing-Job, der im Hintergrund läuft, ist Latenz weniger kritisch. Für den Moment, in dem jemand im CRM auf „E-Mail vorschlagen“ klickt, zählt jede halbe Sekunde.
| Modell | Typischer Kontext | Self-Hosting-Klasse | Sales-Stärke | Grenze |
|---|---|---|---|---|
| Llama-3-8B-Instruct | 8k Tokens offiziell | 1 GPU, quantisiert auch kleiner | E-Mail-Entwürfe, CRM-Notizen, Lead-Summaries | Komplexe Strategie und lange Dokumente |
| Llama-3-70B-Instruct | 8k offiziell, Community-Varianten mit 32k/64k | 2 bis 4 A100/H100-ähnliche GPUs | High-Value-Mails, Playbook-Q&A, anspruchsvolles RAG | Kosten, Latenz, Betrieb |
| Mistral-7B-Instruct | typisch 8k | 1 GPU oder effiziente CPU/GPU-Setups | Edge-nahe Assistenz, schnelle Klassifikation | Deutsch meist etwas schwächer als größere Modelle |
| Mixtral-8x7B-Instruct | 32k offiziell | mehr GPU-Speicher, MoE-Serving beachten | Multilinguale RAG-Szenarien, technische Dokumente | Operationalisierung ist weniger trivial |
| Qwen-2 / Qwen-1.5 | modellabhängig | je nach Größe | Recherche, Klassifikation, teils starke Benchmarks | DACH-Vertrauen und Governance-Fragen |
Das funktioniert bei uns nicht, wenn der Text nach KI riecht. Aber wenn das System mir drei belastbare Trigger aus dem Account zieht, nehme ich es sofort.
— Andrea, Head of Sales bei einem Maschinenbau-Zulieferer, Bielefeld
Andreas Satz aus Bielefeld ist mir hängen geblieben, weil er die falsche Debatte beendet. Viele reden über perfekte E-Mails. Ich rede lieber über belastbare Trigger. Ein Trigger ist ein Werkneubau, eine neue Geschäftsführung, ein Förderbescheid, eine SAP-Migration, ein Wechsel im Einkauf, eine Produktlinie mit Lieferproblemen. Der Text ist nur die Verpackung. Wenn die Verpackung gut ist und der Trigger falsch, verliert der Vertrieb trotzdem.
KI im Vertrieb: Marktentwicklung bei Open-Weight-Modellen
Die Geschwindigkeit der Modellwelt hat sich komisch verändert. 2023 war jeder Monat ein kleiner Schock. 2024 kamen Llama 3, Mixtral, Phi-3, Qwen-Modelle und ein Berg neuer Serving-Stacks. 2025 und Anfang 2026 wurde es für B2B-Sales interessanter, weil die Infrastruktur erwachsen wurde: vLLM, TGI, llama.cpp, TensorRT-LLM, bessere Quantisierung, bessere Guardrails, bessere Evaluationswerkzeuge. Das ist weniger sexy als ein neues Modell. Für den Mittelstand ist es wichtiger.
| Zeitraum | Marktbewegung | Relevanz für B2B-Sales | Meine Einordnung |
|---|---|---|---|
| Dezember 2023 | Mistral veröffentlicht Mixtral-8x7B mit Open Weights | 32k Kontext macht längere Produkt- und Account-Dokumente praktikabler | Erster ernsthafter MoE-Kandidat für EU-nahe Vertriebsarchitekturen |
| April 2024 | Meta veröffentlicht Llama 3 8B und 70B | Starke Basis für Self-Hosted Sales-Copilots | Ab hier wurde Open Source für viele Mittelständler nicht mehr nur Experiment |
| August 2024 | EU AI Act tritt in Kraft | Governance, Risikoklassen und Nachweispflichten landen im Einkauf | Data Residency wird vom IT-Thema zum Sales-Enabler |
| 2025 | Inference-Provider und VPC-Angebote reifen | Llama/Mistral lassen sich ohne eigenes GPU-Team betreiben | Hybrid wird Standard: sensible Daten intern, Spitzenlast extern |
| Q2 2026 | Keine neuen relevanten Llama/Mistral-Sales-Releases in den letzten 7 bis 14 Tagen | Planbarkeit steigt, Architekturentscheidungen sind weniger volatil | Jetzt zählt Implementierung mehr als Modell-News |
Trend 2: Tokenpreise werden zur Vertriebsstrategie
Der zweite Trend klingt nach Controlling und ist genau deshalb wichtig. Tokenpreise entscheiden, ob KI im Vertrieb nur ein Copilot für zehn Key-Account-Manager bleibt oder ob 120 Inside-Sales-Mitarbeiter, SDRs und technische Verkäufer täglich damit arbeiten. Bei gehosteten Open-Model-APIs liegen Llama- und Mistral-Angebote je nach Anbieter und Modell grob zwischen 0,05 und 0,60 US-Dollar pro Million Input Tokens sowie 0,10 bis 1,50 US-Dollar pro Million Output Tokens. Stand Anfang Juni 2026. Bei Self-Hosting und guter Auslastung sehe ich für 8B-Modelle Größenordnungen unter 0,05 bis 0,10 Euro pro Million Tokens; bei 70B oder Mixtral eher 0,10 bis 0,30 Euro. Das sind keine Herstellerpreise. Das sind Betriebsrechnungen mit GPU-Stunden, Auslastung und etwas Schmerz.
Jetzt die Business-Übersetzung. Ein Account-Briefing mit CRM-Daten, Web-Snippets, News, Zusammenfassung und E-Mail-Entwurf kann schnell 8.000 bis 15.000 Tokens verbrauchen. Eine Sequenz mit fünf Varianten, A/B-Texten, Einwandbehandlung und Tonalitätsprüfung liegt höher. Wenn ein Team bei Webasto oder einem ähnlichen Automotive-Zulieferer 2.000 Accounts im Monat bearbeitet, sind das keine Demo-Kosten mehr. Dann wird Tokenökonomie zur Frage: Welche Aufgaben laufen auf 8B? Welche auf 70B? Was wird gecacht? Was wird überhaupt nicht generiert, sondern deterministisch aus Daten gebaut?
Ich halte viele KI-Projekte im Vertrieb für falsch budgetiert. Man rechnet Lizenzkosten pro Nutzer, aber nicht Kosten pro Workflow. Das ist SaaS-Denke aus 2018. Bei LLMs braucht man eine Stückliste: Input Tokens, Output Tokens, Retrieval-Kosten, Embedding-Kosten, GPU-Auslastung, menschliche Review-Zeit, Fehlerkosten. Klingt trocken. Ist Vertriebsmarge.
Latenz ist kein Technikdetail, sondern Akzeptanz
Latenz wird in Vorstandsrunden gern ignoriert, bis der Rollout scheitert. Ein Sales-Mitarbeiter akzeptiert 20 Sekunden Wartezeit für ein tiefes Account-Dossier. Er akzeptiert keine 8 Sekunden für einen Betreffzeilen-Vorschlag. Das ist banal, aber in Architekturen sehe ich diesen Fehler ständig. Man baut einen Copilot, der jedes Mal ein großes Modell aufruft, fünf Tools startet, 20 Chunks zieht und dann wundert man sich, dass die Nutzer wieder selbst schreiben.
Für Voice-Calling wird es noch enger. ASR, LLM, Tool-Call, TTS – die Kette muss unter 1,5 bis 2 Sekunden bleiben, sonst entsteht dieses unangenehme Loch im Gespräch. Man hört es. Ein kleiner Hall im Headset, ein halber Atemzug zu viel, dann weiß der Mensch am anderen Ende: Maschine. 8B-Modelle sind hier oft sinnvoller als größere Modelle, wenn sie mit kurzen Antworten und gecachten Fakten arbeiten. Für komplexe Reasoning-Schritte kann man asynchron nachladen. Der Agent sagt dann nicht alles sofort. Wie ein guter Verkäufer übrigens auch nicht.
Trend 3: RAG schlägt Fine-Tuning im Mittelstand häufiger
Der dritte Trend ist ein Widerspruch zu einem beliebten LinkedIn-Narrativ. Nicht jedes Unternehmen braucht ein fein-getuntes Sales-Modell. In vielen mittelständischen Vertrieben ist RAG der bessere erste Schritt, weil das Problem nicht Stil ist, sondern Kontext. Produktdaten liegen in PDFs, Preislogik in Excel, Referenzen in PowerPoint, Einwände im Kopf von drei Senior-Verkäufern, CRM-Historie in Freitextfeldern. Ein Fine-Tune auf diesem Chaos macht das Modell nicht schlau. Es macht Chaos reproduzierbar.
RAG mit Llama-3-8B oder Mixtral-8x7B funktioniert für Produktberatung, Angebotsentwürfe und Account-Intelligence erstaunlich gut, wenn man Retrieval nicht als Vektorstore-Deko behandelt. Chunk-Größe, Metadaten, Dokumenttypen, Aktualitätsfilter, Berechtigungen, Zitierpflicht, Ranking – das ist die eigentliche Arbeit. Bei technischen Produkten, etwa bei Wittenstein-Antriebstechnik oder Phoenix-Contact-Komponenten, reicht ein semantisch ähnlicher Absatz nicht. Das System muss wissen, ob eine Spezifikation aktuell ist, ob sie für EU oder USA gilt, ob der Kunde OEM oder Integrator ist und ob der Vertrieb überhaupt über den Preis sprechen darf.
Fine-Tuning lohnt sich trotzdem. Aber später. Ich sehe es vor allem bei Tonalität, Klassifikation und wiederkehrenden Schreibmustern. 20.000 bis 50.000 hochwertige E-Mail-Beispiele können helfen, wenn Öffnungs-, Antwort- und Deal-Daten sauber zugeordnet sind. Nur: Die meisten Mittelständler haben diese Daten nicht sauber. Naja, fast. Sie haben sie irgendwo. Nur nicht so, dass ein Modell sie fressen sollte.
| Ansatz | Wann sinnvoll | Typische Modelle | Risiko | Sales-Auswirkung |
|---|---|---|---|---|
| RAG über CRM und Produktdaten | Wenn Wissen aktuell und erklärbar sein muss | Llama-3-8B, Mixtral-8x7B, Llama-3-70B | Schlechtes Retrieval liefert falsche Sicherheit | Bessere Account-Briefings und belastbare Angebotsentwürfe |
| Fine-Tuning / LoRA | Wenn Tonalität, Klassifikation oder Format konstant sind | Llama-3-8B, Mistral-7B, Qwen-Modelle | Training auf schlechten historischen Daten | Konsistentere E-Mails und weniger Nachbearbeitung |
| Regelengine plus LLM | Wenn Preise, Rabatte oder Compliance hart sein müssen | Alle genannten Modelle | Zu viel Logik im Prompt | Weniger Halluzination bei Angeboten |
| Großes Modell als Fallback | Wenn kleine Modelle unsicher sind | Llama-3-70B, gehostete Frontier-Modelle | Kostenexplosion ohne Routing | Qualität für High-Value-Accounts |
Welche Benchmarks für Sales wirklich zählen
MMLU, GSM8K, BIG-Bench, HumanEval, LMSYS Arena – ich schaue mir das alles an. Natürlich. Aber ein Vertriebsleiter bei Brose gewinnt keinen Deal, weil ein Modell in GSM8K besser Kopfrechnen kann. Für Sales zählen andere Benchmarks: Kann das Modell eine Firma korrekt zusammenfassen? Erkennt es Buying-Center-Rollen? Verwechselt es Standort, Tochtergesellschaft und Mutterkonzern? Hält es sich an No-Claims-Regeln? Schreibt es auf Deutsch ohne US-SaaS-Geruch? Und vielleicht am wichtigsten: Fragt es nach, wenn der Kontext fehlt?
Ich nutze gern ein internes Evaluationsset mit echten, anonymisierten Sales-Fällen. 100 Accounts. Je Account CRM-Historie, Website-Auszug, zwei News, Produkt-Mapping und gewünschte nächste Aktion. Dann messen wir nicht nur Textqualität, sondern Faktenpräzision, Quellenbindung, Länge, Tonalität, CTA-Qualität, verbotene Aussagen und Bearbeitungszeit. Ein Llama-3-8B kann dabei ein Llama-3-70B in Teilaufgaben schlagen, wenn der Prompt knapper und das Retrieval besser ist. Das irritiert Leute, die Modelle wie Fußballtabellen lesen.
Ich brauche keinen Bot, der mir erklärt, was unser Produkt macht. Ich brauche ein System, das erkennt, warum dieser eine Einkäufer genau jetzt reden sollte.
— Markus, CSO eines Automatisierungszulieferers, Nürnberg
Markus aus Nürnberg hat recht. Ein Sales-System muss Timing verstehen. Oder genauer: Es muss Timing-Signale so aufbereiten, dass der Mensch handeln kann. Wenn Trumpf eine neue Lasertechnik vorstellt, wenn DMG Mori Kapazitäten verschiebt, wenn ein mittelständischer OEM in Tschechien ein Werk erweitert – dann will der Vertrieb wissen, welche Accounts betroffen sind, welche Referenz passt und wer den ersten Satz schreibt. Nicht nächste Woche. Heute.
Analystenprognosen: Viel Markt, wenig Implementierung
Die Prognosen für GenAI im Unternehmen bleiben groß. Gartner sprach 2024 davon, dass bis 2026 mehr als 80 Prozent der Unternehmen GenAI-APIs oder Modelle nutzen oder GenAI-fähige Anwendungen produktiv einsetzen werden; 2023 lag dieser Anteil noch deutlich niedriger. McKinsey bezifferte das jährliche wirtschaftliche Potenzial generativer KI in seiner 2023er Analyse auf 2,6 bis 4,4 Billionen US-Dollar über viele Funktionen hinweg, mit Marketing und Sales als stark betroffenen Bereichen. IDC und Statista sehen weiter wachsende Ausgaben für KI-Software und Services. Das Problem: Prognosen verkaufen keine Meetings.
| Quelle | Prognose / Zahl | Datum | Relevanz für Mittelstand-Sales | Meine Lesart |
|---|---|---|---|---|
| Gartner | Bis 2026 nutzen über 80 Prozent der Unternehmen GenAI-APIs, Modelle oder GenAI-Anwendungen | 2024 | GenAI wird Standardbestandteil der IT-Landschaft | Der Abstand entsteht nicht beim Zugang, sondern bei Daten und Prozessen |
| McKinsey Global Institute | 2,6 bis 4,4 Billionen US-Dollar jährliches Potenzial durch generative KI | Juni 2023 | Sales und Marketing gehören zu den Funktionen mit hohem Hebel | Der Hebel ist real, aber nur mit Workflow-Integration |
| Bitkom | 20 Prozent der deutschen Unternehmen nutzen KI, 37 Prozent planen oder diskutieren sie | September 2024 | DACH-Markt ist noch nicht gesättigt | Mittelstand kann noch Vorsprung aufbauen, wenn er jetzt sauber implementiert |
| VDMA | Maschinenbau meldete 2024 schwache Auftragseingänge in mehreren Monaten | 2024 | Pipeline-Druck steigt | KI wird nicht eingeführt, weil sie modern ist, sondern weil Vertriebskapazität knapp wird |
Ich misstraue großen Marktprognosen, wenn sie nicht auf Workflows heruntergebrochen werden. „Sales wird produktiver“ ist kein Plan. „Ein SDR schafft pro Woche 60 geprüfte Account-Trigger statt 18, bei gleicher Antwortqualität und dokumentierter Quellenlage“ – das ist ein Plan. Der Unterschied ist nicht sprachlich. Der Unterschied entscheidet, ob CFO und Betriebsrat nicken oder blocken.
Amplifa ICP Playbook — Ein praktischer Einstieg, um Zielkunden, Trigger-Events und Buying-Center sauber zu definieren, bevor ein LLM im Vertrieb Unsinn skaliert.
Was Open-Source-LLMs für den Mittelstand bedeuten
Für einen Vertriebsleiter im Mittelstand bedeutet Open Source zuerst Wahlfreiheit. Nicht absolute Freiheit. Wahlfreiheit. Er kann sensible Daten in einer VPC oder On-Prem halten, Modelle je nach Aufgabe routen, Kosten kontrollieren und eigene Evaluationssets aufbauen. Er kann mit Llama-3-8B starten, Mixtral für längere technische Dokumente nutzen und 70B nur für teure Fälle ziehen. Das ist kein religiöser Wechsel weg von proprietären Modellen. Es ist eine Architekturfrage.
Der zweite Effekt ist organisatorisch. Wenn KI billig genug wird, verschwindet die Ausrede, sie nur für Key Accounts einzusetzen. Dann wird jeder Account zumindest grob angereichert, jeder Lead gegen ICP-Kriterien geprüft, jede CRM-Notiz normalisiert, jede Sequenz auf Relevanz getestet. Das verändert Sales Operations stärker als den einzelnen Verkäufer. Bei einem Kunden aus Nordrhein-Westfalen haben wir gesehen, dass die beste Produktivitätssteigerung nicht aus automatisch geschriebenen Mails kam, sondern aus automatisch abgelehnten Leads. 31 Prozent der eingehenden Kontakte wurden nach klaren Kriterien aus dem SDR-Flow genommen. Kein Mensch hat sie vermisst.
Der dritte Effekt ist politisch. Open-Source-LLMs zwingen Unternehmen, Verantwortung zu übernehmen. Bei einer OpenAI- oder Anthropic-API kann man sich psychologisch hinter dem Anbieter verstecken. Bei Self-Hosting nicht. Wer die Modelle betreibt, muss Logging, Zugriff, Löschkonzepte, Prompt-Injection-Schutz und Output-Kontrolle regeln. Das klingt nach Bremse. Ich sehe es anders: Diese Arbeit hätte der Vertrieb schon vor KI gebraucht, nur hat niemand sie bezahlt.
Was bedeutet das für einen Geschäftsführer?
Ein Geschäftsführer muss nicht wissen, wie RoPE-Scaling funktioniert. Er sollte aber wissen, dass inoffizielle 32k- oder 64k-Kontextvarianten von Llama 3 nicht dasselbe sind wie eine offiziell garantierte Spezifikation. Er sollte verstehen, warum ein 32k-Kontextfenster nicht automatisch bessere Antworten liefert, wenn Retrieval Müll liefert. Und er sollte fragen, ob sein Team Modellqualität misst oder nur Demo-Videos sammelt. Diese Frage ist unangenehm. Gut so.
Technische Architektur: So würde ich 2026 starten
Meine Standardarchitektur für einen mittelständischen Sales-Copilot sieht unspektakulär aus. CRM-Connector, DMS-Connector, Website- und News-Ingestion, Embedding-Pipeline, Vektorstore wie Qdrant oder pgvector, ein Policy-Layer, ein LLM-Router, ein Evaluationsset, Observability. Vorn dran ein UI in Salesforce, HubSpot, Microsoft Dynamics oder als schlanke Web-App. Hinten dran Logs, aber bitte so, dass personenbezogene Daten nicht im Debug-Sumpf landen. Der Geruch von warmem Serverraum-Plastik ist seltener geworden, seit alles in VPCs läuft; die Fehler sind geblieben.
Für Modelle würde ich pragmatisch routen. Llama-3-8B für schnelle Zusammenfassungen, Klassifikation, einfache E-Mail-Entwürfe. Mixtral-8x7B für längere technische Kontexte, mehrsprachige Aufgaben DE/EN/FR und RAG über Produktdokumente. Llama-3-70B für High-Value-Accounts, komplexe Einwandbehandlung und finale Textqualität bei wichtigen Sequenzen. Ein proprietäres Modell als Fallback kann sinnvoll sein, wenn einzelne Fälle hohe Reasoning-Qualität brauchen. Wer daraus eine Glaubensfrage macht, verschwendet Zeit.
Hardware? Für Piloten reicht oft gehostete Inference oder eine VPC. Für produktive Volumina muss man rechnen. Eine A100 40GB für 8B-Modelle ist komfortabel, manchmal überdimensioniert. L40S ist in vielen Setups interessant. 70B braucht mehr Speicher oder aggressivere Quantisierung, dann zahlt man mit Qualität und Latenz. Mixtral ist wegen MoE beim Serving speziell; nicht unmöglich, aber man sollte es nicht am Freitagnachmittag ohne Monitoring ausrollen. Ich habe diesen Fehler gesehen. Der Montag war laut.
Vorbereitung: 7 Schritte für KI im Vertrieb
- Definieren Sie drei konkrete Sales-Workflows, nicht zehn KI-Ideen. Zum Beispiel Account-Briefing, Lead-Scoring nach ICP und E-Mail-Sequenz. Ein Pilot ohne Workflow stirbt in der Demo.
- Bauen Sie ein Evaluationsset mit echten Fällen. 50 bis 100 anonymisierte Accounts reichen für den Start. Messen Sie Faktenfehler, Quellenbindung, Tonalität, Länge und Bearbeitungszeit.
- Trennen Sie Aufgaben nach Modellklasse. 8B für schnelle Standardaufgaben, Mixtral oder 70B für längere Kontexte, Fallback nur bei Bedarf. Kein großes Modell für jede Betreffzeile.
- Bereinigen Sie CRM- und Produktdaten vor dem ersten Rollout. Doppelte Firmennamen, alte PDF-Versionen und Freitextwüsten kosten mehr Qualität als ein schwächeres Modell.
- Legen Sie Tokenbudgets pro Workflow fest. Ein Account-Briefing darf nicht unkontrolliert 40.000 Tokens verbrennen, nur weil jemand alle PDFs in den Kontext kippt.
- Klären Sie Governance mit IT, Datenschutz und Betriebsrat früh. Logging, Zugriff, Löschung, Rollenrechte und menschliche Freigabe gehören in den Plan, nicht in die Nachtschicht.
- Starten Sie mit einem Team, das Pipeline-Druck hat. Nicht mit dem innovativsten Team. Mit dem Team, das ein Problem spürt. Sonst optimieren Sie Neugier, nicht Umsatz.
Amplifa Produkt — Amplifa verbindet ICP-Logik, Account-Recherche und Sales-Automation, damit KI nicht nur Texte erzeugt, sondern Pipeline-Arbeit übernimmt.
FAQ: Welche Open-Source-LLMs eignen sich für B2B-Sales?
Für die meisten Mittelstands-Setups würde ich 2026 mit Llama-3-8B-Instruct oder Mixtral-8x7B-Instruct starten. Llama-3-8B ist schnell, günstig und gut genug für viele Sales-Standardaufgaben. Mixtral bringt 32k Kontext und starke mehrsprachige Fähigkeiten mit, was für EU-Vertrieb, technische Dokumente und längere RAG-Szenarien hilft. Llama-3-70B ist besser für anspruchsvolle Texte und komplexere Einwandbehandlung, aber teurer im Betrieb. Mistral-7B ist interessant, wenn Latenz und Effizienz wichtiger sind als maximale Textqualität.
FAQ: Ist Self-Hosting günstiger als eine API?
Bei hohem Volumen ja, bei kleinen Teams nicht automatisch. Self-Hosting kann bei guter Auslastung für 8B-Modelle unter 0,05 bis 0,10 Euro pro Million Tokens landen; größere Modelle liegen oft eher bei 0,10 bis 0,30 Euro. Aber GPU-Leasing, DevOps, Monitoring, Security und Ausfallzeiten gehören in die Rechnung. Eine API ist zum Start schneller. Self-Hosting wird spannend, wenn Datenhoheit, konstante Last oder Compliance-Vorgaben den Ausschlag geben.
FAQ: Reicht ein 8k-Kontextfenster für Vertrieb?
Oft ja. Nicht, weil 8k viel wäre, sondern weil gutes Retrieval wichtiger ist als riesiger Kontext. Für kurze Account-Briefings, E-Mail-Entwürfe und CRM-Zusammenfassungen reicht 8k meist. Für technische Produktberatung, Ausschreibungen oder längere Angebotslogik helfen 32k Kontext, wie bei Mixtral-8x7B. Ich würde aber nie Kontextfenster als Ersatz für Dokumentenqualität kaufen. Mehr Platz macht schlechte Quellen nur teurer.
FAQ: Können Open-Source-Modelle Deutsch gut genug?
Ja, wenn man sie führt. Llama 3 und Mixtral können Deutsch solide, aber Vertriebssprache im DACH-Mittelstand ist speziell. Sie ist formeller als US-SaaS-Texte, oft technischer, manchmal bewusst knapp. Ein Modell muss Branchenbegriffe, Sie-Ansprache, rechtliche No-Gos und Tonalität lernen oder per Prompt und Policy-Layer begrenzt werden. Bei Festo klingt eine gute Mail anders als bei einem Cybersecurity-Startup in Berlin. Sollte sie auch.
Amplifa ICP Playbook für Sales Teams — Nutzen Sie das Playbook, um Marktsegmente, Trigger und Ausschlusskriterien zu schärfen, bevor Llama oder Mistral Ihre Daten skalieren.
Meine Prognose für 2026 bis 2028
Ich glaube nicht, dass der Mittelstand in den nächsten zwei bis drei Jahren flächendeckend eigene Foundation Models trainiert. Das wird erzählt, weil es gut klingt. Die meisten Unternehmen werden Open-Weight-Modelle nehmen, sie in privaten Umgebungen betreiben, mit RAG und kleinen Adaptern anpassen und über Router mit proprietären Modellen kombinieren. Hybrid gewinnt. Nicht aus Eleganz, sondern weil es funktioniert.
Bis 2028 wird der Unterschied zwischen guten und schlechten Sales-Organisationen weniger daran hängen, ob sie KI einsetzen. Fast alle werden irgendeine KI einsetzen. Der Unterschied wird sein, ob sie ein sauberes ICP haben, ob ihre Daten aktuell sind, ob ihr Modellrouting Kosten kontrolliert, ob sie Quellenpflicht ernst nehmen und ob Sales Ops die Systeme wie Produktionsanlagen betreibt. Trumpf wartet seine Maschinen nicht nach Bauchgefühl. Warum sollte ein Vertrieb seine Pipeline-Automation so betreiben?
Die nächsten Modell-Releases kommen sicher. Vielleicht wieder mit größeren Kontextfenstern, besseren Benchmarks, niedrigeren Preisen. Schön. Aber im Juni 2026 ist die wichtigere Nachricht gerade, dass es keine Nachricht gibt. Llama, Mistral und Co. sind stabil genug, um Arbeit zu erledigen – und genau deshalb wird es für viele Vertriebsorganisationen jetzt unangenehm konkret.