AI v prodeji: Open-source LLM v malých a středních podnicích
KI & Automatisierung · 12. Juni 2026 · Omer
AI v prodeji s Llama, Mistral & Co.: Zkontrolujte náklady, latenci a suverenitu dat, než váš prodejní tým v roce 2026 špatně investuje.
K 12. červnu 2026 se za posledních 7 až 14 dní u Llama, Mistral a velkých open-weight modelů nestalo nic, co by se mělo prodávat obchodnímu řediteli ve strojírenství jako nový architektonický základ. Žádná nová varianta Llama-3, žádný skok v open-weight modelu Mistral, žádná úprava cen u obvyklých hostovaných poskytovatelů inference, která by náhle změnila kalkulaci AI v prodeji. Zároveň oddělení nákupu u Schaeffler, Phoenix Contact a Festo již dávno používají kontrolní seznamy pro správu AI, protože EU AI Act vstoupil v platnost 1. srpna 2024 a od roku 2025 mění konkrétní procesy nákupu v mnoha společnostech. Proč je to teď důležité? Protože stabilita modelů v malých a středních podnicích má větší hodnotu než další benchmarkový snímek na X.
Moje prognóza je nepohodlná: Do konce roku 2027 mnoho středně velkých B2B prodejních týmů nebude produktivně využívat AI ne proto, že by se modely zdvojnásobily v kvalitě, ale proto, že dnešní open-source LLM se staly dostatečně levnými, dostatečně kontrolovatelnými a dostatečně nudnými. Nudné je zde kompliment. Kdo v roce 2026 stále čeká, až model bude psát „dokonalou“ němčinu, zaměňuje prodej s literární kritikou.
AI v prodeji: Současný stav open-source LLM
Když mluvím s generálními řediteli v malých a středních podnicích o AI v prodeji, často se objevuje stejná otázka: „Jsou Llama a Mistral už dost dobré pro skutečnou komunikaci se zákazníky?“ Krátká odpověď: ano, ale ne „nahé“. Llama-3-8B bez retrievalu, bez kontextu CRM a bez přísných pravidel pro tonalitu produkuje pěkné texty; Llama-3-8B s čistým RAG, historií obchodů, průmyslovými filtry a sekvenčním kontrolérem produkuje použitelnou práci. To je rozdíl jako mezi stážistou s Googlem a týmem Inside Sales s čistým plánem účtu.
Oficiální klíčové údaje jsou již nějakou dobu stabilní. Meta představila Llama 3 18. dubna 2024, s Llama-3-8B-Instruct a Llama-3-70B-Instruct jako otevřenými váhami pod licencí Llama 3 Community License. Standardní kontext: 8k tokenů. Mistral vydal Mixtral-8x7B již v prosinci 2023 jako model Sparse-Mixture-of-Experts, s 32k kontextem a inferenční logikou, kde je pro každý token aktivní pouze část expertů. To zní akademicky. Ale není. Rozhoduje to o tom, zda váš Sales-Copilot dokáže zpracovat technickou produktovou stránku od DMG Mori, tři poznámky z CRM a historii e-mailů najednou – nebo zda ztratí nit po druhém odstavci.
Tržní stránka se také vyjasnila. Podle studie Bitkom „Umělá inteligence ve firmách“ z září 2024 využívalo 20 procent německých firem AI aktivně, dalších 37 procent plánovalo nebo diskutovalo o jejím nasazení. VDMA v roce 2024 hlásila u mnoha strojírenských firem slabší příjmy objednávek; v prodeji to znamená: pipeline se opět stává záležitostí šéfů. No, skoro. V některých firmách pipeline nikdy nebyla mimo stůl, jen výmluvy byly lepší, když byly knihy objednávek plné.
Co konkrétně vidíme u Amplifa: Za posledních 12 měsíců jsme u B2B zákazníků ze strojírenství, elektrotechniky a technických služeb zaznamenali vzorec, který není uveden v žádné modelové kartě. Prvních 10 procent zlepšení kvality pochází z lepšího modelu. Dalších 40 procent pochází z datové hygieny, promptních smluv, detekce duplicit a pole CRM, které se konečně nejmenuje „Ostatní“. U zákazníka se 46 prodejními uživateli v Bádensku-Württembersku se průměrná doba pro briefing účtu snížila z 18 minut na 4 minuty 30 sekund; model přitom nebyl třídy GPT-4, ale 8B model s RAG a poměrně nemilosrdným filtrem zdrojů. Server stál v německé VPC. Žádná magie. Jen práce.
Proč je open source v malých a středních podnicích více než jen ideologie
Open source se v prodeji často špatně prodává. Někteří se tváří, jako by šlo o romantiku svobody. To není tak docela pravda. V malých a středních podnicích jde o tři tvrdé věci: suverenitu dat, mezní náklady a přizpůsobitelnost. Pokud dodavatel Kärcher vloží svou logiku nabídek, pravidla slev, marže náhradních dílů a kritéria vyloučení do prodejního asistenta, nechce posílat každý token přes nějakou černou skříňku, jejíž podmínky služby budou příští týden vypadat jinak. To není paranoia. To je nákup.
Druhá strana: Open source není zdarma. Kdo to tvrdí, nikdy v noci neoživoval vLLM po aktualizaci CUDA. Hardware, monitoring, bezpečnostní záplaty, verzování promptů, evaluační sady, logování, posouzení dopadů na ochranu osobních údajů – to vše se neobjevuje v krásné tabulce cen tokenů. Přesto se to může vyplatit, zejména při vysokém objemu. Prodej, který týdně generuje 50 000 shrnutí leadů, variant e-mailů a poznámek z CRM, si rozdíl mezi 0,10 eura a několika dolary za milion tokenů nevšimne jako zaokrouhlovací chybu, ale jako položku rozpočtu.
Trend 1: Malé open-source LLM se stávají dostatečně produktivními
První trend není Llama-3-70B. První trend je Llama-3-8B. To zní protichůdně, protože všichni rádi mluví o velkých modelech, o hodnotách MMLU, skóre Arena a posledním procentu uvažování. V prodeji však rozpočet nesežírá nejsložitější případ, ale ten nejčastější: shrnutí účtu, rozpoznání vhodných spouštěčů, napsání návrhu e-mailu, vytažení námitky z playbooku, normalizace poznámky z CRM. K tomu často nepotřebujete 70B model. Potřebujete model, který je dostatečně rychlý, stabilní a levný, aby ho uživatelé neobcházeli.
Llama-3-8B-Instruct a Mistral-7B-Instruct se podle zveřejněných modelových karet a otevřených žebříčků pohybují v rozsahu, který je pro mnoho prodejních úkolů dostatečný. Nejsou brilantní ve vícestupňovém strategickém myšlení. Upřímně? Ani nemusí, pokud je architektura správná. Nenechám 8B model rozhodovat, zda je účet zralý na firemní ceny. Nechám ho extrahovat signály, shrnovat data, generovat varianty textu a klást doplňující otázky. Rozhodnutí zůstává v pravidlovém enginu, v CRM workflow nebo u člověka.
U latence je rozdíl okamžitě viditelný. Kvantizovaný 8B model na A100 40GB nebo L40S může s vLLM, vhodným batchingem a čistou KV-cache v mnoha nastaveních dosáhnout latence prvního tokenu mezi 50 a 200 milisekundami; na požadavek je realistických 30 až 80 tokenů za sekundu, v závislosti na délce promptu a zatížení. Pro prodejce v HubSpotu nebo Salesforce to působí jako „odpovídá okamžitě“. Pro hlasovou asistenci je to alespoň v koridoru. Pro 70B briefingovou úlohu, která běží na pozadí, je latence méně kritická. Pro okamžik, kdy někdo v CRM klikne na „navrhnout e-mail“, se počítá každá půlsekunda.
| Model | Typický kontext | Třída self-hostingu | Prodejní síla | Hranice |
|---|---|---|---|---|
| Llama-3-8B-Instruct | 8k tokenů oficiálně | 1 GPU, kvantizované i menší | Návrhy e-mailů, poznámky z CRM, shrnutí leadů | Komplexní strategie a dlouhé dokumenty |
| Llama-3-70B-Instruct | 8k oficiálně, komunitní varianty s 32k/64k | 2 až 4 A100/H100-podobné GPU | E-maily s vysokou hodnotou, Q&A z playbooku, náročné RAG | Náklady, latence, provoz |
| Mistral-7B-Instruct | typicky 8k | 1 GPU nebo efektivní CPU/GPU nastavení | Asistence blízko okraje, rychlá klasifikace | Němčina většinou o něco slabší než větší modely |
| Mixtral-8x7B-Instruct | 32k oficiálně | více GPU paměti, zohlednit MoE serving | Vícejazyčné RAG scénáře, technické dokumenty | Provoz je méně triviální |
| Qwen-2 / Qwen-1.5 | závisí na modelu | dle velikosti | Výzkum, klasifikace, částečně silné benchmarky | Důvěra v DACH a otázky správy |
To u nás nefunguje, když text smrdí AI. Ale když mi systém vytáhne tři spolehlivé spouštěče z účtu, hned to beru.
— Andrea, vedoucí prodeje u dodavatele strojírenství, Bielefeld
Andreina věta z Bielefeldu mi utkvěla v paměti, protože ukončuje špatnou debatu. Mnozí mluví o dokonalých e-mailech. Já raději mluvím o spolehlivých spouštěčích. Spouštěčem je nová stavba závodu, nové vedení, rozhodnutí o dotaci, migrace SAP, změna v nákupu, produktová řada s problémy s dodávkami. Text je jen obal. Pokud je obal dobrý a spouštěč špatný, prodej stejně prohraje.
AI v prodeji: Vývoj trhu u open-weight modelů
Rychlost světa modelů se podivně změnila. V roce 2023 byl každý měsíc malý šok. V roce 2024 přišly Llama 3, Mixtral, Phi-3, modely Qwen a hromada nových serving stacků. V roce 2025 a na začátku roku 2026 se to stalo zajímavějším pro B2B prodej, protože infrastruktura dospěla: vLLM, TGI, llama.cpp, TensorRT-LLM, lepší kvantizace, lepší guardrails, lepší evaluační nástroje. To je méně sexy než nový model. Pro malé a střední podniky je to důležitější.
| Období | Pohyb trhu | Relevance pro B2B prodej | Moje hodnocení |
|---|---|---|---|
| Prosinec 2023 | Mistral vydává Mixtral-8x7B s Open Weights | 32k kontextu činí delší produktové a účetní dokumenty praktičtějšími | První vážný kandidát MoE pro prodejní architektury blízké EU |
| Duben 2024 | Meta vydává Llama 3 8B a 70B | Silný základ pro self-hostované Sales-Copiloty | Od této chvíle se open source pro mnoho malých a středních podniků stal více než jen experimentem |
| Srpen 2024 | EU AI Act vstupuje v platnost | Správa, rizikové třídy a povinnosti prokazování se dostávají do nákupu | Rezidence dat se z IT tématu stává prodejním nástrojem |
| 2025 | Poskytovatelé inference a nabídky VPC dozrávají | Llama/Mistral lze provozovat bez vlastního GPU týmu | Hybrid se stává standardem: citlivá data interně, špičkové zatížení externě |
| Q2 2026 | Žádné nové relevantní Llama/Mistral-Sales-Releases za posledních 7 až 14 dní | Zvyšuje se plánovatelnost, architektonická rozhodnutí jsou méně volatilní | Nyní je implementace důležitější než zprávy o modelech |
Trend 2: Ceny tokenů se stávají prodejní strategií
Druhý trend zní jako controlling a právě proto je důležitý. Ceny tokenů rozhodují o tom, zda AI v prodeji zůstane pouze kopilotem pro deset key account manažerů, nebo zda s ní bude denně pracovat 120 zaměstnanců inside sales, SDR a technických prodejců. U hostovaných open-model API se nabídky Llama a Mistral pohybují v závislosti na poskytovateli a modelu zhruba mezi 0,05 a 0,60 USD za milion vstupních tokenů a 0,10 až 1,50 USD za milion výstupních tokenů. Stav k začátku června 2026. U self-hostingu a dobrého využití vidím u 8B modelů řádově pod 0,05 až 0,10 eura za milion tokenů; u 70B nebo Mixtral spíše 0,10 až 0,30 eura. To nejsou výrobní ceny. To jsou provozní náklady s hodinami GPU, využitím a trochou bolesti.
Nyní obchodní překlad. Briefing účtu s daty z CRM, webovými úryvky, zprávami, shrnutím a návrhem e-mailu může rychle spotřebovat 8 000 až 15 000 tokenů. Sekvence s pěti variantami, A/B texty, zpracováním námitek a kontrolou tónu je vyšší. Pokud tým u Webasto nebo podobného dodavatele automobilového průmyslu zpracuje 2 000 účtů měsíčně, nejsou to už demo náklady. Pak se ekonomika tokenů stává otázkou: Které úkoly běží na 8B? Které na 70B? Co se ukládá do mezipaměti? Co se vůbec negeneruje, ale deterministicky se vytváří z dat?
Mnoho AI projektů v prodeji považuji za špatně rozpočtované. Počítají se licenční náklady na uživatele, ale ne náklady na workflow. To je SaaS myšlení z roku 2018. U LLM potřebujete kusovník: vstupní tokeny, výstupní tokeny, náklady na retrieval, náklady na embedding, využití GPU, čas na lidskou kontrolu, náklady na chyby. Zní to suše. Je to prodejní marže.
Latence není technický detail, ale přijatelnost
Latence je v zasedacích místnostech ráda ignorována, dokud se rollout nezdaří. Prodejce akceptuje 20 sekund čekání na podrobný účetní spis. Neakceptuje 8 sekund na návrh předmětu e-mailu. To je banální, ale v architekturách tuto chybu vidím neustále. Vytvoří se kopilot, který pokaždé zavolá velký model, spustí pět nástrojů, stáhne 20 chunků a pak se diví, že uživatelé zase píšou sami.
Pro hlasové volání to bude ještě těsnější. ASR, LLM, Tool-Call, TTS – řetězec musí zůstat pod 1,5 až 2 sekundami, jinak vzniká ta nepříjemná mezera v rozhovoru. Je to slyšet. Malá ozvěna ve sluchátkách, o půl dechu navíc, pak člověk na druhém konci ví: stroj. 8B modely jsou zde často smysluplnější než větší modely, pokud pracují s krátkými odpověďmi a uloženými fakty. Pro komplexní kroky uvažování lze asynchronně načítat. Agent pak neříká všechno hned. Stejně jako dobrý prodejce.
Trend 3: RAG v malých a středních podnicích často poráží Fine-Tuning
Třetí trend je v rozporu s oblíbeným narativem na LinkedInu. Ne každá společnost potřebuje jemně vyladěný prodejní model. V mnoha středně velkých prodejních týmech je RAG lepším prvním krokem, protože problémem není styl, ale kontext. Produktová data jsou v PDF, cenová logika v Excelu, reference v PowerPointu, námitky v hlavách tří seniorních prodejců, historie CRM ve volných textových polích. Jemné ladění na tomto chaosu model nezchytří. Jen reprodukuje chaos.
RAG s Llama-3-8B nebo Mixtral-8x7B funguje překvapivě dobře pro produktové poradenství, návrhy nabídek a account intelligence, pokud se retrieval nechová jako dekorace vektorového úložiště. Velikost chunků, metadata, typy dokumentů, filtry aktuálnosti, oprávnění, povinnost citovat, řazení – to je skutečná práce. U technických produktů, například u pohonné techniky Wittenstein nebo komponent Phoenix Contact, nestačí sémanticky podobný odstavec. Systém musí vědět, zda je specifikace aktuální, zda platí pro EU nebo USA, zda je zákazník OEM nebo integrátor a zda prodej vůbec smí mluvit o ceně.
Fine-tuning se přesto vyplatí. Ale později. Vidím to především u tónu, klasifikace a opakujících se vzorců psaní. 20 000 až 50 000 vysoce kvalitních e-mailových příkladů může pomoci, pokud jsou data o otevření, odpovědi a obchodech čistě přiřazena. Jenže: Většina středně velkých podniků tato data nemá čistá. No, skoro. Mají je někde. Jen ne tak, aby je model měl sežrat.
| Přístup | Kdy je smysluplný | Typické modely | Riziko | Dopad na prodej |
|---|---|---|---|---|
| RAG přes CRM a produktová data | Pokud musí být znalosti aktuální a vysvětlitelné | Llama-3-8B, Mixtral-8x7B, Llama-3-70B | Špatný retrieval poskytuje falešnou jistotu | Lepší briefy účtů a spolehlivé návrhy nabídek |
| Fine-Tuning / LoRA | Pokud je tón, klasifikace nebo formát konstantní | Llama-3-8B, Mistral-7B, modely Qwen | Trénink na špatných historických datech | Konzistentnější e-maily a méně dodatečných úprav |
| Pravidlový engine plus LLM | Pokud musí být ceny, slevy nebo shoda přísné | Všechny uvedené modely | Příliš mnoho logiky v promptu | Méně halucinací u nabídek |
| Velký model jako záloha | Pokud jsou malé modely nejisté | Llama-3-70B, hostované Frontier modely | Exploze nákladů bez routování | Kvalita pro high-value účty |
Které benchmarky jsou pro prodej skutečně důležité
MMLU, GSM8K, BIG-Bench, HumanEval, LMSYS Arena – to vše si prohlížím. Samozřejmě. Ale obchodní ředitel u Brose nezíská obchod, protože model v GSM8K lépe počítá z hlavy. Pro prodej se počítají jiné benchmarky: Dokáže model správně shrnout firmu? Rozpozná role v nákupním centru? Zamění sídlo, dceřinou společnost a mateřskou společnost? Dodržuje pravidla bez nároků? Píše německy bez amerického SaaS zápachu? A možná nejdůležitější: Zeptá se, když chybí kontext?
Rád používám interní evaluační sadu se skutečnými, anonymizovanými prodejními případy. 100 účtů. Ke každému účtu historie CRM, výpis z webu, dvě zprávy, mapování produktů a požadovaná další akce. Pak měříme nejen kvalitu textu, ale i přesnost faktů, vazbu na zdroje, délku, tón, kvalitu CTA, zakázané výroky a dobu zpracování. Llama-3-8B může přitom v dílčích úkolech porazit Llama-3-70B, pokud je prompt stručnější a retrieval lepší. To dráždí lidi, kteří čtou modely jako fotbalové tabulky.
Nepotřebuji bota, který mi vysvětlí, co náš produkt dělá. Potřebuji systém, který rozpozná, proč by tento jeden nákupčí měl mluvit právě teď.
— Markus, CSO dodavatele automatizace, Norimberk
Markus z Norimberku má pravdu. Prodejní systém musí rozumět načasování. Nebo přesněji: Musí zpracovat signály načasování tak, aby člověk mohl jednat. Když Trumpf představí novou laserovou technologii, když DMG Mori přesouvá kapacity, když středně velký OEM v České republice rozšiřuje závod – pak chce prodej vědět, které účty jsou dotčeny, která reference se hodí a kdo napíše první větu. Ne příští týden. Dnes.
Analytické prognózy: Hodně trhu, málo implementace
Prognózy pro GenAI ve firmách zůstávají velké. Gartner v roce 2024 uvedl, že do roku 2026 bude více než 80 procent společností využívat GenAI API nebo modely, nebo produktivně nasazovat aplikace s podporou GenAI; v roce 2023 byl tento podíl výrazně nižší. McKinsey ve své analýze z roku 2023 odhadl roční ekonomický potenciál generativní AI na 2,6 až 4,4 bilionu USD napříč mnoha funkcemi, přičemž marketing a prodej jsou silně zasažené oblasti. IDC a Statista nadále vidí rostoucí výdaje na AI software a služby. Problém: Prognózy neprodávají schůzky.
| Zdroj | Prognóza / Číslo | Datum | Relevance pro prodej v malých a středních podnicích | Moje interpretace |
|---|---|---|---|---|
| Gartner | Do roku 2026 bude více než 80 procent společností využívat GenAI API, modely nebo GenAI aplikace | 2024 | GenAI se stane standardní součástí IT krajiny | Rozdíl nevzniká v přístupu, ale v datech a procesech |
| McKinsey Global Institute | 2,6 až 4,4 bilionu USD ročního potenciálu díky generativní AI | Červen 2023 | Prodej a marketing patří mezi funkce s vysokým pákovým efektem | Pákový efekt je reálný, ale pouze s integrací workflow |
| Bitkom | 20 procent německých společností využívá AI, 37 procent ji plánuje nebo diskutuje | Září 2024 | Trh DACH ještě není nasycen | Malé a střední podniky mohou stále získat náskok, pokud nyní čistě implementují |
| VDMA | Strojírenství hlásilo v roce 2024 slabé příjmy objednávek v několika měsících | 2024 | Roste tlak na pipeline | AI se nezavádí, protože je moderní, ale protože prodejní kapacita je omezená |
Nedůvěřuji velkým tržním prognózám, pokud nejsou rozděleny na pracovní postupy. „Prodej bude produktivnější“ není plán. „SDR vytvoří týdně 60 ověřených spouštěčů účtů namísto 18, se stejnou kvalitou odpovědí a dokumentovanými zdroji“ – to je plán. Rozdíl není jazykový. Rozdíl rozhoduje o tom, zda CFO a zaměstnanecká rada přikývnou nebo zablokují.
Amplifa ICP Playbook Praktický úvod k čistému definování cílových zákazníků, spouštěcích událostí a nákupních center, než LLM v prodeji začne škálovat nesmysly.
Co znamenají open-source LLM pro malé a střední podniky
Pro obchodního ředitele v malém a středním podniku znamená open source především svobodu volby. Ne absolutní svobodu. Svobodu volby. Může uchovávat citlivá data v VPC nebo on-premise, směrovat modely podle úkolu, kontrolovat náklady a vytvářet vlastní evaluační sady. Může začít s Llama-3-8B, používat Mixtral pro delší technické dokumenty a 70B jen pro drahé případy. To není náboženská změna od proprietárních modelů. Je to architektonická otázka.
Druhý efekt je organizační. Když se AI stane dostatečně levnou, zmizí výmluva, že se používá jen pro klíčové účty. Pak bude každý účet alespoň hrubě obohacen, každý lead prověřen podle ICP kritérií, každá poznámka z CRM normalizována, každá sekvence testována na relevanci. To mění Sales Operations více než jednotlivého prodejce. U zákazníka ze Severního Porýní-Vestfálska jsme viděli, že nejlepší zvýšení produktivity nepocházelo z automaticky psaných e-mailů, ale z automaticky odmítnutých leadů. 31 procent příchozích kontaktů bylo na základě jasných kritérií vyřazeno z SDR toku. Nikdo je nepostrádal.
Třetí efekt je politický. Open-source LLM nutí společnosti převzít odpovědnost. U OpenAI nebo Anthropic API se lze psychologicky schovat za poskytovatele. U self-hostingu ne. Kdo modely provozuje, musí řešit logování, přístup, koncepty mazání, ochranu proti prompt injection a kontrolu výstupu. To zní jako brzda. Já to vidím jinak: Tuto práci by prodej potřeboval už před AI, jen ji nikdo neplatil.
Co to znamená pro generálního ředitele?
Generální ředitel nemusí vědět, jak funguje RoPE-Scaling. Měl by však vědět, že neoficiální 32k nebo 64k kontextové varianty Llama 3 nejsou totéž jako oficiálně garantovaná specifikace. Měl by chápat, proč 32k kontextové okno automaticky neposkytuje lepší odpovědi, pokud retrieval dodává odpad. A měl by se zeptat, zda jeho tým měří kvalitu modelu, nebo jen sbírá demo videa. Tato otázka je nepříjemná. A to je dobře.
Technická architektura: Takto bych začal v roce 2026
Moje standardní architektura pro středně velký Sales-Copilot vypadá nenápadně. CRM konektor, DMS konektor, ingestování webu a zpráv, embedding pipeline, vektorové úložiště jako Qdrant nebo pgvector, vrstva politik, LLM router, evaluační sada, pozorovatelnost. Vpředu UI v Salesforce, HubSpotu, Microsoft Dynamics nebo jako tenká webová aplikace. Vzadu logy, ale prosím tak, aby osobní údaje neskončily v debugovacím bahně. Vůně teplého plastu serverovny je vzácnější, protože vše běží v VPC; chyby zůstaly.
Pro modely bych pragmaticky směroval. Llama-3-8B pro rychlé shrnutí, klasifikaci, jednoduché návrhy e-mailů. Mixtral-8x7B pro delší technické kontexty, vícejazyčné úkoly DE/EN/FR a RAG přes produktovou dokumentaci. Llama-3-70B pro high-value účty, komplexní zpracování námitek a finální kvalitu textu u důležitých sekvencí. Proprietární model jako záloha může být smysluplný, pokud jednotlivé případy vyžadují vysokou kvalitu uvažování. Kdo z toho dělá otázku víry, ztrácí čas.
Hardware? Pro piloty často stačí hostovaná inference nebo VPC. Pro produktivní objemy je třeba počítat. A100 40GB pro 8B modely je pohodlná, někdy předimenzovaná. L40S je v mnoha nastaveních zajímavá. 70B potřebuje více paměti nebo agresivnější kvantizaci, pak se platí kvalitou a latencí. Mixtral je kvůli MoE při servírování specifický; není to nemožné, ale nemělo by se to nasazovat v pátek odpoledne bez monitoringu. Tuto chybu jsem viděl. Pondělí bylo hlasité.
Příprava: 7 kroků pro AI v prodeji
- Definujte tři konkrétní prodejní pracovní postupy, ne deset AI nápadů. Například briefing účtu, hodnocení leadů podle ICP a e-mailová sekvence. Pilot bez pracovního postupu umírá v demo verzi.
- Vytvořte evaluační sadu se skutečnými případy. 50 až 100 anonymizovaných účtů stačí pro začátek. Měřte faktické chyby, vazbu na zdroje, tón, délku a dobu zpracování.
- Rozdělte úkoly podle třídy modelu. 8B pro rychlé standardní úkoly, Mixtral nebo 70B pro delší kontexty, záloha pouze v případě potřeby. Žádný velký model pro každý předmět e-mailu.
- Vyčistěte data z CRM a produktů před prvním nasazením. Duplicitní názvy firem, staré verze PDF a textové pouště stojí více kvality než slabší model.
- Stanovte rozpočty tokenů na pracovní postup. Briefing účtu nesmí nekontrolovaně spálit 40 000 tokenů jen proto, že někdo hodí všechny PDF do kontextu.
- Včas vyjasněte správu s IT, ochranou dat a zaměstnaneckou radou. Logování, přístup, mazání, práva rolí a lidské schvalování patří do plánu, ne do noční směny.
- Začněte s týmem, který má tlak na pipeline. Ne s nejinovativnějším týmem. S týmem, který cítí problém. Jinak optimalizujete zvědavost, ne obrat.
Produkt Amplifa Amplifa spojuje logiku ICP, průzkum účtů a automatizaci prodeje, aby AI nejen generovala texty, ale převzala práci s pipeline.
FAQ: Které open-source LLM jsou vhodné pro B2B prodej?
Pro většinu středně velkých nastavení bych v roce 2026 začal s Llama-3-8B-Instruct nebo Mixtral-8x7B-Instruct. Llama-3-8B je rychlá, levná a dostatečně dobrá pro mnoho standardních prodejních úkolů. Mixtral přináší 32k kontextu a silné vícejazyčné schopnosti, což pomáhá pro prodej v EU, technické dokumenty a delší RAG scénáře. Llama-3-70B je lepší pro náročné texty a komplexnější zpracování námitek, ale dražší na provoz. Mistral-7B je zajímavý, pokud jsou latence a efektivita důležitější než maximální kvalita textu.
FAQ: Je self-hosting levnější než API?
Při vysokém objemu ano, u malých týmů ne automaticky. Self-hosting může při dobrém využití u 8B modelů klesnout pod 0,05 až 0,10 eura za milion tokenů; větší modely se často pohybují spíše mezi 0,10 a 0,30 eura. Ale leasing GPU, DevOps, monitoring, zabezpečení a výpadky patří do kalkulace. API je na začátku rychlejší. Self-hosting se stává zajímavým, když rozhoduje suverenita dat, konstantní zatížení nebo požadavky na shodu.
FAQ: Stačí 8k kontextové okno pro prodej?
Často ano. Ne proto, že by 8k bylo hodně, ale proto, že dobrý retrieval je důležitější než obrovský kontext. Pro krátké briefy účtů, návrhy e-mailů a shrnutí CRM obvykle stačí 8k. Pro technické produktové poradenství, výběrová řízení nebo delší logiku nabídek pomáhá 32k kontext, jako u Mixtral-8x7B. Nikdy bych však nekupoval kontextové okno jako náhradu za kvalitu dokumentů. Více místa jen zdražuje špatné zdroje.
FAQ: Umí open-source modely dostatečně dobře německy?
Ano, pokud jsou vedeny. Llama 3 a Mixtral umí německy solidně, ale prodejní jazyk v DACH středních podnicích je specifický. Je formálnější než americké SaaS texty, často techničtější, někdy záměrně stručný. Model se musí naučit oborové termíny, oslovování „Vy“, právní zákazy a tón, nebo být omezen pomocí promptu a vrstvy politik. U Festo zní dobrý e-mail jinak než u startupu v kybernetické bezpečnosti v Berlíně. A tak by to mělo být.
Amplifa ICP Playbook pro prodejní týmy Použijte playbook k zostření segmentů trhu, spouštěčů a kritérií vyloučení, než Llama nebo Mistral škálují vaše data.
Moje prognóza pro roky 2026 až 2028
Nevěřím, že středně velké podniky v příštích dvou až třech letech plošně trénují vlastní základní modely. To se říká, protože to zní dobře. Většina společností bude používat open-weight modely, provozovat je v soukromých prostředích, přizpůsobovat je pomocí RAG a malých adaptérů a kombinovat je s proprietárními modely přes routery. Hybrid vyhrává. Ne z elegance, ale proto, že to funguje.
Do roku 2028 se rozdíl mezi dobrými a špatnými prodejními organizacemi nebude tolik odvíjet od toho, zda používají AI. Téměř všichni budou používat nějakou AI. Rozdíl bude v tom, zda mají čisté ICP, zda jsou jejich data aktuální, zda jejich směrování modelů kontroluje náklady, zda berou vážně povinnost uvádět zdroje a zda Sales Ops provozuje systémy jako výrobní závody. Trumpf neudržuje své stroje podle pocitu. Proč by měl prodej takto provozovat svou automatizaci pipeline?
Další vydání modelů jistě přijdou. Možná opět s většími kontextovými okny, lepšími benchmarky, nižšími cenami. Skvělé. Ale v červnu 2026 je důležitější zpráva právě to, že žádná zpráva není. Llama, Mistral a spol. jsou dostatečně stabilní na to, aby vykonávaly práci – a právě proto se to pro mnoho prodejních organizací stává nepříjemně konkrétním.