Amplifa – Prodejní platforma s AI pro průmyslové B2B

AI v prodeji: Open-source LLM v malých a středních podnicích

KI & Automatisierung · 12. Juni 2026 · Omer

AI v prodeji s Llama, Mistral & Co.: Zkontrolujte náklady, latenci a suverenitu dat, než váš prodejní tým v roce 2026 špatně investuje.

K 12. červnu 2026 se za posledních 7 až 14 dní u Llama, Mistral a velkých open-weight modelů nestalo nic, co by se mělo prodávat obchodnímu řediteli ve strojírenství jako nový architektonický základ. Žádná nová varianta Llama-3, žádný skok v open-weight modelu Mistral, žádná úprava cen u obvyklých hostovaných poskytovatelů inference, která by náhle změnila kalkulaci AI v prodeji. Zároveň oddělení nákupu u Schaeffler, Phoenix Contact a Festo již dávno používají kontrolní seznamy pro správu AI, protože EU AI Act vstoupil v platnost 1. srpna 2024 a od roku 2025 mění konkrétní procesy nákupu v mnoha společnostech. Proč je to teď důležité? Protože stabilita modelů v malých a středních podnicích má větší hodnotu než další benchmarkový snímek na X.

Moje prognóza je nepohodlná: Do konce roku 2027 mnoho středně velkých B2B prodejních týmů nebude produktivně využívat AI ne proto, že by se modely zdvojnásobily v kvalitě, ale proto, že dnešní open-source LLM se staly dostatečně levnými, dostatečně kontrolovatelnými a dostatečně nudnými. Nudné je zde kompliment. Kdo v roce 2026 stále čeká, až model bude psát „dokonalou“ němčinu, zaměňuje prodej s literární kritikou.

AI v prodeji: Současný stav open-source LLM

Když mluvím s generálními řediteli v malých a středních podnicích o AI v prodeji, často se objevuje stejná otázka: „Jsou Llama a Mistral už dost dobré pro skutečnou komunikaci se zákazníky?“ Krátká odpověď: ano, ale ne „nahé“. Llama-3-8B bez retrievalu, bez kontextu CRM a bez přísných pravidel pro tonalitu produkuje pěkné texty; Llama-3-8B s čistým RAG, historií obchodů, průmyslovými filtry a sekvenčním kontrolérem produkuje použitelnou práci. To je rozdíl jako mezi stážistou s Googlem a týmem Inside Sales s čistým plánem účtu.

Oficiální klíčové údaje jsou již nějakou dobu stabilní. Meta představila Llama 3 18. dubna 2024, s Llama-3-8B-Instruct a Llama-3-70B-Instruct jako otevřenými váhami pod licencí Llama 3 Community License. Standardní kontext: 8k tokenů. Mistral vydal Mixtral-8x7B již v prosinci 2023 jako model Sparse-Mixture-of-Experts, s 32k kontextem a inferenční logikou, kde je pro každý token aktivní pouze část expertů. To zní akademicky. Ale není. Rozhoduje to o tom, zda váš Sales-Copilot dokáže zpracovat technickou produktovou stránku od DMG Mori, tři poznámky z CRM a historii e-mailů najednou – nebo zda ztratí nit po druhém odstavci.

Tržní stránka se také vyjasnila. Podle studie Bitkom „Umělá inteligence ve firmách“ z září 2024 využívalo 20 procent německých firem AI aktivně, dalších 37 procent plánovalo nebo diskutovalo o jejím nasazení. VDMA v roce 2024 hlásila u mnoha strojírenských firem slabší příjmy objednávek; v prodeji to znamená: pipeline se opět stává záležitostí šéfů. No, skoro. V některých firmách pipeline nikdy nebyla mimo stůl, jen výmluvy byly lepší, když byly knihy objednávek plné.

Co konkrétně vidíme u Amplifa: Za posledních 12 měsíců jsme u B2B zákazníků ze strojírenství, elektrotechniky a technických služeb zaznamenali vzorec, který není uveden v žádné modelové kartě. Prvních 10 procent zlepšení kvality pochází z lepšího modelu. Dalších 40 procent pochází z datové hygieny, promptních smluv, detekce duplicit a pole CRM, které se konečně nejmenuje „Ostatní“. U zákazníka se 46 prodejními uživateli v Bádensku-Württembersku se průměrná doba pro briefing účtu snížila z 18 minut na 4 minuty 30 sekund; model přitom nebyl třídy GPT-4, ale 8B model s RAG a poměrně nemilosrdným filtrem zdrojů. Server stál v německé VPC. Žádná magie. Jen práce.

Proč je open source v malých a středních podnicích více než jen ideologie

Open source se v prodeji často špatně prodává. Někteří se tváří, jako by šlo o romantiku svobody. To není tak docela pravda. V malých a středních podnicích jde o tři tvrdé věci: suverenitu dat, mezní náklady a přizpůsobitelnost. Pokud dodavatel Kärcher vloží svou logiku nabídek, pravidla slev, marže náhradních dílů a kritéria vyloučení do prodejního asistenta, nechce posílat každý token přes nějakou černou skříňku, jejíž podmínky služby budou příští týden vypadat jinak. To není paranoia. To je nákup.

Druhá strana: Open source není zdarma. Kdo to tvrdí, nikdy v noci neoživoval vLLM po aktualizaci CUDA. Hardware, monitoring, bezpečnostní záplaty, verzování promptů, evaluační sady, logování, posouzení dopadů na ochranu osobních údajů – to vše se neobjevuje v krásné tabulce cen tokenů. Přesto se to může vyplatit, zejména při vysokém objemu. Prodej, který týdně generuje 50 000 shrnutí leadů, variant e-mailů a poznámek z CRM, si rozdíl mezi 0,10 eura a několika dolary za milion tokenů nevšimne jako zaokrouhlovací chybu, ale jako položku rozpočtu.

Trend 1: Malé open-source LLM se stávají dostatečně produktivními

První trend není Llama-3-70B. První trend je Llama-3-8B. To zní protichůdně, protože všichni rádi mluví o velkých modelech, o hodnotách MMLU, skóre Arena a posledním procentu uvažování. V prodeji však rozpočet nesežírá nejsložitější případ, ale ten nejčastější: shrnutí účtu, rozpoznání vhodných spouštěčů, napsání návrhu e-mailu, vytažení námitky z playbooku, normalizace poznámky z CRM. K tomu často nepotřebujete 70B model. Potřebujete model, který je dostatečně rychlý, stabilní a levný, aby ho uživatelé neobcházeli.

Llama-3-8B-Instruct a Mistral-7B-Instruct se podle zveřejněných modelových karet a otevřených žebříčků pohybují v rozsahu, který je pro mnoho prodejních úkolů dostatečný. Nejsou brilantní ve vícestupňovém strategickém myšlení. Upřímně? Ani nemusí, pokud je architektura správná. Nenechám 8B model rozhodovat, zda je účet zralý na firemní ceny. Nechám ho extrahovat signály, shrnovat data, generovat varianty textu a klást doplňující otázky. Rozhodnutí zůstává v pravidlovém enginu, v CRM workflow nebo u člověka.

U latence je rozdíl okamžitě viditelný. Kvantizovaný 8B model na A100 40GB nebo L40S může s vLLM, vhodným batchingem a čistou KV-cache v mnoha nastaveních dosáhnout latence prvního tokenu mezi 50 a 200 milisekundami; na požadavek je realistických 30 až 80 tokenů za sekundu, v závislosti na délce promptu a zatížení. Pro prodejce v HubSpotu nebo Salesforce to působí jako „odpovídá okamžitě“. Pro hlasovou asistenci je to alespoň v koridoru. Pro 70B briefingovou úlohu, která běží na pozadí, je latence méně kritická. Pro okamžik, kdy někdo v CRM klikne na „navrhnout e-mail“, se počítá každá půlsekunda.

ModelTypický kontextTřída self-hostinguProdejní sílaHranice
Llama-3-8B-Instruct8k tokenů oficiálně1 GPU, kvantizované i menšíNávrhy e-mailů, poznámky z CRM, shrnutí leadůKomplexní strategie a dlouhé dokumenty
Llama-3-70B-Instruct8k oficiálně, komunitní varianty s 32k/64k2 až 4 A100/H100-podobné GPUE-maily s vysokou hodnotou, Q&A z playbooku, náročné RAGNáklady, latence, provoz
Mistral-7B-Instructtypicky 8k1 GPU nebo efektivní CPU/GPU nastaveníAsistence blízko okraje, rychlá klasifikaceNěmčina většinou o něco slabší než větší modely
Mixtral-8x7B-Instruct32k oficiálněvíce GPU paměti, zohlednit MoE servingVícejazyčné RAG scénáře, technické dokumentyProvoz je méně triviální
Qwen-2 / Qwen-1.5závisí na modeludle velikostiVýzkum, klasifikace, částečně silné benchmarkyDůvěra v DACH a otázky správy

To u nás nefunguje, když text smrdí AI. Ale když mi systém vytáhne tři spolehlivé spouštěče z účtu, hned to beru.

— Andrea, vedoucí prodeje u dodavatele strojírenství, Bielefeld

Andreina věta z Bielefeldu mi utkvěla v paměti, protože ukončuje špatnou debatu. Mnozí mluví o dokonalých e-mailech. Já raději mluvím o spolehlivých spouštěčích. Spouštěčem je nová stavba závodu, nové vedení, rozhodnutí o dotaci, migrace SAP, změna v nákupu, produktová řada s problémy s dodávkami. Text je jen obal. Pokud je obal dobrý a spouštěč špatný, prodej stejně prohraje.

AI v prodeji: Vývoj trhu u open-weight modelů

Rychlost světa modelů se podivně změnila. V roce 2023 byl každý měsíc malý šok. V roce 2024 přišly Llama 3, Mixtral, Phi-3, modely Qwen a hromada nových serving stacků. V roce 2025 a na začátku roku 2026 se to stalo zajímavějším pro B2B prodej, protože infrastruktura dospěla: vLLM, TGI, llama.cpp, TensorRT-LLM, lepší kvantizace, lepší guardrails, lepší evaluační nástroje. To je méně sexy než nový model. Pro malé a střední podniky je to důležitější.

ObdobíPohyb trhuRelevance pro B2B prodejMoje hodnocení
Prosinec 2023Mistral vydává Mixtral-8x7B s Open Weights32k kontextu činí delší produktové a účetní dokumenty praktičtějšímiPrvní vážný kandidát MoE pro prodejní architektury blízké EU
Duben 2024Meta vydává Llama 3 8B a 70BSilný základ pro self-hostované Sales-CopilotyOd této chvíle se open source pro mnoho malých a středních podniků stal více než jen experimentem
Srpen 2024EU AI Act vstupuje v platnostSpráva, rizikové třídy a povinnosti prokazování se dostávají do nákupuRezidence dat se z IT tématu stává prodejním nástrojem
2025Poskytovatelé inference a nabídky VPC dozrávajíLlama/Mistral lze provozovat bez vlastního GPU týmuHybrid se stává standardem: citlivá data interně, špičkové zatížení externě
Q2 2026Žádné nové relevantní Llama/Mistral-Sales-Releases za posledních 7 až 14 dníZvyšuje se plánovatelnost, architektonická rozhodnutí jsou méně volatilníNyní je implementace důležitější než zprávy o modelech

Trend 2: Ceny tokenů se stávají prodejní strategií

Druhý trend zní jako controlling a právě proto je důležitý. Ceny tokenů rozhodují o tom, zda AI v prodeji zůstane pouze kopilotem pro deset key account manažerů, nebo zda s ní bude denně pracovat 120 zaměstnanců inside sales, SDR a technických prodejců. U hostovaných open-model API se nabídky Llama a Mistral pohybují v závislosti na poskytovateli a modelu zhruba mezi 0,05 a 0,60 USD za milion vstupních tokenů a 0,10 až 1,50 USD za milion výstupních tokenů. Stav k začátku června 2026. U self-hostingu a dobrého využití vidím u 8B modelů řádově pod 0,05 až 0,10 eura za milion tokenů; u 70B nebo Mixtral spíše 0,10 až 0,30 eura. To nejsou výrobní ceny. To jsou provozní náklady s hodinami GPU, využitím a trochou bolesti.

Nyní obchodní překlad. Briefing účtu s daty z CRM, webovými úryvky, zprávami, shrnutím a návrhem e-mailu může rychle spotřebovat 8 000 až 15 000 tokenů. Sekvence s pěti variantami, A/B texty, zpracováním námitek a kontrolou tónu je vyšší. Pokud tým u Webasto nebo podobného dodavatele automobilového průmyslu zpracuje 2 000 účtů měsíčně, nejsou to už demo náklady. Pak se ekonomika tokenů stává otázkou: Které úkoly běží na 8B? Které na 70B? Co se ukládá do mezipaměti? Co se vůbec negeneruje, ale deterministicky se vytváří z dat?

Mnoho AI projektů v prodeji považuji za špatně rozpočtované. Počítají se licenční náklady na uživatele, ale ne náklady na workflow. To je SaaS myšlení z roku 2018. U LLM potřebujete kusovník: vstupní tokeny, výstupní tokeny, náklady na retrieval, náklady na embedding, využití GPU, čas na lidskou kontrolu, náklady na chyby. Zní to suše. Je to prodejní marže.

Nejvíce překvapivá statistika z našich projektů: U Sales-RAG workflow často nezpůsobují nejvíce tokenů odpovědi, ale špatně zkrácené zdroje. Při auditu v březnu 2026 bylo 62 procent nákladů na tokeny čistým plýtváním kontextem kvůli duplicitním poznámkám z CRM, zbytkům HTML a starým zápatím PDF.

Latence není technický detail, ale přijatelnost

Latence je v zasedacích místnostech ráda ignorována, dokud se rollout nezdaří. Prodejce akceptuje 20 sekund čekání na podrobný účetní spis. Neakceptuje 8 sekund na návrh předmětu e-mailu. To je banální, ale v architekturách tuto chybu vidím neustále. Vytvoří se kopilot, který pokaždé zavolá velký model, spustí pět nástrojů, stáhne 20 chunků a pak se diví, že uživatelé zase píšou sami.

Pro hlasové volání to bude ještě těsnější. ASR, LLM, Tool-Call, TTS – řetězec musí zůstat pod 1,5 až 2 sekundami, jinak vzniká ta nepříjemná mezera v rozhovoru. Je to slyšet. Malá ozvěna ve sluchátkách, o půl dechu navíc, pak člověk na druhém konci ví: stroj. 8B modely jsou zde často smysluplnější než větší modely, pokud pracují s krátkými odpověďmi a uloženými fakty. Pro komplexní kroky uvažování lze asynchronně načítat. Agent pak neříká všechno hned. Stejně jako dobrý prodejce.

Trend 3: RAG v malých a středních podnicích často poráží Fine-Tuning

Třetí trend je v rozporu s oblíbeným narativem na LinkedInu. Ne každá společnost potřebuje jemně vyladěný prodejní model. V mnoha středně velkých prodejních týmech je RAG lepším prvním krokem, protože problémem není styl, ale kontext. Produktová data jsou v PDF, cenová logika v Excelu, reference v PowerPointu, námitky v hlavách tří seniorních prodejců, historie CRM ve volných textových polích. Jemné ladění na tomto chaosu model nezchytří. Jen reprodukuje chaos.

RAG s Llama-3-8B nebo Mixtral-8x7B funguje překvapivě dobře pro produktové poradenství, návrhy nabídek a account intelligence, pokud se retrieval nechová jako dekorace vektorového úložiště. Velikost chunků, metadata, typy dokumentů, filtry aktuálnosti, oprávnění, povinnost citovat, řazení – to je skutečná práce. U technických produktů, například u pohonné techniky Wittenstein nebo komponent Phoenix Contact, nestačí sémanticky podobný odstavec. Systém musí vědět, zda je specifikace aktuální, zda platí pro EU nebo USA, zda je zákazník OEM nebo integrátor a zda prodej vůbec smí mluvit o ceně.

Fine-tuning se přesto vyplatí. Ale později. Vidím to především u tónu, klasifikace a opakujících se vzorců psaní. 20 000 až 50 000 vysoce kvalitních e-mailových příkladů může pomoci, pokud jsou data o otevření, odpovědi a obchodech čistě přiřazena. Jenže: Většina středně velkých podniků tato data nemá čistá. No, skoro. Mají je někde. Jen ne tak, aby je model měl sežrat.

PřístupKdy je smysluplnýTypické modelyRizikoDopad na prodej
RAG přes CRM a produktová dataPokud musí být znalosti aktuální a vysvětlitelnéLlama-3-8B, Mixtral-8x7B, Llama-3-70BŠpatný retrieval poskytuje falešnou jistotuLepší briefy účtů a spolehlivé návrhy nabídek
Fine-Tuning / LoRAPokud je tón, klasifikace nebo formát konstantníLlama-3-8B, Mistral-7B, modely QwenTrénink na špatných historických datechKonzistentnější e-maily a méně dodatečných úprav
Pravidlový engine plus LLMPokud musí být ceny, slevy nebo shoda přísnéVšechny uvedené modelyPříliš mnoho logiky v promptuMéně halucinací u nabídek
Velký model jako zálohaPokud jsou malé modely nejistéLlama-3-70B, hostované Frontier modelyExploze nákladů bez routováníKvalita pro high-value účty

Které benchmarky jsou pro prodej skutečně důležité

MMLU, GSM8K, BIG-Bench, HumanEval, LMSYS Arena – to vše si prohlížím. Samozřejmě. Ale obchodní ředitel u Brose nezíská obchod, protože model v GSM8K lépe počítá z hlavy. Pro prodej se počítají jiné benchmarky: Dokáže model správně shrnout firmu? Rozpozná role v nákupním centru? Zamění sídlo, dceřinou společnost a mateřskou společnost? Dodržuje pravidla bez nároků? Píše německy bez amerického SaaS zápachu? A možná nejdůležitější: Zeptá se, když chybí kontext?

Rád používám interní evaluační sadu se skutečnými, anonymizovanými prodejními případy. 100 účtů. Ke každému účtu historie CRM, výpis z webu, dvě zprávy, mapování produktů a požadovaná další akce. Pak měříme nejen kvalitu textu, ale i přesnost faktů, vazbu na zdroje, délku, tón, kvalitu CTA, zakázané výroky a dobu zpracování. Llama-3-8B může přitom v dílčích úkolech porazit Llama-3-70B, pokud je prompt stručnější a retrieval lepší. To dráždí lidi, kteří čtou modely jako fotbalové tabulky.

Nepotřebuji bota, který mi vysvětlí, co náš produkt dělá. Potřebuji systém, který rozpozná, proč by tento jeden nákupčí měl mluvit právě teď.

— Markus, CSO dodavatele automatizace, Norimberk

Markus z Norimberku má pravdu. Prodejní systém musí rozumět načasování. Nebo přesněji: Musí zpracovat signály načasování tak, aby člověk mohl jednat. Když Trumpf představí novou laserovou technologii, když DMG Mori přesouvá kapacity, když středně velký OEM v České republice rozšiřuje závod – pak chce prodej vědět, které účty jsou dotčeny, která reference se hodí a kdo napíše první větu. Ne příští týden. Dnes.

Analytické prognózy: Hodně trhu, málo implementace

Prognózy pro GenAI ve firmách zůstávají velké. Gartner v roce 2024 uvedl, že do roku 2026 bude více než 80 procent společností využívat GenAI API nebo modely, nebo produktivně nasazovat aplikace s podporou GenAI; v roce 2023 byl tento podíl výrazně nižší. McKinsey ve své analýze z roku 2023 odhadl roční ekonomický potenciál generativní AI na 2,6 až 4,4 bilionu USD napříč mnoha funkcemi, přičemž marketing a prodej jsou silně zasažené oblasti. IDC a Statista nadále vidí rostoucí výdaje na AI software a služby. Problém: Prognózy neprodávají schůzky.

ZdrojPrognóza / ČísloDatumRelevance pro prodej v malých a středních podnicíchMoje interpretace
GartnerDo roku 2026 bude více než 80 procent společností využívat GenAI API, modely nebo GenAI aplikace2024GenAI se stane standardní součástí IT krajinyRozdíl nevzniká v přístupu, ale v datech a procesech
McKinsey Global Institute2,6 až 4,4 bilionu USD ročního potenciálu díky generativní AIČerven 2023Prodej a marketing patří mezi funkce s vysokým pákovým efektemPákový efekt je reálný, ale pouze s integrací workflow
Bitkom20 procent německých společností využívá AI, 37 procent ji plánuje nebo diskutujeZáří 2024Trh DACH ještě není nasycenMalé a střední podniky mohou stále získat náskok, pokud nyní čistě implementují
VDMAStrojírenství hlásilo v roce 2024 slabé příjmy objednávek v několika měsících2024Roste tlak na pipelineAI se nezavádí, protože je moderní, ale protože prodejní kapacita je omezená

Nedůvěřuji velkým tržním prognózám, pokud nejsou rozděleny na pracovní postupy. „Prodej bude produktivnější“ není plán. „SDR vytvoří týdně 60 ověřených spouštěčů účtů namísto 18, se stejnou kvalitou odpovědí a dokumentovanými zdroji“ – to je plán. Rozdíl není jazykový. Rozdíl rozhoduje o tom, zda CFO a zaměstnanecká rada přikývnou nebo zablokují.

Amplifa ICP Playbook Praktický úvod k čistému definování cílových zákazníků, spouštěcích událostí a nákupních center, než LLM v prodeji začne škálovat nesmysly.

Co znamenají open-source LLM pro malé a střední podniky

Pro obchodního ředitele v malém a středním podniku znamená open source především svobodu volby. Ne absolutní svobodu. Svobodu volby. Může uchovávat citlivá data v VPC nebo on-premise, směrovat modely podle úkolu, kontrolovat náklady a vytvářet vlastní evaluační sady. Může začít s Llama-3-8B, používat Mixtral pro delší technické dokumenty a 70B jen pro drahé případy. To není náboženská změna od proprietárních modelů. Je to architektonická otázka.

Druhý efekt je organizační. Když se AI stane dostatečně levnou, zmizí výmluva, že se používá jen pro klíčové účty. Pak bude každý účet alespoň hrubě obohacen, každý lead prověřen podle ICP kritérií, každá poznámka z CRM normalizována, každá sekvence testována na relevanci. To mění Sales Operations více než jednotlivého prodejce. U zákazníka ze Severního Porýní-Vestfálska jsme viděli, že nejlepší zvýšení produktivity nepocházelo z automaticky psaných e-mailů, ale z automaticky odmítnutých leadů. 31 procent příchozích kontaktů bylo na základě jasných kritérií vyřazeno z SDR toku. Nikdo je nepostrádal.

Třetí efekt je politický. Open-source LLM nutí společnosti převzít odpovědnost. U OpenAI nebo Anthropic API se lze psychologicky schovat za poskytovatele. U self-hostingu ne. Kdo modely provozuje, musí řešit logování, přístup, koncepty mazání, ochranu proti prompt injection a kontrolu výstupu. To zní jako brzda. Já to vidím jinak: Tuto práci by prodej potřeboval už před AI, jen ji nikdo neplatil.

Co to znamená pro generálního ředitele?

Generální ředitel nemusí vědět, jak funguje RoPE-Scaling. Měl by však vědět, že neoficiální 32k nebo 64k kontextové varianty Llama 3 nejsou totéž jako oficiálně garantovaná specifikace. Měl by chápat, proč 32k kontextové okno automaticky neposkytuje lepší odpovědi, pokud retrieval dodává odpad. A měl by se zeptat, zda jeho tým měří kvalitu modelu, nebo jen sbírá demo videa. Tato otázka je nepříjemná. A to je dobře.

Technická architektura: Takto bych začal v roce 2026

Moje standardní architektura pro středně velký Sales-Copilot vypadá nenápadně. CRM konektor, DMS konektor, ingestování webu a zpráv, embedding pipeline, vektorové úložiště jako Qdrant nebo pgvector, vrstva politik, LLM router, evaluační sada, pozorovatelnost. Vpředu UI v Salesforce, HubSpotu, Microsoft Dynamics nebo jako tenká webová aplikace. Vzadu logy, ale prosím tak, aby osobní údaje neskončily v debugovacím bahně. Vůně teplého plastu serverovny je vzácnější, protože vše běží v VPC; chyby zůstaly.

Pro modely bych pragmaticky směroval. Llama-3-8B pro rychlé shrnutí, klasifikaci, jednoduché návrhy e-mailů. Mixtral-8x7B pro delší technické kontexty, vícejazyčné úkoly DE/EN/FR a RAG přes produktovou dokumentaci. Llama-3-70B pro high-value účty, komplexní zpracování námitek a finální kvalitu textu u důležitých sekvencí. Proprietární model jako záloha může být smysluplný, pokud jednotlivé případy vyžadují vysokou kvalitu uvažování. Kdo z toho dělá otázku víry, ztrácí čas.

Hardware? Pro piloty často stačí hostovaná inference nebo VPC. Pro produktivní objemy je třeba počítat. A100 40GB pro 8B modely je pohodlná, někdy předimenzovaná. L40S je v mnoha nastaveních zajímavá. 70B potřebuje více paměti nebo agresivnější kvantizaci, pak se platí kvalitou a latencí. Mixtral je kvůli MoE při servírování specifický; není to nemožné, ale nemělo by se to nasazovat v pátek odpoledne bez monitoringu. Tuto chybu jsem viděl. Pondělí bylo hlasité.

Příprava: 7 kroků pro AI v prodeji

  1. Definujte tři konkrétní prodejní pracovní postupy, ne deset AI nápadů. Například briefing účtu, hodnocení leadů podle ICP a e-mailová sekvence. Pilot bez pracovního postupu umírá v demo verzi.
  2. Vytvořte evaluační sadu se skutečnými případy. 50 až 100 anonymizovaných účtů stačí pro začátek. Měřte faktické chyby, vazbu na zdroje, tón, délku a dobu zpracování.
  3. Rozdělte úkoly podle třídy modelu. 8B pro rychlé standardní úkoly, Mixtral nebo 70B pro delší kontexty, záloha pouze v případě potřeby. Žádný velký model pro každý předmět e-mailu.
  4. Vyčistěte data z CRM a produktů před prvním nasazením. Duplicitní názvy firem, staré verze PDF a textové pouště stojí více kvality než slabší model.
  5. Stanovte rozpočty tokenů na pracovní postup. Briefing účtu nesmí nekontrolovaně spálit 40 000 tokenů jen proto, že někdo hodí všechny PDF do kontextu.
  6. Včas vyjasněte správu s IT, ochranou dat a zaměstnaneckou radou. Logování, přístup, mazání, práva rolí a lidské schvalování patří do plánu, ne do noční směny.
  7. Začněte s týmem, který má tlak na pipeline. Ne s nejinovativnějším týmem. S týmem, který cítí problém. Jinak optimalizujete zvědavost, ne obrat.

Produkt Amplifa Amplifa spojuje logiku ICP, průzkum účtů a automatizaci prodeje, aby AI nejen generovala texty, ale převzala práci s pipeline.

FAQ: Které open-source LLM jsou vhodné pro B2B prodej?

Pro většinu středně velkých nastavení bych v roce 2026 začal s Llama-3-8B-Instruct nebo Mixtral-8x7B-Instruct. Llama-3-8B je rychlá, levná a dostatečně dobrá pro mnoho standardních prodejních úkolů. Mixtral přináší 32k kontextu a silné vícejazyčné schopnosti, což pomáhá pro prodej v EU, technické dokumenty a delší RAG scénáře. Llama-3-70B je lepší pro náročné texty a komplexnější zpracování námitek, ale dražší na provoz. Mistral-7B je zajímavý, pokud jsou latence a efektivita důležitější než maximální kvalita textu.

FAQ: Je self-hosting levnější než API?

Při vysokém objemu ano, u malých týmů ne automaticky. Self-hosting může při dobrém využití u 8B modelů klesnout pod 0,05 až 0,10 eura za milion tokenů; větší modely se často pohybují spíše mezi 0,10 a 0,30 eura. Ale leasing GPU, DevOps, monitoring, zabezpečení a výpadky patří do kalkulace. API je na začátku rychlejší. Self-hosting se stává zajímavým, když rozhoduje suverenita dat, konstantní zatížení nebo požadavky na shodu.

FAQ: Stačí 8k kontextové okno pro prodej?

Často ano. Ne proto, že by 8k bylo hodně, ale proto, že dobrý retrieval je důležitější než obrovský kontext. Pro krátké briefy účtů, návrhy e-mailů a shrnutí CRM obvykle stačí 8k. Pro technické produktové poradenství, výběrová řízení nebo delší logiku nabídek pomáhá 32k kontext, jako u Mixtral-8x7B. Nikdy bych však nekupoval kontextové okno jako náhradu za kvalitu dokumentů. Více místa jen zdražuje špatné zdroje.

FAQ: Umí open-source modely dostatečně dobře německy?

Ano, pokud jsou vedeny. Llama 3 a Mixtral umí německy solidně, ale prodejní jazyk v DACH středních podnicích je specifický. Je formálnější než americké SaaS texty, často techničtější, někdy záměrně stručný. Model se musí naučit oborové termíny, oslovování „Vy“, právní zákazy a tón, nebo být omezen pomocí promptu a vrstvy politik. U Festo zní dobrý e-mail jinak než u startupu v kybernetické bezpečnosti v Berlíně. A tak by to mělo být.

Amplifa ICP Playbook pro prodejní týmy Použijte playbook k zostření segmentů trhu, spouštěčů a kritérií vyloučení, než Llama nebo Mistral škálují vaše data.

Moje prognóza pro roky 2026 až 2028

Nevěřím, že středně velké podniky v příštích dvou až třech letech plošně trénují vlastní základní modely. To se říká, protože to zní dobře. Většina společností bude používat open-weight modely, provozovat je v soukromých prostředích, přizpůsobovat je pomocí RAG a malých adaptérů a kombinovat je s proprietárními modely přes routery. Hybrid vyhrává. Ne z elegance, ale proto, že to funguje.

Do roku 2028 se rozdíl mezi dobrými a špatnými prodejními organizacemi nebude tolik odvíjet od toho, zda používají AI. Téměř všichni budou používat nějakou AI. Rozdíl bude v tom, zda mají čisté ICP, zda jsou jejich data aktuální, zda jejich směrování modelů kontroluje náklady, zda berou vážně povinnost uvádět zdroje a zda Sales Ops provozuje systémy jako výrobní závody. Trumpf neudržuje své stroje podle pocitu. Proč by měl prodej takto provozovat svou automatizaci pipeline?

Další vydání modelů jistě přijdou. Možná opět s většími kontextovými okny, lepšími benchmarky, nižšími cenami. Skvělé. Ale v červnu 2026 je důležitější zpráva právě to, že žádná zpráva není. Llama, Mistral a spol. jsou dostatečně stabilní na to, aby vykonávaly práci – a právě proto se to pro mnoho prodejních organizací stává nepříjemně konkrétním.

Amplifa: Startseite · Produkt · AI SDR Agents · ICP Playbook · Über uns · Gespräch vereinbaren · Webinar

Ressourcen: Blog · Vertriebslexikon · Studien · Guides · Workflows · Tool-Vergleich · Email Finder · Intent Finder · Lookalike Finder · Tools

Branchen: Maschinenbau · Medizintechnik · Automobil · Chemie · Elektronik · Metallindustrie · Kunststofftechnik · Lebensmittel · Verpackung · Konsumgüter · Energie · Software

Success Stories: Übersicht · Wingcopter · Schnaithmann · Ottobock · Xandor · MK Kögel · Zeller+Gmelin · MagnetWorld · Persil Wäscheservice

Rechtliches: Impressum · Datenschutz · AGB

Branchenverbände & Quellen: VDMA · ZVEI · BME · Bitkom · BVMW · VCI · VDA · BVMed · Statista · Destatis

Bewertungen & Vergleich: G2 · Capterra · Gartner · OMR Reviews

Amplifa Profile: LinkedIn · X / Twitter · Anthony Filipiak (CEO) · Leon J. Hermann (COO)