Amplifa – Piattaforma di vendita IA per il B2B industriale

AI nelle vendite: LLM open-source nelle PMI

KI & Automatisierung · 12. Juni 2026 · Omer

AI nelle vendite con Llama, Mistral & Co.: Valuta costi, latenza e sovranità dei dati prima che il tuo team di vendita investa male nel 2026.

Al 12 giugno 2026, negli ultimi 7-14 giorni non è successo nulla con Llama, Mistral e i grandi modelli open-weight che dovrebbe essere venduto a un direttore vendite nel settore dell'ingegneria meccanica come nuova base architetturale. Nessuna nuova variante di Llama 3, nessun salto di peso aperto di Mistral, nessun adeguamento dei prezzi presso i soliti fornitori di inferenza ospitati che improvvisamente ricalcolano l'AI nelle vendite. Allo stesso tempo, i dipartimenti acquisti di Schaeffler, Phoenix Contact e Festo utilizzano da tempo liste di controllo per la governance dell'AI, da quando l'EU AI Act è entrato in vigore il 1° agosto 2024 e dal 2025 ha modificato processi di approvvigionamento concreti in molte aziende. Perché questo è importante ora? Perché la stabilità dei modelli nelle PMI vale più del prossimo screenshot di benchmark su X.

La mia previsione è scomoda: entro la fine del 2027, molte aziende B2B di medie dimensioni non utilizzeranno l'AI in modo produttivo perché i modelli diventeranno due volte migliori, ma perché gli attuali LLM open-source saranno diventati abbastanza economici, abbastanza controllabili e abbastanza noiosi. Noioso qui è un complimento. Chi nel 2026 aspetta ancora che un modello scriva un tedesco "perfetto", confonde le vendite con la critica letteraria.

AI nelle vendite: lo status quo degli LLM open-source

Quando parlo con gli amministratori delegati delle PMI di AI nelle vendite, spesso emerge la stessa domanda: "Llama e Mistral sono già abbastanza buoni per una vera comunicazione con i clienti?" La risposta breve: sì, ma non da soli. Un Llama-3-8B senza retrieval, senza contesto CRM e senza regole rigide per la tonalità produce testi carini; un Llama-3-8B con RAG pulito, storico delle trattative, filtri di settore e un controller di sequenza produce un lavoro utile. Questa è una differenza come tra un tirocinante con Google e un team di Inside Sales con un piano account pulito.

I dati ufficiali sono stabili da tempo. Meta ha presentato Llama 3 il 18 aprile 2024, con Llama-3-8B-Instruct e Llama-3-70B-Instruct come pesi aperti sotto la Llama 3 Community License. Contesto standard: 8k token. Mistral ha rilasciato Mixtral-8x7B già a dicembre 2023 come modello Sparse-Mixture-of-Experts, con 32k di contesto e una logica di inferenza in cui solo una parte degli esperti è attiva per token. Questo sembra accademico. Non lo è. Decide se il tuo Sales Copilot può elaborare una pagina di prodotto tecnica di DMG Mori, tre note CRM e una cronologia e-mail in una volta sola, o se perde il filo dopo il secondo paragrafo.

Anche il lato del mercato è diventato più chiaro. Secondo lo studio Bitkom "Intelligenza Artificiale nelle aziende" di settembre 2024, il 20% delle aziende tedesche utilizzava attivamente l'AI, un ulteriore 37% ne pianificava o discuteva l'uso. Il VDMA ha riportato nel 2024 un calo degli ordini per molti costruttori di macchine; nelle vendite questo significa: la pipeline torna ad essere una questione di alta direzione. Beh, quasi. In alcune aziende la pipeline non è mai stata fuori discussione, solo le scuse erano migliori quando i libri degli ordini erano pieni.

Quello che vediamo concretamente in Amplifa: negli ultimi 12 mesi, con i clienti B2B del settore dell'ingegneria meccanica, dell'elettrotecnica e dei servizi tecnici, abbiamo un modello che non si trova in nessuna Model Card. Il primo 10% di guadagno di qualità proviene dal modello migliore. Il successivo 40% proviene dall'igiene dei dati, dai contratti di prompt, dal rilevamento dei duplicati e da un campo CRM che finalmente non si chiama più "Altro". Presso un cliente con 46 utenti di vendita nel Baden-Württemberg, il tempo medio per un briefing sull'account è sceso da 18 minuti a 4 minuti e 30 secondi; il modello non era di classe GPT-4, ma un modello 8B con RAG e un filtro di origine piuttosto spietato. Il server si trovava in una VPC tedesca. Nessuna magia. Solo lavoro.

Perché l'Open Source nelle PMI non è solo ideologia

L'Open Source viene spesso venduto male nelle vendite. Alcuni fanno finta che si tratti di romanticismo della libertà. Non è del tutto vero. Nelle PMI si tratta di tre cose difficili: sovranità dei dati, costi marginali e adattabilità. Se un fornitore di Kärcher inserisce la sua logica di offerta, le regole di sconto, i margini dei pezzi di ricambio e i criteri di esclusione in un assistente di vendita, non vuole inviare ogni token attraverso una black box i cui termini di servizio potrebbero cambiare la prossima settimana. Questa non è paranoia. Questo è acquisto.

L'altro lato: l'Open Source non è gratuito. Chi lo afferma non ha mai rianimato vLLM di notte dopo un aggiornamento CUDA. Hardware, monitoraggio, patch di sicurezza, versioning dei prompt, set di valutazione, logging, consiglio di fabbrica, valutazione d'impatto sulla protezione dei dati – tutto questo non finisce nella bella tabella dei prezzi dei token. Tuttavia, può essere conveniente, soprattutto con volumi elevati. Un reparto vendite che genera 50.000 riepiloghi di lead, varianti di e-mail e note CRM a settimana, nota la differenza tra 0,10 euro e diversi dollari per milione di token non come un errore di arrotondamento, ma come una voce di bilancio.

Tendenza 1: i piccoli LLM open-source diventano abbastanza produttivi

La prima tendenza non è Llama-3-70B. La prima tendenza è Llama-3-8B. Questo sembra controintuitivo, perché a tutti piace parlare di modelli grandi, di valori MMLU, di punteggi Arena e dell'ultimo percento di ragionamento. Nelle vendite, tuttavia, non è il caso più complicato a consumare il budget, ma il più frequente: riassumere l'account, riconoscere i trigger appropriati, scrivere una bozza di e-mail, estrarre un'obiezione dal playbook, normalizzare una nota CRM. Per questo spesso non è necessario un modello 70B. È necessario un modello che sia abbastanza veloce, stabile ed economico da non essere aggirato dagli utenti.

Llama-3-8B-Instruct e Mistral-7B-Instruct, secondo le Model Card pubblicate e le classifiche aperte, rientrano nell'intervallo sufficiente per molte attività di vendita. Non sono brillanti nel pensiero strategico a più livelli. Onestamente? Non devono esserlo, se l'architettura è giusta. Non lascio che un modello 8B decida se un account è maturo per il pricing enterprise. Lo lascio estrarre segnali, riassumere dati, generare varianti di testo e porre domande. La decisione rimane in un motore di regole, nel flusso di lavoro CRM o con l'essere umano.

Per quanto riguarda la latenza, la differenza si vede subito. Un modello 8B quantizzato su una A100 40GB o L40S può raggiungere, con vLLM, batching appropriato e un KV-cache pulito, in molti setup latenze del primo token tra 50 e 200 millisecondi; per richiesta, 30-80 token al secondo sono realistici, a seconda della lunghezza del prompt e del carico. Per un addetto alle vendite in HubSpot o Salesforce, questo sembra "risponde immediatamente". Per l'assistenza vocale è almeno nel corridoio. Per un lavoro di briefing 70B che gira in background, la latenza è meno critica. Per il momento in cui qualcuno nel CRM clicca su "Suggerisci e-mail", ogni mezzo secondo conta.

ModelloContesto tipicoClasse di self-hostingPunti di forza per le venditeLimite
Llama-3-8B-Instruct8k Token ufficiali1 GPU, quantizzato anche più piccoloBozze e-mail, note CRM, riepiloghi leadStrategia complessa e documenti lunghi
Llama-3-70B-Instruct8k ufficiali, varianti community con 32k/64k2-4 GPU simili a A100/H100Mail di alto valore, Q&A playbook, RAG sofisticatoCosti, latenza, operatività
Mistral-7B-Instructtipicamente 8k1 GPU o configurazioni CPU/GPU efficientiAssistenza quasi edge, classificazione rapidaTedesco solitamente un po' più debole dei modelli più grandi
Mixtral-8x7B-Instruct32k ufficialipiù memoria GPU, attenzione al serving MoEScenari RAG multilingue, documenti tecniciL'operazionalizzazione è meno banale
Qwen-2 / Qwen-1.5dipendente dal modelloa seconda della dimensioneRicerca, classificazione, benchmark a volte fortiFiducia DACH e questioni di governance

Questo non funziona per noi se il testo sa di AI. Ma se il sistema mi estrae tre trigger affidabili dall'account, lo prendo subito.

— Andrea, Head of Sales presso un fornitore di macchinari, Bielefeld

La frase di Andrea da Bielefeld mi è rimasta impressa perché chiude un dibattito sbagliato. Molti parlano di e-mail perfette. Io preferisco parlare di trigger affidabili. Un trigger è una nuova costruzione, una nuova gestione, una decisione di finanziamento, una migrazione SAP, un cambio negli acquisti, una linea di prodotti con problemi di consegna. Il testo è solo l'imballaggio. Se l'imballaggio è buono e il trigger è sbagliato, le vendite perdono comunque.

AI nelle vendite: sviluppo del mercato dei modelli open-weight

La velocità del mondo dei modelli è cambiata in modo strano. Nel 2023 ogni mese era un piccolo shock. Nel 2024 sono arrivati Llama 3, Mixtral, Phi-3, modelli Qwen e una montagna di nuovi stack di serving. Nel 2025 e all'inizio del 2026 è diventato più interessante per le vendite B2B, perché l'infrastruttura è maturata: vLLM, TGI, llama.cpp, TensorRT-LLM, migliore quantizzazione, migliori guardrail, migliori strumenti di valutazione. Questo è meno sexy di un nuovo modello. Per le PMI è più importante.

PeriodoMovimento di mercatoRilevanza per le vendite B2BLa mia valutazione
Dicembre 2023Mistral rilascia Mixtral-8x7B con pesi apertiIl contesto di 32k rende più praticabili documenti di prodotto e account più lunghiPrimo candidato MoE serio per architetture di vendita vicine all'UE
Aprile 2024Meta rilascia Llama 3 8B e 70BForte base per Sales Copilot self-hostedDa qui l'Open Source non è più stato solo un esperimento per molte PMI
Agosto 2024L'EU AI Act entra in vigoreGovernance, classi di rischio e obblighi di prova finiscono negli acquistiLa residenza dei dati passa da problema IT a abilitatore di vendita
2025I provider di inferenza e le offerte VPC maturanoLlama/Mistral possono essere gestiti senza un proprio team GPUL'ibrido diventa standard: dati sensibili interni, picchi di carico esterni
Q2 2026Nessuna nuova release rilevante di Llama/Mistral per le vendite negli ultimi 7-14 giorniLa prevedibilità aumenta, le decisioni architetturali sono meno volatiliOra l'implementazione conta più delle notizie sui modelli

Tendenza 2: i prezzi dei token diventano una strategia di vendita

La seconda tendenza suona come controllo ed è proprio per questo importante. I prezzi dei token decidono se l'AI nelle vendite rimane solo un copilot per dieci Key Account Manager o se 120 addetti alle vendite interne, SDR e venditori tecnici ci lavorano quotidianamente. Per le API di modelli aperti ospitati, le offerte Llama e Mistral, a seconda del fornitore e del modello, si aggirano tra 0,05 e 0,60 dollari per milione di token di input e tra 0,10 e 1,50 dollari per milione di token di output. Dati inizio giugno 2026. Con il self-hosting e un buon utilizzo, vedo per i modelli 8B ordini di grandezza inferiori a 0,05-0,10 euro per milione di token; per 70B o Mixtral, piuttosto 0,10-0,30 euro. Questi non sono prezzi di fabbrica. Sono calcoli operativi con ore GPU, utilizzo e un po' di dolore.

Ora la traduzione commerciale. Un briefing sull'account con dati CRM, snippet web, notizie, riepilogo e bozza di e-mail può consumare rapidamente da 8.000 a 15.000 token. Una sequenza con cinque varianti, testi A/B, gestione delle obiezioni e controllo della tonalità è più alta. Se un team di Webasto o di un fornitore automobilistico simile elabora 2.000 account al mese, questi non sono più costi di demo. Allora l'economia dei token diventa una domanda: quali compiti vengono eseguiti su 8B? Quali su 70B? Cosa viene memorizzato nella cache? Cosa non viene affatto generato, ma costruito deterministicamente dai dati?

Ritengo che molti progetti AI nelle vendite siano mal budgettati. Si calcolano i costi di licenza per utente, ma non i costi per flusso di lavoro. Questo è un modo di pensare SaaS del 2018. Con gli LLM è necessaria una distinta base: token di input, token di output, costi di recupero, costi di embedding, utilizzo della GPU, tempo di revisione umana, costi di errore. Sembra secco. È margine di vendita.

La statistica più sorprendente dei nostri progetti: nei flussi di lavoro RAG di vendita, spesso non sono le risposte a causare la maggior parte dei token, ma le fonti mal tagliate. In un audit di marzo 2026, il 62% dei costi dei token era puro spreco di contesto dovuto a note CRM duplicate, residui HTML e vecchi piè di pagina PDF.

La latenza non è un dettaglio tecnico, ma accettazione

La latenza viene spesso ignorata nelle riunioni del consiglio di amministrazione, finché il rollout non fallisce. Un addetto alle vendite accetta 20 secondi di attesa per un dossier account approfondito. Non accetta 8 secondi per un suggerimento di riga oggetto. Questo è banale, ma nelle architetture vedo questo errore costantemente. Si costruisce un copilot che ogni volta chiama un modello grande, avvia cinque strumenti, tira 20 chunk e poi ci si meraviglia che gli utenti scrivano di nuovo da soli.

Per le chiamate vocali, la situazione si fa ancora più stretta. ASR, LLM, Tool-Call, TTS – la catena deve rimanere sotto 1,5-2 secondi, altrimenti si crea quel fastidioso buco nella conversazione. Si sente. Un piccolo eco nella cuffia, mezzo respiro di troppo, e la persona dall'altra parte sa: macchina. I modelli 8B sono spesso più sensati qui dei modelli più grandi, se lavorano con risposte brevi e fatti memorizzati nella cache. Per passaggi di ragionamento complessi si può caricare in modo asincrono. L'agente non dice tutto subito. Come un buon venditore, del resto, non fa neanche lui.

Tendenza 3: RAG batte più spesso il Fine-Tuning nelle PMI

La terza tendenza è in contraddizione con una popolare narrativa di LinkedIn. Non tutte le aziende hanno bisogno di un modello di vendita finemente sintonizzato. In molte vendite di medie dimensioni, RAG è il primo passo migliore, perché il problema non è lo stile, ma il contesto. I dati di prodotto si trovano in PDF, la logica dei prezzi in Excel, i riferimenti in PowerPoint, le obiezioni nella testa di tre venditori senior, la cronologia CRM in campi di testo libero. Un fine-tuning su questo caos non rende il modello intelligente. Rende il caos riproducibile.

RAG con Llama-3-8B o Mixtral-8x7B funziona sorprendentemente bene per la consulenza sui prodotti, le bozze di offerta e l'intelligence sugli account, se il recupero non viene trattato come una decorazione di un vettore. Dimensione del chunk, metadati, tipi di documenti, filtri di attualità, autorizzazioni, obbligo di citazione, ranking – questo è il vero lavoro. Per i prodotti tecnici, ad esempio per la tecnologia di azionamento Wittenstein o i componenti Phoenix Contact, un paragrafo semanticamente simile non è sufficiente. Il sistema deve sapere se una specifica è attuale, se è valida per l'UE o gli USA, se il cliente è OEM o integratore e se le vendite possono parlare del prezzo.

Il Fine-Tuning è comunque utile. Ma più tardi. Lo vedo soprattutto per la tonalità, la classificazione e i modelli di scrittura ricorrenti. 20.000-50.000 esempi di e-mail di alta qualità possono aiutare, se i dati di apertura, risposta e trattativa sono assegnati correttamente. Solo: la maggior parte delle PMI non ha questi dati puliti. Beh, quasi. Li hanno da qualche parte. Solo non in un modo che un modello dovrebbe digerire.

ApproccioQuando è utileModelli tipiciRischioImpatto sulle vendite
RAG su CRM e dati di prodottoQuando la conoscenza deve essere attuale e spiegabileLlama-3-8B, Mixtral-8x7B, Llama-3-70BUn recupero scadente offre una falsa sicurezzaMigliori briefing sugli account e bozze di offerta affidabili
Fine-Tuning / LoRAQuando tonalità, classificazione o formato sono costantiLlama-3-8B, Mistral-7B, modelli QwenAddestramento su dati storici scadentiE-mail più coerenti e meno rielaborazione
Motore di regole più LLMQuando prezzi, sconti o conformità devono essere rigidiTutti i modelli menzionatiTroppa logica nel promptMeno allucinazioni nelle offerte
Modello grande come fallbackQuando i modelli piccoli sono incertiLlama-3-70B, modelli frontier ospitatiEsplosione dei costi senza routingQualità per account di alto valore

Quali benchmark contano davvero per le vendite

MMLU, GSM8K, BIG-Bench, HumanEval, LMSYS Arena – guardo tutto questo. Certo. Ma un direttore vendite di Brose non vince un affare perché un modello è migliore nel calcolo mentale in GSM8K. Per le vendite contano altri benchmark: il modello può riassumere correttamente un'azienda? Riconosce i ruoli del buying center? Confonde sede, filiale e casa madre? Rispetta le regole di non reclamo? Scrive in tedesco senza odore di SaaS americano? E forse la cosa più importante: chiede se manca il contesto?

Mi piace usare un set di valutazione interno con casi di vendita reali e anonimizzati. 100 account. Per ogni account, cronologia CRM, estratto del sito web, due notizie, mappatura del prodotto e azione successiva desiderata. Poi misuriamo non solo la qualità del testo, ma la precisione dei fatti, il legame con le fonti, la lunghezza, la tonalità, la qualità della CTA, le dichiarazioni proibite e il tempo di elaborazione. Un Llama-3-8B può battere un Llama-3-70B in compiti parziali se il prompt è più conciso e il recupero è migliore. Questo irrita le persone che leggono i modelli come classifiche di calcio.

Non ho bisogno di un bot che mi spieghi cosa fa il nostro prodotto. Ho bisogno di un sistema che riconosca perché questo acquirente dovrebbe parlare proprio ora.

— Markus, CSO di un fornitore di automazione, Norimberga

Markus di Norimberga ha ragione. Un sistema di vendita deve capire il tempismo. O più precisamente: deve elaborare i segnali di tempismo in modo che l'essere umano possa agire. Se Trumpf presenta una nuova tecnologia laser, se DMG Mori sposta capacità, se un OEM di medie dimensioni in Repubblica Ceca espande uno stabilimento – allora le vendite vogliono sapere quali account sono interessati, quale riferimento è appropriato e chi scrive la prima frase. Non la prossima settimana. Oggi.

Previsioni degli analisti: molto mercato, poca implementazione

Le previsioni per la GenAI nelle aziende rimangono grandi. Gartner ha dichiarato nel 2024 che entro il 2026 oltre l'80% delle aziende utilizzerà API o modelli GenAI o implementerà applicazioni abilitate alla GenAI in produzione; nel 2023 questa percentuale era significativamente inferiore. McKinsey ha stimato il potenziale economico annuale dell'AI generativa nella sua analisi del 2023 a 2,6-4,4 trilioni di dollari in molte funzioni, con marketing e vendite come aree fortemente interessate. IDC e Statista prevedono una continua crescita della spesa per software e servizi AI. Il problema: le previsioni non vendono riunioni.

FontePrevisione / NumeroDataRilevanza per le vendite delle PMILa mia interpretazione
GartnerEntro il 2026, oltre l'80% delle aziende utilizzerà API, modelli o applicazioni GenAI2024GenAI diventerà una componente standard del panorama ITIl divario non si crea nell'accesso, ma nei dati e nei processi
McKinsey Global Institute2,6-4,4 trilioni di dollari di potenziale annuale grazie all'AI generativaGiugno 2023Vendite e marketing sono tra le funzioni con un'elevata levaLa leva è reale, ma solo con l'integrazione del flusso di lavoro
BitkomIl 20% delle aziende tedesche utilizza l'AI, il 37% la pianifica o la discuteSettembre 2024Il mercato DACH non è ancora saturoLe PMI possono ancora costruire un vantaggio se implementano correttamente ora
VDMAL'ingegneria meccanica ha registrato nel 2024 un calo degli ordini in diversi mesi2024La pressione sulla pipeline aumentaL'AI non viene introdotta perché è moderna, ma perché la capacità di vendita sta diventando scarsa

Diffido delle grandi previsioni di mercato se non vengono scomposte in flussi di lavoro. "Le vendite diventeranno più produttive" non è un piano. "Un SDR crea 60 trigger account verificati a settimana invece di 18, con la stessa qualità di risposta e fonti documentate" – questo è un piano. La differenza non è linguistica. La differenza decide se CFO e consiglio di fabbrica annuiscono o bloccano.

Amplifa ICP Playbook Un'introduzione pratica per definire chiaramente i clienti target, gli eventi trigger e il buying center prima che un LLM nelle vendite scali sciocchezze.

Cosa significano gli LLM open-source per le PMI

Per un direttore vendite in una PMI, l'Open Source significa innanzitutto libertà di scelta. Non libertà assoluta. Libertà di scelta. Può mantenere i dati sensibili in una VPC o on-premise, instradare i modelli a seconda del compito, controllare i costi e costruire i propri set di valutazione. Può iniziare con Llama-3-8B, utilizzare Mixtral per documenti tecnici più lunghi e utilizzare 70B solo per casi costosi. Questo non è un cambiamento religioso dai modelli proprietari. È una questione di architettura.

Il secondo effetto è organizzativo. Se l'AI diventa abbastanza economica, scompare la scusa di usarla solo per i Key Account. Allora ogni account viene almeno grossolanamente arricchito, ogni lead viene controllato rispetto ai criteri ICP, ogni nota CRM viene normalizzata, ogni sequenza viene testata per la rilevanza. Questo cambia le Sales Operations più del singolo venditore. Presso un cliente del Nord Reno-Westfalia abbiamo visto che il miglior aumento di produttività non è venuto da e-mail scritte automaticamente, ma da lead rifiutati automaticamente. Il 31% dei contatti in entrata è stato rimosso dal flusso SDR secondo criteri chiari. Nessuno li ha sentiti mancare.

Il terzo effetto è politico. Gli LLM open-source costringono le aziende ad assumersi la responsabilità. Con un'API OpenAI o Anthropic ci si può nascondere psicologicamente dietro il fornitore. Con il self-hosting no. Chi gestisce i modelli deve regolare il logging, l'accesso, i concetti di cancellazione, la protezione dall'iniezione di prompt e il controllo dell'output. Questo suona come un freno. Io la vedo diversamente: questo lavoro le vendite lo avrebbero dovuto fare già prima dell'AI, solo che nessuno lo pagava.

Cosa significa questo per un amministratore delegato?

Un amministratore delegato non deve sapere come funziona lo scaling RoPE. Dovrebbe però sapere che le varianti di contesto non ufficiali da 32k o 64k di Llama 3 non sono la stessa cosa di una specifica ufficialmente garantita. Dovrebbe capire perché una finestra di contesto da 32k non fornisce automaticamente risposte migliori se il recupero fornisce spazzatura. E dovrebbe chiedere se il suo team misura la qualità del modello o raccoglie solo video dimostrativi. Questa domanda è scomoda. Bene così.

Architettura tecnica: così inizierei nel 2026

La mia architettura standard per un Sales Copilot di medie dimensioni sembra poco spettacolare. Connettore CRM, connettore DMS, ingestione di siti web e notizie, pipeline di embedding, vettore come Qdrant o pgvector, un livello di policy, un router LLM, un set di valutazione, osservabilità. Davanti un'interfaccia utente in Salesforce, HubSpot, Microsoft Dynamics o come una snella web-app. Dietro i log, ma per favore in modo che i dati personali non finiscano nel pantano del debug. L'odore di plastica calda della sala server è diventato più raro da quando tutto gira in VPC; gli errori sono rimasti.

Per i modelli, instraderei in modo pragmatico. Llama-3-8B per riepiloghi rapidi, classificazione, bozze di e-mail semplici. Mixtral-8x7B per contesti tecnici più lunghi, compiti multilingue DE/EN/FR e RAG su documenti di prodotto. Llama-3-70B per account di alto valore, gestione complessa delle obiezioni e qualità del testo finale per sequenze importanti. Un modello proprietario come fallback può essere utile se singoli casi richiedono un'elevata qualità di ragionamento. Chi ne fa una questione di fede, perde tempo.

Hardware? Per i piloti spesso basta l'inferenza ospitata o una VPC. Per volumi produttivi bisogna calcolare. Una A100 40GB per modelli 8B è comoda, a volte sovradimensionata. L40S è interessante in molti setup. 70B richiede più memoria o una quantizzazione più aggressiva, allora si paga con qualità e latenza. Mixtral è speciale per il serving a causa di MoE; non impossibile, ma non dovrebbe essere implementato il venerdì pomeriggio senza monitoraggio. Ho visto questo errore. Il lunedì è stato rumoroso.

Preparazione: 7 passi per l'AI nelle vendite

  1. Definisci tre flussi di lavoro di vendita concreti, non dieci idee di AI. Ad esempio, briefing dell'account, scoring dei lead secondo ICP e sequenza di e-mail. Un pilota senza flusso di lavoro muore nella demo.
  2. Costruisci un set di valutazione con casi reali. 50-100 account anonimizzati sono sufficienti per iniziare. Misura errori di fatto, legame con le fonti, tonalità, lunghezza e tempo di elaborazione.
  3. Separa i compiti per classe di modello. 8B per compiti standard veloci, Mixtral o 70B per contesti più lunghi, fallback solo se necessario. Nessun modello grande per ogni riga oggetto.
  4. Pulisci i dati CRM e di prodotto prima del primo rollout. Nomi di aziende duplicati, vecchie versioni PDF e deserti di testo libero costano più qualità di un modello più debole.
  5. Stabilisci budget di token per flusso di lavoro. Un briefing dell'account non deve bruciare in modo incontrollato 40.000 token solo perché qualcuno inserisce tutti i PDF nel contesto.
  6. Chiarisci la governance con IT, protezione dei dati e consiglio di fabbrica in anticipo. Logging, accesso, cancellazione, diritti di ruolo e approvazione umana fanno parte del piano, non del turno di notte.
  7. Inizia con un team che ha pressione sulla pipeline. Non con il team più innovativo. Con il team che sente un problema. Altrimenti ottimizzi la curiosità, non il fatturato.

Prodotto Amplifa Amplifa combina la logica ICP, la ricerca sugli account e l'automazione delle vendite, in modo che l'AI non solo generi testi, ma si occupi del lavoro di pipeline.

FAQ: Quali LLM open-source sono adatti per le vendite B2B?

Per la maggior parte delle configurazioni delle PMI, nel 2026 inizierei con Llama-3-8B-Instruct o Mixtral-8x7B-Instruct. Llama-3-8B è veloce, economico e abbastanza buono per molte attività standard di vendita. Mixtral offre 32k di contesto e forti capacità multilingue, il che è utile per le vendite nell'UE, i documenti tecnici e scenari RAG più lunghi. Llama-3-70B è migliore per testi esigenti e gestione più complessa delle obiezioni, ma più costoso da gestire. Mistral-7B è interessante se la latenza e l'efficienza sono più importanti della massima qualità del testo.

FAQ: Il self-hosting è più economico di un'API?

Con volumi elevati sì, con team piccoli non automaticamente. Il self-hosting, con un buon utilizzo, può scendere sotto 0,05-0,10 euro per milione di token per i modelli 8B; i modelli più grandi si aggirano spesso tra 0,10 e 0,30 euro. Ma il leasing di GPU, DevOps, monitoraggio, sicurezza e tempi di inattività devono essere inclusi nel calcolo. Un'API è più veloce all'inizio. Il self-hosting diventa interessante quando la sovranità dei dati, il carico costante o i requisiti di conformità sono decisivi.

FAQ: Una finestra di contesto di 8k è sufficiente per le vendite?

Spesso sì. Non perché 8k sia molto, ma perché un buon recupero è più importante di un contesto enorme. Per brevi briefing sugli account, bozze di e-mail e riepiloghi CRM, 8k di solito è sufficiente. Per la consulenza tecnica sui prodotti, le gare d'appalto o la logica di offerta più lunga, 32k di contesto, come in Mixtral-8x7B, aiutano. Non comprerei mai finestre di contesto come sostituto della qualità dei documenti. Più spazio rende le fonti scadenti solo più costose.

FAQ: I modelli open-source parlano abbastanza bene il tedesco?

Sì, se guidati. Llama 3 e Mixtral parlano un tedesco solido, ma il linguaggio di vendita nelle PMI DACH è specifico. È più formale dei testi SaaS americani, spesso più tecnico, a volte volutamente conciso. Un modello deve imparare i termini del settore, l'uso del "Lei", i divieti legali e la tonalità, oppure essere limitato tramite prompt e livello di policy. Per Festo, una buona e-mail suona diversa che per una startup di cybersecurity a Berlino. E dovrebbe essere così.

Amplifa ICP Playbook per i team di vendita Utilizza il playbook per affinare segmenti di mercato, trigger e criteri di esclusione prima che Llama o Mistral scalino i tuoi dati.

La mia previsione per il 2026-2028

Non credo che le PMI addestreranno modelli di base propri su vasta scala nei prossimi due o tre anni. Questo viene raccontato perché suona bene. La maggior parte delle aziende utilizzerà modelli open-weight, li gestirà in ambienti privati, li adatterà con RAG e piccoli adattatori e li combinerà con modelli proprietari tramite router. L'ibrido vince. Non per eleganza, ma perché funziona.

Entro il 2028, la differenza tra buone e cattive organizzazioni di vendita dipenderà meno dal fatto che utilizzino l'AI. Quasi tutti useranno una qualche forma di AI. La differenza sarà se hanno un ICP pulito, se i loro dati sono aggiornati, se il loro routing dei modelli controlla i costi, se prendono sul serio l'obbligo di citazione delle fonti e se le Sales Ops gestiscono i sistemi come impianti di produzione. Trumpf non fa la manutenzione delle sue macchine a sensazione. Perché un reparto vendite dovrebbe gestire la sua automazione della pipeline in questo modo?

Le prossime release dei modelli arriveranno sicuramente. Forse di nuovo con finestre di contesto più grandi, benchmark migliori, prezzi più bassi. Bene. Ma a giugno 2026, la notizia più importante è proprio che non ci sono notizie. Llama, Mistral e Co. sono abbastanza stabili per svolgere il lavoro – ed è proprio per questo che per molte organizzazioni di vendita la situazione diventa ora scomodamente concreta.

Amplifa: Startseite · Produkt · AI SDR Agents · ICP Playbook · Über uns · Gespräch vereinbaren · Webinar

Ressourcen: Blog · Vertriebslexikon · Studien · Guides · Workflows · Tool-Vergleich · Email Finder · Intent Finder · Lookalike Finder · Tools

Branchen: Maschinenbau · Medizintechnik · Automobil · Chemie · Elektronik · Metallindustrie · Kunststofftechnik · Lebensmittel · Verpackung · Konsumgüter · Energie · Software

Success Stories: Übersicht · Wingcopter · Schnaithmann · Ottobock · Xandor · MK Kögel · Zeller+Gmelin · MagnetWorld · Persil Wäscheservice

Rechtliches: Impressum · Datenschutz · AGB

Branchenverbände & Quellen: VDMA · ZVEI · BME · Bitkom · BVMW · VCI · VDA · BVMed · Statista · Destatis

Bewertungen & Vergleich: G2 · Capterra · Gartner · OMR Reviews

Amplifa Profile: LinkedIn · X / Twitter · Anthony Filipiak (CEO) · Leon J. Hermann (COO)