LLM open-source · l'Osservatorio

Cinque aggiornamenti nell’ecosistema dei modelli linguistici open-source — software AI il cui codice è pubblicamente consultabile e modificabile — che riguardano chi sta valutando o già usando AI in contesti aziendali. Nessuna rivoluzione. Segnali concreti su affidabilità, costi e conformità.

In sintesi

vLLM V1 inverte una priorità consolidata: prima output corretti, poi velocità. Rilevante per chi processa documenti o risponde a clienti via AI.
NVIDIA Nemotron 3 Nano Omni elabora testo, audio e video in un’unica chiamata, su hardware leggero. Benchmark disponibili solo in inglese: attenzione prima di usarlo in italiano.
Granite 4.1 (IBM/Databricks): architettura e dati di addestramento ora pubblici. Vantaggio concreto per chi deve giustificare l’uso di AI in contesti regolamentati.
Open ASR Leaderboard ha aggiunto filtri anti-manipolazione per i test di riconoscimento vocale. Le classifiche pubbliche ora pesano di più nella selezione di fornitori.
DeepInfra è provider ufficiale su Hugging Face: soglia di ingresso più bassa, ma trasferimento dati extra-UE da verificare con il proprio legale prima di andare in produzione.

vLLM V1: prima la correttezza, poi la velocità

vLLM è il motore open-source più diffuso per mettere in produzione modelli linguistici su infrastruttura propria. Con l’aggiornamento V1, il team ha invertito una priorità che sembrava acquisita: invece di ottimizzare prima la velocità di risposta e correggere gli errori in un secondo momento, si garantisce prima che gli output siano corretti, poi si applica qualsiasi tecnica di accelerazione.

Sembra un dettaglio tecnico. Non lo è.

Considera uno studio commercialista che usa un modello AI per classificare fatture o redigere bozze di comunicazioni fiscali. Un errore silenzioso — risposta sbagliata ma formulata in modo convincente — è più pericoloso di una risposta lenta. La lentezza si vede. L’errore plausibile no: arriva fino al cliente prima che qualcuno se ne accorga. Lo stesso vale per una clinica che usa AI per strutturare referti, o per un e-commerce che genera descrizioni prodotto in automatico: un testo inesatto ma fluente passa i controlli superficiali e finisce online.

L’aggiornamento riguarda anche il modo in cui vLLM gestisce l’RLHF, sigla inglese per Reinforcement Learning from Human Feedback, in italiano apprendimento per rinforzo da feedback umano: tecnica con cui si insegna a un modello AI come rispondere usando giudizi e correzioni di persone reali. Prima di applicare questa tecnica per accelerare il sistema, V1 verifica che le risposte di base siano già corrette. L’ordine conta.

Se stai valutando un’infrastruttura AI interna, chiedi al team tecnico quale versione di vLLM è in uso. Non è una domanda da specialisti: è la stessa logica con cui chiedi a un fornitore di software se la versione installata è aggiornata alle ultime patch di sicurezza.

Nemotron 3 Nano Omni: multimodalità compatta, ma l’italiano aspetta

NVIDIA ha annunciato Nemotron 3 Nano Omni, un modello multimodale, termine che indica un sistema AI capace di elaborare insieme testo, immagini, audio e video in un’unica chiamata, senza passare da strumenti separati. La caratteristica che lo distingue dai concorrenti è la compattezza: gira su hardware meno potente rispetto a modelli con capacità simili, il che si traduce in costi infrastrutturali più bassi.

Il caso d’uso concreto è facile da immaginare. Un hotel che vuole analizzare le recensioni audio lasciate dai clienti, abbinarle ai filmati delle camere per identificare problemi ricorrenti e produrre un report testuale, oggi usa tre strumenti diversi. Un modello come Nemotron promette di fare tutto in un passaggio. Stessa logica per una struttura sanitaria che trascrive visite, collega referti e immagini diagnostiche: meno passaggi, meno margini di errore nell’integrazione.

Il limite rilevante è documentato. I benchmark, ovvero i test di prestazione comparativi su campioni standardizzati, disponibili al momento riguardano quasi esclusivamente la lingua inglese. Le prestazioni in italiano non sono ancora misurate in modo affidabile da fonti indipendenti. L’italiano ha una struttura fonetica e sintattica che richiede addestramento specifico: un modello eccellente in inglese può essere mediocre in italiano, specialmente su accenti regionali o terminologia di settore.

Prima di integrare Nemotron in qualsiasi flusso che riguardi contenuti in italiano, esigi un test su campioni reali del tuo caso d’uso. I numeri pubblicati da NVIDIA sono utili per confrontare architetture, non per decidere se il modello funziona nella tua reception o nel tuo call center.

Granite 4.1: quando la trasparenza vale più delle prestazioni

IBM e Databricks hanno reso pubblici i dettagli architetturali e il processo di addestramento dei modelli Granite 4.1. Chiunque può ora leggere quali dati sono stati usati, con quali tecniche, e quali scelte di progettazione sono state fatte. Non è frequente.

Perché conta, in pratica? Perché la trasparenza sul processo di addestramento è la prima cosa che un auditor chiede quando un modello AI è coinvolto in decisioni con conseguenze legali o cliniche. Uno studio legale che usa AI per analizzare contratti, una clinica che usa AI per supportare diagnosi, un consulente finanziario che usa AI per profilare clienti: tutti questi contesti richiedono che il modello sia difendibile, non solo performante. “Funziona bene” non basta. “Sappiamo come è stato costruito e possiamo dimostrarlo” è un’altra conversazione.

Granite 4.1 è anche un candidato solido per chi valuta modelli da installare su server propri per ragioni di conformità al GDPR, il Regolamento Generale sulla Protezione dei Dati, Reg. UE 2016/679, che disciplina il trattamento dei dati personali in Europa. Non è necessariamente il modello più preciso in assoluto. È uno dei pochi con documentazione verificabile sul training, disponibile pubblicamente. Per molte aziende in settori regolamentati, questa caratteristica vale più di qualche punto percentuale in più su un benchmark.

Open ASR Leaderboard: classifiche più oneste per chi sceglie trascrizione vocale

L’Open ASR Leaderboard è la classifica pubblica che confronta le prestazioni dei sistemi ASR, sigla inglese di Automatic Speech Recognition, in italiano riconoscimento vocale automatico: software che converte la voce parlata in testo scritto. Viene usata da aziende e team tecnici per confrontare fornitori prima di scegliere uno strumento di trascrizione.

Il problema era noto da tempo. Il cosiddetto benchmark gaming, ovvero l’ottimizzazione di un modello per fare bella figura nei test senza migliorare le prestazioni reali, aveva reso alcune posizioni in classifica poco significative. Un fornitore che mostra “98% di accuratezza” su un leaderboard ottimizzato ad hoc non sta necessariamente vendendo un prodotto migliore di uno che ne mostra 94% su test indipendenti.

L’aggiornamento introduce meccanismi per identificare ed escludere risultati manipolati. Le classifiche ora pesano di più. Resta il fatto che i dataset di riferimento restano prevalentemente in inglese: un limite strutturale che l’aggiornamento non risolve.

Se un fornitore ti mostra numeri di accuratezza per un sistema di trascrizione, chiedi due cose. Prima: su quale leaderboard sono misurati e con quali dataset. Seconda: i campioni includono italiano, e con quale varietà di accenti e terminologia settoriale. Per un call center di una clinica privata milanese, le prestazioni su audio in italiano medico sono l’unico numero che conta.

DeepInfra su Hugging Face: sperimentare sì, produzione con cautela

DeepInfra è ora disponibile come provider ufficiale su Hugging Face, la piattaforma di riferimento per modelli AI open-source. In pratica: puoi accedere via API, sigla di Application Programming Interface, ovvero un’interfaccia che permette a due software di comunicare tra loro, a modelli linguistici e di visione open-source di qualità senza gestire server propri, pagando solo per le richieste effettive.

Per un e-commerce che vuole sperimentare con un modello di descrizione prodotto, o per uno studio immobiliare che vuole testare un assistente per le schede degli annunci, questa opzione abbassa la soglia di ingresso in modo significativo. Niente infrastruttura, niente team DevOps, niente costi fissi: paghi quello che usi.

Il punto critico è uno solo. I server di DeepInfra si trovano prevalentemente negli Stati Uniti. Se i dati che passi al modello contengono informazioni personali di clienti europei, nomi, indirizzi, storico acquisti, dati sanitari, il trasferimento extra-UE richiede una base giuridica adeguata secondo il GDPR. Non è un problema insormontabile, ma non è automaticamente risolto dal fatto che Hugging Face sia una piattaforma affidabile.

Usa DeepInfra per prototipare e testare con dati anonimi o sintetici. Prima di mandare in produzione flussi con dati reali di clienti, fai verificare dal tuo DPO, Data Protection Officer, in italiano responsabile della protezione dei dati, se il trasferimento è coperto da garanzie adeguate. In alternativa, Granite 4.1 o modelli equivalenti installabili su infrastruttura europea o interna rimangono la strada più lineare per chi non vuole aprire quel dossier legale adesso.

Domande correlate

vLLM V1 riduce i costi per chi usa AI in produzione?

L’aggiornamento riduce gli errori di output, non i costi computazionali diretti. Il risparmio reale arriva dalla minore necessità di correzione manuale a valle. Per chi processa poche decine di documenti al giorno, l’impatto è marginale. Per chi gestisce centinaia di richieste quotidiane, è rilevante.

I benchmark di Nemotron Nano Omni valgono per l’italiano?

No, al momento no. I test pubblicati da NVIDIA riguardano prevalentemente l’inglese. Prima di usare il modello su contenuti in italiano, trascrizioni, analisi documenti, assistenza clienti, è necessario condurre test interni su campioni rappresentativi del proprio caso d’uso reale.

Non automaticamente. I server sono prevalentemente negli Stati Uniti. Se i dati includono informazioni personali di utenti europei, il trasferimento richiede una base giuridica adeguata: clausole contrattuali standard o equivalente. Per dati sensibili, valuta deployment su infrastruttura europea o on-premise.

Come scelgo tra un modello ospitato esternamente e uno installato internamente?

Il criterio principale è la sensibilità dei dati. Dati anonimi o pubblici: un provider esterno funziona. Dati personali, clinici, legali o finanziari: valuta l’installazione interna con modelli a documentazione trasparente come Granite 4.1. Il costo di gestione è più alto, ma il controllo è completo e difendibile.

Granite 4.1 è adatto a chi non ha un team IT interno?

Non direttamente. L’installazione su server propri richiede competenze tecniche. Granite è rilevante per chi già dispone di un team tecnico o di un partner IT, e vuole un modello con documentazione verificabile per audit o conformità normativa.

Fonti:

DeepInfra on Hugging Face Inference Providers — Hugging Face Blog, accesso luglio 2025
Introducing NVIDIA Nemotron 3 Nano Omni — NVIDIA Developer Blog, accesso luglio 2025
Granite 4.1 LLMs: How They’re Built — Databricks Blog, accesso luglio 2025
[Adding Benchmaxxer Repellant to the Open ASR Leaderboard](https://lms