Modelli AI più veloci · l'Osservatorio

Questa settimana non è uscito nessun chatbot nuovo, nessuna interfaccia rivoluzionaria, nessun annuncio pensato per fare notizia sui social. Eppure è stata una delle settimane più rilevanti degli ultimi mesi per chi usa o vuole usare l’AI in azienda: sono cambiati i motori, non le carrozzerie. vLLM V1 con reinforcement learning sulla correttezza, l’integrazione DeepInfra su Hugging Face, NVIDIA Nemotron Nano Omni e IBM Granite 4.1 con trasparenza sul training sono sviluppi che toccano costi, conformità normativa e architetture decisionali, non funzionalità visibili. La tesi è semplice e scomoda: le aziende italiane che aspettano che questi cambiamenti diventino “facili” prima di occuparsene rischiano di arrivare tardi, non solo sul piano competitivo ma su quello legale.

vLLM V1: il costo per risposta non è scritto nella pietra

Per anni il modello di business dell’AI applicata alle aziende ha funzionato così: paghi ogni chiamata API a OpenAI, Anthropic o Google, i dati transitano su server americani, il costo scala linearmente con l’uso. vLLM, libreria open source per l’esecuzione efficiente di modelli linguistici su hardware proprio, ha cambiato questa equazione, e la versione V1 la cambia ulteriormente introducendo ottimizzazioni al throughput e un approccio al training che mette la correttezza delle risposte come primo criterio di ottimizzazione, prima della fluidità, prima della lunghezza, prima di qualsiasi metrica di gradimento superficiale.

Prendiamo un caso concreto: uno studio di consulenza del lavoro che usa un modello per generare bozze di lettere, estrarre dati da cedolini, rispondere a quesiti previdenziali ricorrenti. Con API esterne, ogni richiesta ha un costo variabile e i dati dei dipendenti dei clienti escono dall’ufficio. Con vLLM su un server dedicato, il costo diventa fisso e i dati restano dove devono restare. La valutazione economica non è banale, richiede un’analisi del volume mensile di richieste e del costo dell’hardware, ma è una domanda che qualsiasi responsabile IT dovrebbe essere in grado di rispondere in mezza giornata.

Il punto sulla correttezza merita una riflessione separata. Un modello fluente ma impreciso è un rischio operativo, non un’imperfezione accettabile. Se il sistema genera una risposta sbagliata su un’aliquota contributiva o su una scadenza fiscale, il danno non è teorico. L’approccio RL correctness-first di vLLM V1, che prioritizza la verifica della risposta corretta nel processo di reinforcement learning, va nella direzione giusta, ma nessun benchmark di laboratorio sostituisce un test su casi reali della propria azienda.

L’annuncio di DeepInfra come inference provider su Hugging Face, pubblicato sul blog ufficiale della piattaforma a luglio 2025, significa che chi accede ai modelli open source tramite Hugging Face può ora eseguirli sull’infrastruttura DeepInfra con una singola riga di configurazione, senza gestire server, senza occuparsi di scalabilità, senza un team DevOps dedicato.

Per un’agenzia immobiliare che vuole estrarre automaticamente le clausole chiave dai contratti in ingresso, o per un e-commerce che vuole classificare le richieste di reso prima che arrivino all’operatore, questo abbassa la barriera tecnica in modo significativo. Serve un developer capace di chiamare un’API, non un’intera infrastruttura cloud.

Il problema è che DeepInfra ha server prevalentemente negli Stati Uniti. Inviare dati personali di clienti o dipendenti su quella infrastruttura senza una valutazione di conformità al GDPR è un errore che molte aziende italiane stanno già facendo inconsapevolmente. Il Regolamento europeo sulla protezione dei dati non distingue tra aziende grandi e piccole, e il trasferimento di dati verso paesi terzi senza adeguate garanzie è una violazione che il Garante italiano ha già sanzionato in casi analoghi. Mistral AI, con infrastruttura europea, è l’alternativa più matura da includere in qualsiasi confronto serio.

NVIDIA Nemotron Nano Omni: multimodalità reale, non marketing

NVIDIA ha presentato Nemotron Nano Omni come modello multimodale capace di elaborare testo, audio, immagini e video in un unico contesto, con supporto a sequenze lunghe pensato per agenti AI che operano su documenti estesi o registrazioni audio. Il blog ufficiale NVIDIA Developer descrive casi d’uso su archivi documentali, analisi di video di ispezione e trascrizione con comprensione contestuale.

Un’azienda manifatturiera del distretto ceramico di Sassuolo che accumula centinaia di video di controllo qualità al mese ha oggi due opzioni: un operatore che li rivede manualmente, o un sistema che li analizza in automatico e segnala le anomalie. Nemotron Nano Omni rende la seconda opzione tecnicamente praticabile a costi che non richiedono più un budget da multinazionale.

Detto questo, “tecnicamente praticabile” non significa “plug-and-play”. Integrare un modello multimodale in un processo produttivo reale richiede lavoro di customizzazione, validazione e manutenzione. Il percorso realistico per la maggior parte delle aziende italiane passa dai propri fornitori software: i gestionali ERP, le piattaforme documentali, i CRM. La cosa utile da fare adesso è segnalare a questi fornitori quali processi richiedono oggi lettura manuale di documenti lunghi o revisione di registrazioni, così da essere pronti quando l’integrazione arriverà nelle prossime versioni dei prodotti.

IBM Granite 4.1 e l’AI Act: la trasparenza sul training non è un optional

IBM ha pubblicato a luglio 2025 la documentazione tecnica completa sulla serie Granite 4.1, inclusi architettura, dataset di addestramento e metodologia. È una scelta che la maggior parte dei fornitori di modelli non fa, e che nel contesto normativo europeo attuale ha un peso specifico crescente.

L’AI Act, Regolamento UE 2024/1689 entrato in vigore nell’agosto 2024, richiede documentazione tecnica per i sistemi AI classificati ad alto rischio. L’Art. 99 del Regolamento prevede sanzioni fino a 35 milioni di euro o al 7% del fatturato globale per le violazioni più gravi. Le aziende italiane che usano sistemi AI in sanità, finanza o selezione del personale sono già soggette a questi obblighi, indipendentemente dalle dimensioni.

Qui vale un’opinione diretta: l’enforcement reale dell’AI Act sulle aziende di medie dimensioni è ancora quasi inesistente, e molti fornitori lo sanno. La documentazione tecnica che IBM pubblica volontariamente è esattamente il tipo di materiale che le autorità di vigilanza nazionali chiederanno quando l’enforcement si intensificherà, probabilmente tra il 2026 e il 2027. Scegliere oggi fornitori che documentano il proprio processo di training non è una garanzia di conformità automatica, ma è una posizione difendibile. Scegliere fornitori che non sanno rispondere alla domanda “come è stato addestrato questo modello?” è una posizione che diventerà difficile da giustificare.

Iubenda, che offre strumenti di compliance per il web e ha già integrato funzionalità legate al GDPR per migliaia di aziende italiane, è un esempio di come la documentazione normativa possa diventare un prodotto. È ragionevole aspettarsi che nei prossimi mesi emergano strumenti analoghi specificamente orientati alla documentazione AI Act.

Open ASR Leaderboard e il problema dei benchmark

Vale la pena menzionare un elemento di contesto che attraversa tutti questi annunci: la Open ASR Leaderboard su Hugging Face, la classifica pubblica dei modelli di riconoscimento vocale valutati su dataset standardizzati, è uno dei pochi strumenti di confronto indipendente disponibili. Ma anche i benchmark pubblici hanno i loro limiti: misurano performance su dataset di test, non su audio registrato in un capannone industriale con rumore di fondo, o su dialetti regionali italiani, o su terminologia tecnica di settore.

Fidarsi dei benchmark senza testare il modello sul proprio caso d’uso specifico è un errore che costa caro, e i vendor lo sanno benissimo quando costruiscono i loro materiali di marketing.

Una sola cosa da fare

Prima di valutare qualsiasi nuovo strumento AI, costruisci un test minimo su venti casi reali della tua azienda: domande tipiche, documenti rappresentativi, situazioni che si ripetono ogni settimana. Misura quante risposte sono corrette, quante parzialmente corrette, quante errate. Due ore di lavoro che separano una decisione informata da una basata su una demo curata dal vendor. Tutto il resto viene dopo.

Fonti:

vLLM — Easy, Fast, and Cost-Effective LLM Serving: vllm.ai, accesso luglio 2025
DeepInfra on Hugging Face Inference Providers: huggingface.co/blog/deepinfra-inference-providers, luglio 2025
NVIDIA Nemotron Nano Omni: developer.nvidia.com, luglio 2025
IBM Granite 4.1 LLMs: ibm.com/blog/granite-4-1-llms, luglio 2025
Regolamento UE 2024/1689 (AI Act), Art. 99: EUR-Lex, testo ufficiale

vLLM V1: il costo per risposta non è scritto nella pietra

DeepInfra su Hugging Face: l’accesso ai modelli si semplifica, il GDPR resta

NVIDIA Nemotron Nano Omni: multimodalità reale, non marketing

IBM Granite 4.1 e l’AI Act: la trasparenza sul training non è un optional

Open ASR Leaderboard e il problema dei benchmark

Una sola cosa da fare

Segnali correlati

MiniMax M3 open weights: contesto da 1 milione di token e prezzi API competitivi, disponibile anche fuori dalla Cina

Infrastruttura AI aperta: vLLM 1.0, Nemotron Omni e DeepInfra su Hugging Face

AI infrastruttura