Scienza

“DeepSeek sta causando onde d’urto in tutto il mondo. Ecco perché.” : ScienceAlert

La compagnia cinese di intelligenza artificiale (IA) DeepSeek ha inviato onde d’urto nella comunità tecnologica, con il rilascio di

“DeepSeek sta causando onde d’urto in tutto il mondo. Ecco perché.” : ScienceAlert

La compagnia cinese di intelligenza artificiale (IA) DeepSeek ha inviato onde d’urto nella comunità tecnologica, con il rilascio di modelli IA estremamente efficienti che possono competere con i prodotti all’avanguardia delle aziende statunitensi come OpenAI e Anthropic.


Fondata nel 2023, DeepSeek ha raggiunto i suoi risultati con una frazione del capitale e della potenza computazionale dei suoi concorrenti.


Il modello R1 di DeepSeek, rilasciato la settimana scorsa, ha suscitato entusiasmo tra i ricercatori, shock tra gli investitori e risposte da parte dei pesi massimi dell’IA. La compagnia ha seguito il rilascio del 28 gennaio con un modello che può lavorare sia con le immagini che con il testo.


Quindi, cosa ha fatto DeepSeek e come ci è riuscita?

DeepSeek App
(Justin Sullivan/Getty Images)

Cosa ha fatto DeepSeek

Nel mese di dicembre, DeepSeek ha rilasciato il suo modello V3. Questo è un potente modello di linguaggio “standard” che si esprime a un livello simile a GPT-4o di OpenAI e Claude 3.5 di Anthropic.


Sebbene questi modelli siano soggetti a errori e a volte inventino fatti, possono svolgere compiti come rispondere a domande, scrivere saggi e generare codice informatico. In alcuni test di risoluzione di problemi e ragionamento matematico, ottengono punteggi migliori della media umana.


V3 è stato addestrato a un costo stimato di circa 5,58 milioni di dollari USA. Questo è notevolmente più economico rispetto a GPT-4, per esempio, che è costato più di 100 milioni di dollari per essere sviluppato.


DeepSeek sostiene anche di aver addestrato V3 utilizzando circa 2.000 chip computer specializzati, precisamente H800 GPU prodotte da NVIDIA. Questo è nuovamente molto inferiore rispetto ad altre aziende, che potrebbero aver utilizzato fino a 16.000 dei più potenti chip H100.


Il 20 gennaio, DeepSeek ha rilasciato un altro modello, chiamato R1. Questo è un cosiddetto modello di “ragionamento”, che cerca di affrontare problemi complessi passo dopo passo. Questi modelli sembrano essere migliori in molti compiti che richiedono contesto e che hanno più parti interconnesse, come la comprensione del testo e la pianificazione strategica.


Il modello R1 è una versione modificata di V3, adattata con una tecnica chiamata apprendimento per rinforzo. R1 sembra funzionare a un livello simile a o1 di OpenAI, rilasciato l’anno scorso.


DeepSeek ha anche utilizzato la stessa tecnica per creare versioni “di ragionamento” di piccoli modelli open-source che possono essere eseguiti su computer domestici.


Questo rilascio ha scatenato un enorme interesse per DeepSeek, aumentando la popolarità della sua app di chatbot alimentata da V3 e innescando un enorme crollo dei prezzi nelle azioni tecnologiche mentre gli investitori rivalutano l’industria dell’IA. Al momento della scrittura, il produttore di chip NVIDIA ha perso circa 600 miliardi di dollari in valore.


Come DeepSeek ci è riuscita

I progressi di DeepSeek sono stati nell’ottenere una maggiore efficienza: ottenere buoni risultati con meno risorse. In particolare, i sviluppatori di DeepSeek hanno innovato due tecniche che potrebbero essere adottate più ampliamente dai ricercatori di IA.


La prima ha a che fare con un’idea matematica chiamata “sparsità”. I modelli di IA hanno molti parametri che determinano le loro risposte agli input (V3 ha circa 671 miliardi), ma solo una piccola frazione di questi parametri viene utilizzata per un determinato input.


Tuttavia, prevedere quali parametri saranno necessari non è facile. DeepSeek ha utilizzato una nuova tecnica per farlo e poi ha addestrato solo quei parametri. Come risultato, i suoi modelli hanno richiesto molto meno addestramento rispetto a un approccio convenzionale.


L’altro trucco riguardava il modo in cui V3 memorizza le informazioni nella memoria del computer. DeepSeek ha trovato un modo ingegnoso per comprimere i dati rilevanti, rendendo più facile memorizzarli e accedervi rapidamente.


Cosa significa

I modelli e le tecniche di DeepSeek sono stati rilasciati sotto la Licenza MIT, il che significa che chiunque può scaricarli e modificarli.


Sebbene questo possa essere una cattiva notizia per alcune aziende di IA – i cui profitti potrebbero essere erosi dall’esistenza di modelli potenti disponibili gratuitamente – è una ottima notizia per la comunità di ricerca dell’IA più in generale.


Attualmente, molta ricerca sull’IA richiede accesso a enormi quantità di risorse computazionali. I ricercatori come me, che lavorano nelle università (o in qualsiasi altro posto tranne che nelle grandi aziende tecnologiche), hanno avuto una capacità limitata di svolgere test e esperimenti.


Modelli e tecniche più efficienti cambiano la situazione. Sperimentazione e sviluppo potrebbero ora essere significativamente più facili per noi.


Per i consumatori, l’accesso all’IA potrebbe anche diventare più economico. Più modelli IA potrebbero essere eseguiti sui dispositivi degli utenti, come laptop o telefoni, invece di operare “nel cloud” a pagamento di un abbonamento.

Per i ricercatori che già possiedono molte risorse, una maggiore efficienza potrebbe avere meno effetto. Non è chiaro se l’approccio di DeepSeek aiuterà a creare modelli con migliori prestazioni complessive o semplicemente modelli più efficienti.The Conversation

Tongliang Liu, Professore Associato di Machine Learning e Direttore del Centro AI di Sydney, Università di Sydney

Questo articolo è ripubblicato da The Conversation con licenza Creative Commons. Leggi l’articolo originale.

About Author

ricercatissimo.it@gmail.com

Leave a Reply

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *