Proviamo i nuovi modelli open source di Google

Google ha da poco rilasciato Gemma, una nuova famiglia di modelli open source.

Attualmente, sono presenti due versioni:

Gemma 2B
Gemma 7B

Ho usato il modello 7B disponibile su HuggingFace, per capire se sia realmente all'avanguardia come riporta la relazione tecnica di Google.

Se volete provare voi stessi Google Gemma, potete farlo al seguente link.

Andremo ad effettuare tre confronti tra Gemma 7B e LLaMa 2 7B in tre aree: logica, generazione di testi e coding.

TLDR: Gemma sembra leggermente meglio di LLaMa 2.

Test di logica

Prompt

Date queste affermazioni, forniscimi la risposta che ritieni più corretta.

– Tutti i gli ingegneri sono precisi

– Luca è appassionato di giardinaggio

– Tutti gli appassionati di giardinaggio sono precisi

Quale delle seguenti affermazioni sarà sicuramente vera?

A) Luca è un ingegnere

B) Chi è appassionato di giardinaggio non può essere un ingegnere

C) Luca è preciso

D) Tutti gli ingegneri sono appassionati di giardinaggio

E) Tutti i precisi sono appassionati di giardinaggio".

La risposta corretta è la "C", poiché Luca è appassionato di giardinaggio, e tutti gli appassionati di giardinaggio sono precisi.

LLaMa 2 7B

LLaMa fornisce la risposta corretta, sebbene ci siano alcune fallacie logiche (es. Non vi è alcuna evidenza che tutti gli appassionati di giardinaggio siano precisi).

Gemma 7B

Gemma ha fornito una risposta secca e corretta, nonostante abbia utilizzato un termine errato (exorbitante), in cui voleva probabilmente intendere che c'è una relazione tra le due affermazioni.

Generazione di testi

Prompt

Scrivi una job description da inserire su LinkedIn per un social media manager.

LLaMa 2 7B

LLaMa ha prodotto un testo molto discorsivo ma, nonostante il prompt fosse in italiano, la sua risposta è stata interamente in inglese.

Nonostante questo, reputo che il testo generato sia stato scritto tutto sommato bene e che possa essere realmente utilizzato per trovare nuovi candidati.

Gemma

Gemma produce un risultato più breve, ma nella stessa lingua del prompt. Sicuramente il testo è meno discorsivo rispetto a LLaMa, ma va dritto al sodo.

Coding

Prompt

Scrivi una funzione in Python che calcoli la sequenza di Fibonacci.

LLaMa 2 7B

Il codice è molto pulito ed è ricorsivo, il che è sicuramente un punto a favore. I calcoli sono corretti ma il codice non è stato commentato.

Gemma

Gemma ci presenta una funzione commentata, in cui non ritorna il numero di Fibonacci, bensì l'intera lista, da 0 al numero che abbiamo scelto. Dato che non abbiamo fornito informazioni precise, questa è una possibile interpretazione.

Risultati finali

Sebbene i due modelli non abbiano prodotto differenze notevoli, sembra che Gemma sia leggermente meglio nel coding, data l'espressività del codice (nonostante la soluzione di LLaMa sia corretta e utilizzi la ricorsione), mentre per la generazione dei testi LLaMa produce un risultato più lungo e consistente.

Nel test di logica invece, Gemma fornisce una risposta breve ma più precisa, mentre LLaMa mostra delle fallacie logiche, nonostante la risposta corretta.

Ti è piaciuto questo articolo?

Condividilo sui social