Mistral AI lansează Mistral Small 3.1: un nou standard pentru IA open source?

În scurt : Mistral AI a lansat Small 3.1, o versiune îmbunătățită a modelului său de limbaj Small 3, care oferă performanțe superioare cu o arhitectură compactă. Acest model este adaptat pentru sarcini care necesită o înțelegere avansată a textelor și imaginilor lungi, permițând companiilor să aibă controlul asupra datelor lor fără a depinde de o infrastructură cloud.

Pe 30 ianuarie, Mistral AI, unicornul francez din domeniul GenAI, a introdus Small 3, un LLM cu 24 de miliarde de parametri, demonstrând că pentru a fi performant, un LLM nu necesită un număr astronomic de parametri. Small 3.1, succesorul său, păstrează o arhitectură compactă, introducând în același timp îmbunătățiri semnificative în ceea ce privește performanța, înțelegerea multimodală și gestionarea contextelor lungi, depășind modele precum Gemma 3-it 27B de la Google și GPT-4o Mini de la OpenAI.

La fel ca predecesorul său, Small 3.1 are 24 de miliarde de parametri și poate fi implementat pe configurații hardware accesibile, cum ar fi un PC care funcționează cu un singur GPU RTX 4090 sau un Mac cu o memorie RAM de 32 GB, permițând companiilor să controleze datele sensibile fără a depinde de o infrastructură cloud centralizată. Viteza de inferență este aceeași: 150 de tokeni pe secundă, garantând o latență minimă pentru aplicațiile care necesită răspunsuri instantanee. Fidel angajamentului său pentru open source, Mistral AI oferă ambele modele sub licența Apache 2.0, permițând comunității să le folosească, să le îmbunătățească și să le implementeze pentru diverse cazuri de utilizare.

Sursa: Mistral AI

Optimizarea performanței

Deși Small 3.1 se bazează pe Small 3, unul dintre avansurile majore constă în extinderea ferestrei contextuale de la 32.000 la 128.000 de tokeni, un atu esențial pentru sarcinile care implică raționamente pe secvențe lungi de text. În timp ce Mistral Small 3 se concentra în principal pe text, versiunea 3.1 îmbunătățește interpretarea imaginilor și documentelor, ceea ce îl poziționează favorabil față de modelele proprietare de dimensiuni mici și deschide calea către aplicații variate, de la controlul calității industriale la recunoașterea documentară și analiza automată a imaginilor medicale.

Mistral Small 3.1 este disponibil în două formate :

O versiune instruită, Mistral Small 3.1 Instruct, pregătită să fie utilizată pentru sarcini conversaționale și de înțelegere a limbajului ;
O versiune preantrenată, Mistral Small 3.1 Base, ideală pentru fine-tuning și specializare pe domenii specifice (sănătate, finanțe, juridic, etc.).

Versiunea Instruct este unul dintre cele mai bune modele din categoria sa, depășind concurenții săi pe benchmark-uri care necesită raționament și înțelegere contextuală. Conform benchmark-urilor împărtășite de Mistral AI :

Small 3.1 Instruct afișează performanțe mai bune decât Gemma 3-it (27B) de la Google în sarcini textuale, multimodale și multilingve ;
Depășește GPT-4o Mini de la OpenAI în benchmark-uri precum MMLU, HumanEval și LongBench v2, în special datorită ferestrei sale contextuale extinse la 128.000 de tokeni ;
De asemenea, depășește Claude-3.5 Haiku în sarcini complexe care implică contexte lungi și date multimodale;
Excelează față de Cohere Aya-Vision (32B) în benchmark-uri multimodale precum ChartQA și DocVQA, demonstrând o înțelegere avansată a datelor vizuale și textuale ;
Small 3.1 afișează performanțe ridicate în multilingvism, depășind concurenții săi în categorii precum limbile europene și asiatice.

Mistral Small 3.1 poate fi descărcat de pe platforma Huggingface și testat pe Platforma Mistral AI. Este, de asemenea, disponibil pe Google Cloud Vertex AI și va fi oferit pe NVIDIA NIM în săptămânile următoare.

Tradus de Mistral AI lance Mistral Small 3.1 : une nouvelle référence pour l'IA open source ?

Pentru a înțelege mai bine

Ce este un LLM (Large Language Model) în termeni de tehnologie și funcționare?

Un LLM este un model de inteligență artificială conceput pentru a înțelege și genera limbaj natural. Este format din miliarde de parametri care sunt ajustați prin antrenament pe cantități mari de text pentru a prezice următorul cuvânt dintr-o propoziție. LLM-urile sunt utilizate pentru aplicații precum traducerea automată, rezumarea textului și agenții conversaționali.

Ce este licența Apache 2.0 și de ce este importantă pentru proiectele open source?

Licența Apache 2.0 este o licență de software open source care permite utilizatorilor să facă modificări semnificative și să folosească software-ul în scopuri comerciale sau private, oferind în același timp brevete. Este importantă deoarece asigură că contribuțiile rămân gratuite și accesibile, stimulând inovația și adoptarea noilor tehnologii.