ML Drift: facilitarea inferenței locale

În scurt : O echipă de cercetători de la Google și Meta a dezvoltat ML Drift, o soluție pentru a executa eficient inteligența artificială direct pe dispozitiv, în ciuda provocărilor legate de diversitatea arhitecturilor GPU. ML Drift, datorită inovațiilor precum virtualizarea tensorilor, îmbunătățește semnificativ performanțele și oferă o mare compatibilitate pe platformele mobile și de desktop.

Majoritatea modelelor de inteligență artificială sunt inferate (adică „executate”) pe server. Dezvoltarea inferenței locale, adică direct pe dispozitiv, ar accelera răspândirea inteligenței artificiale, în special prin reducerea constrângerilor serverului și îmbunătățirea confidențialității.

Cu toate acestea, implementarea modelelor de inteligență artificială generative pe diverse tipuri de GPU prezintă provocări notabile: diversitatea arhitecturilor GPU, de la soluții proprietare la platforme deschise, face sarcina complicată, fiecare tip de GPU având propriile caracteristici și limitări.

În fața unui risc crescând de dependență materială, optimizarea performanțelor pe platforme eterogene devine un imperativ pentru a asigura o execuție fluidă și eficientă a modelelor generative.

Pentru a depăși aceste provocări, o echipă de cercetători de la Google și Meta, incluzându-i pe Jiuqiang Tang, Raman Sarokin și Ekaterina Ignasheva, a dezvoltat ML Drift, o soluție destinată inferenței pe platforme variate. Expertiza lor constă în optimizarea motoarelor de inferență GPU, permițând o execuție eficientă a sarcinilor de lucru AI generative. ML Drift se remarcă prin capacitatea sa de a depăși obstacolele tehnice asociate dezvoltării de API-uri inter-GPU, asigurând astfel o compatibilitate largă pe platformele mobile și de desktop.

Abordare metodologică și inovații tehnice

ML Drift introduce mai multe inovații tehnice, inclusiv virtualizarea tensorilor și o gestionare optimizată a memoriei. Virtualizarea tensorilor permite disocierea indicilor logici de indicii fizici ai GPU-ului, oferind astfel o flexibilitate crescută în dispunerea memoriei și optimizarea nucleelor. În plus, strategiile de gestionare și optimizare a memoriei permit reducerea amprentei memoriei și îmbunătățirea performanțelor.

Rezultate și perspective de viitor

Evaluările de performanță ale ML Drift arată îmbunătățiri semnificative față de soluțiile open-source existente, cu câștiguri substanțiale în termeni de performanță (de 10 până la 100 de ori mai mulți parametri suportați). Aceste rezultate promițătoare deschid calea către aplicații și îmbunătățiri viitoare, inclusiv integrarea de tehnici de cuantificare avansate și explorarea instrucțiunilor specializate pentru sarcinile de lucru ML. În viitor, echipa intenționează să extindă capacitățile ML Drift la modele de difuzie mai noi și la arhitecturi bazate pe transformatoare, explorând în același timp interoperabilitatea eficientă cu procesoare eterogene.

Referință publicație: arXiv:2505.00232v1

Tradus de ML Drift : faciliter l'inférence locale

Pentru a înțelege mai bine

Ce este virtualizarea tensorilor și de ce este importantă pentru inferența pe GPU-uri variate?

Virtualizarea tensorilor separă indicii logici de cei fizici ai GPU-ului, permițând o flexibilitate sporită în gestionarea memoriei. Acest lucru este crucial pentru optimizarea performanței inferenței pe GPU-uri diverse cu arhitecturi eterogene, permițând o mai bună utilizare a resurselor.