ML Drift: het vergemakkelijken van lokale inferentie

In kort : Een team van onderzoekers van Google en Meta heeft ML Drift ontwikkeld, een oplossing voor het efficiënt uitvoeren van AI direct op het apparaat, ondanks de uitdagingen van diverse GPU-architecturen. ML Drift verbetert de prestaties aanzienlijk en biedt brede compatibiliteit over mobiele en desktopplatforms dankzij innovaties zoals tensorvirtualisatie.

De meeste AI-modellen worden geïnferreerd (oftewel 'uitgevoerd') op een server. Echter, de ontwikkeling van lokale inferentie, dat wil zeggen direct op het apparaat, zou de verspreiding van kunstmatige intelligentie kunnen versnellen, met name door de serverbeperkingen te verminderen en de privacy te verbeteren.

Het implementeren van generatieve AI-modellen op verschillende soorten GPU's brengt echter aanzienlijke uitdagingen met zich mee: de diversiteit van GPU-architecturen, variërend van eigendom-oplossingen tot open platforms, maakt de taak gecompliceerd, aangezien elk type GPU zijn eigen kenmerken en beperkingen heeft.

Gezien een groeiend risico van materiële afhankelijkheid, wordt het optimaliseren van prestaties op heterogene platforms een noodzaak om een soepele en efficiënte uitvoering van generatieve modellen te garanderen.

Om deze uitdagingen aan te gaan, heeft een team van onderzoekers van Google en Meta, waaronder Jiuqiang Tang, Raman Sarokin, en Ekaterina Ignasheva, ML Drift ontwikkeld, een oplossing gericht op inferentie op verschillende platforms. Hun expertise ligt in het optimaliseren van GPU-inferentiemotoren, waardoor een efficiënte uitvoering van generatieve AI-werkbelastingen mogelijk wordt. ML Drift onderscheidt zich door zijn vermogen om technische obstakels te overwinnen die verband houden met de ontwikkeling van inter-GPU API's, waardoor een brede compatibiliteit over mobiele en desktopplatforms wordt gegarandeerd.

Methodologische aanpak en technische innovaties

ML Drift introduceert verschillende technische innovaties, waaronder de virtualisatie van tensoren en een geoptimaliseerd geheugenbeheer. De virtualisatie van tensoren maakt het mogelijk om logische indices los te koppelen van fysieke GPU-indices, waardoor een grotere flexibiliteit wordt geboden in geheugentoewijzing en kerneloptimalisatie. Bovendien maken beheer- en optimalisatiestrategieën voor geheugen het mogelijk om de geheugendruk te verminderen en de prestaties te verbeteren.

Resultaten en toekomstperspectieven

De prestatie-evaluaties van ML Drift tonen aanzienlijke verbeteringen ten opzichte van bestaande open-source oplossingen, met substantiële winst in termen van prestaties (10 tot 100 keer meer ondersteunde parameters). Deze veelbelovende resultaten openen de weg naar toekomstige toepassingen en verbeteringen, waaronder de integratie van geavanceerde kwantiseringstechnieken en het verkennen van gespecialiseerde instructies voor ML-werkbelastingen. In de toekomst is het team van plan om de capaciteiten van ML Drift uit te breiden naar nieuwere diffusie-modellen en op transformatoren gebaseerde architecturen, terwijl effectieve interoperabiliteit met heterogene processors wordt onderzocht.

Referentie van de publicatie: arXiv:2505.00232v1

Vertaald van ML Drift : faciliter l'inférence locale

Beter begrijpen

Wat is tensorvirtualisatie en waarom is het belangrijk voor inferentie op verschillende GPU's?

Tensorvirtualisatie scheidt logische van fysieke GPU-indexen, waardoor meer flexibiliteit in geheugenbeheer mogelijk is. Dit is cruciaal voor het optimaliseren van inferentieprestaties op verschillende GPU's met heterogene architecturen, wat een betere benutting van middelen mogelijk maakt.