Samenvatting
De meeste AI-modellen worden geïnferreerd (oftewel 'uitgevoerd') op een server. Echter, de ontwikkeling van lokale inferentie, dat wil zeggen direct op het apparaat, zou de verspreiding van kunstmatige intelligentie kunnen versnellen, met name door de serverbeperkingen te verminderen en de privacy te verbeteren.
Het implementeren van generatieve AI-modellen op verschillende soorten GPU's brengt echter aanzienlijke uitdagingen met zich mee: de diversiteit van GPU-architecturen, variërend van eigendom-oplossingen tot open platforms, maakt de taak gecompliceerd, aangezien elk type GPU zijn eigen kenmerken en beperkingen heeft.
Gezien een groeiend risico van materiële afhankelijkheid, wordt het optimaliseren van prestaties op heterogene platforms een noodzaak om een soepele en efficiënte uitvoering van generatieve modellen te garanderen.
Om deze uitdagingen aan te gaan, heeft een team van onderzoekers van Google en Meta, waaronder Jiuqiang Tang, Raman Sarokin, en Ekaterina Ignasheva, ML Drift ontwikkeld, een oplossing gericht op inferentie op verschillende platforms. Hun expertise ligt in het optimaliseren van GPU-inferentiemotoren, waardoor een efficiënte uitvoering van generatieve AI-werkbelastingen mogelijk wordt. ML Drift onderscheidt zich door zijn vermogen om technische obstakels te overwinnen die verband houden met de ontwikkeling van inter-GPU API's, waardoor een brede compatibiliteit over mobiele en desktopplatforms wordt gegarandeerd.
Methodologische aanpak en technische innovaties
ML Drift introduceert verschillende technische innovaties, waaronder de virtualisatie van tensoren en een geoptimaliseerd geheugenbeheer. De virtualisatie van tensoren maakt het mogelijk om logische indices los te koppelen van fysieke GPU-indices, waardoor een grotere flexibiliteit wordt geboden in geheugentoewijzing en kerneloptimalisatie. Bovendien maken beheer- en optimalisatiestrategieën voor geheugen het mogelijk om de geheugendruk te verminderen en de prestaties te verbeteren.
Resultaten en toekomstperspectieven
De prestatie-evaluaties van ML Drift tonen aanzienlijke verbeteringen ten opzichte van bestaande open-source oplossingen, met substantiële winst in termen van prestaties (10 tot 100 keer meer ondersteunde parameters). Deze veelbelovende resultaten openen de weg naar toekomstige toepassingen en verbeteringen, waaronder de integratie van geavanceerde kwantiseringstechnieken en het verkennen van gespecialiseerde instructies voor ML-werkbelastingen. In de toekomst is het team van plan om de capaciteiten van ML Drift uit te breiden naar nieuwere diffusie-modellen en op transformatoren gebaseerde architecturen, terwijl effectieve interoperabiliteit met heterogene processors wordt onderzocht.
Referentie van de publicatie: arXiv:2505.00232v1
Vertaald van ML Drift : faciliter l'inférence locale
Beter begrijpen
Wat is tensorvirtualisatie en waarom is het belangrijk voor inferentie op verschillende GPU's?
Tensorvirtualisatie scheidt logische van fysieke GPU-indexen, waardoor meer flexibiliteit in geheugenbeheer mogelijk is. Dit is cruciaal voor het optimaliseren van inferentieprestaties op verschillende GPU's met heterogene architecturen, wat een betere benutting van middelen mogelijk maakt.