Sommaire
La plupart des modèles d'intelligence artificielle sont inférés (c'est à dire "exécutés") sur serveur. Or, le développement de l'inférence locale, c'est à dire directement sur l'appareil, permettrait d'accélérer la diffusion de l'intelligence artificielle, notamment en réduisant les contraintes serveur et en améliorant la confidentialité.
Toutefois, le déploiement de modèles d'intelligence artificielle génératifs sur divers types de GPU présente des défis notables: la diversité des architectures GPU, allant des solutions propriétaires aux plateformes ouvertes, rend la tâche compliquée, chaque type de GPU ayant ses propres caractéristiques et limitations.
Face à un risque croissant de dépendance matérielle, l'optimisation des performances sur des plateformes hétérogènes devient un impératif pour garantir une exécution fluide et efficace des modèles génératifs.
Pour relever ces défis, une équipe de chercheurs de Google et Meta, comprenant Jiuqiang Tang, Raman Sarokin, et Ekaterina Ignasheva, a développé ML Drift, une solution destinée à l'inférence sur des plateformes variées. Leur expertise réside dans l'optimisation des moteurs d'inférence GPU, permettant une exécution efficace des charges de travail d'IA générative. ML Drift se distingue par sa capacité à surmonter les obstacles techniques associés au développement d'API inter-GPU, assurant ainsi une large compatibilité à travers les plateformes mobiles et de bureau.
Approche méthodologique et innovations techniques
ML Drift introduit plusieurs innovations techniques, notamment la virtualisation des tenseurs et une gestion optimisée de la mémoire. La virtualisation des tenseurs permet de dissocier les indices logiques des indices physiques du GPU, offrant ainsi une flexibilité accrue dans la disposition de la mémoire et l'optimisation des noyaux. De plus, des stratégies de gestion et optimisation de la mémoire permettent de réduire l'empreinte mémoire et d'améliorer les performances.
Résultats et perspectives d'avenir
Les évaluations de performance de ML Drift montrent des améliorations significatives par rapport aux solutions open-source existantes, avec des gains substantiels en termes de performance (de 10 à 100 fois plus de paramètres supportés). Ces résultats prometteurs ouvrent la voie à de futures applications et améliorations, notamment l'intégration de techniques de quantification avancées et l'exploration des instructions spécialisées pour les charges de travail ML. À l'avenir, l'équipe prévoit d'étendre les capacités de ML Drift à des modèles de diffusion plus récents et à des architectures basées sur des transformateurs, tout en explorant l'interopérabilité efficace avec des processeurs hétérogènes.
Référence de la publication : arXiv:2505.00232v1
Pour mieux comprendre (assisté par l'IA)
Qu'est ce que la virtualisation des tenseurs, et pourquoi est-ce important pour l'inférence sur des GPU variés ?
La virtualisation des tenseurs dissocie les indices logiques des indices physiques du GPU, permettant une flexibilité accrue dans la gestion de la mémoire. Cela est crucial pour optimiser les performances d'inférence sur des GPU divers aux architectures hétérogènes, permettant une meilleure utilisation des ressources.