ML Drift: facilitar la inferencia local

TLDR : Un equipo de investigadores de Google y Meta ha desarrollado ML Drift, una solución para ejecutar eficientemente la inteligencia artificial directamente en el dispositivo, a pesar de los desafíos relacionados con la diversidad de arquitecturas GPU. ML Drift, gracias a innovaciones como la virtualización de tensores, mejora significativamente el rendimiento y ofrece una gran compatibilidad a través de plataformas móviles y de escritorio.

La mayoría de los modelos de inteligencia artificial se infieren (es decir, se "ejecutan") en servidores. Sin embargo, el desarrollo de la inferencia local, es decir, directamente en el dispositivo, permitiría acelerar la difusión de la inteligencia artificial, especialmente al reducir las limitaciones del servidor y mejorar la confidencialidad.

No obstante, el despliegue de modelos de inteligencia artificial generativa en varios tipos de GPU presenta desafíos notables: la diversidad de las arquitecturas GPU, desde las soluciones propietarias hasta las plataformas abiertas, complica la tarea, ya que cada tipo de GPU tiene sus propias características y limitaciones.

Ante un riesgo creciente de dependencia material, la optimización del rendimiento en plataformas heterogéneas se convierte en un imperativo para garantizar una ejecución fluida y eficiente de los modelos generativos.

Para afrontar estos desafíos, un equipo de investigadores de Google y Meta, que incluye a Jiuqiang Tang, Raman Sarokin y Ekaterina Ignasheva, ha desarrollado ML Drift, una solución destinada a la inferencia en plataformas variadas. Su experiencia reside en la optimización de los motores de inferencia GPU, permitiendo una ejecución eficiente de las cargas de trabajo de IA generativa. ML Drift se distingue por su capacidad de superar los obstáculos técnicos asociados al desarrollo de API inter-GPU, asegurando así una amplia compatibilidad a través de las plataformas móviles y de escritorio.

Enfoque metodológico e innovaciones técnicas

ML Drift introduce varias innovaciones técnicas, incluyendo la virtualización de tensores y una gestión optimizada de la memoria. La virtualización de tensores permite disociar los índices lógicos de los índices físicos del GPU, ofreciendo así una flexibilidad aumentada en la disposición de la memoria y la optimización de los núcleos. Además, las estrategias de gestión y optimización de la memoria permiten reducir la huella de memoria y mejorar el rendimiento.

Resultados y perspectivas futuras

Las evaluaciones de rendimiento de ML Drift muestran mejoras significativas en comparación con las soluciones de código abierto existentes, con ganancias sustanciales en términos de rendimiento (de 10 a 100 veces más parámetros soportados). Estos resultados prometedores abren el camino a futuras aplicaciones y mejoras, incluyendo la integración de técnicas de cuantificación avanzadas y la exploración de instrucciones especializadas para las cargas de trabajo ML. En el futuro, el equipo planea extender las capacidades de ML Drift a modelos de difusión más recientes y a arquitecturas basadas en transformadores, al tiempo que explora la interoperabilidad eficaz con procesadores heterogéneos.

Referencia de la publicación: arXiv:2505.00232v1

Traducido de ML Drift : faciliter l'inférence locale

Para entender mejor

¿Qué es la virtualización de tensores y por qué es importante para la inferencia en GPUs variadas?

La virtualización de tensores separa los índices lógicos de los físicos del GPU, permitiendo una mayor flexibilidad en la gestión de la memoria. Esto es crucial para optimizar el rendimiento de la inferencia en GPUs diversas con arquitecturas heterogéneas, permitiendo un mejor uso de los recursos.