Innoktiv

Digitalización de empresas

MAX Modular Accelerated Xecution

Modular fue fundada con la visión de permitir que la IA sea utilizada por cualquier persona, en cualquier lugar y para lograr esta visión, primero tuvieron que solucionar la infraestructura fragmentada y desarticulada sobre la cual se construye la IA hoy en día.

Desarrolladores globales tendrán el poder de acceder a un software de IA que sea verdaderamente utilizable, portable y escalable. Un mundo donde los desarrolladores sin presupuestos ilimitados o acceso al mejor talento puedan ser tan eficientes como los gigantes tecnológicos más grandes del mundo, donde la eficiencia y el costo total de propiedad del hardware de IA estén optimizados, donde las organizaciones puedan integrar fácilmente ASICs personalizados para sus casos de uso, donde las organizaciones puedan utilizar cualquier marco de IA que mejor se adapte a sus necesidades, y donde los programas de IA se escalen sin problemas a través del hardware para que la implementación de las últimas investigaciones en IA en producción «simplemente funcione».

Hoy la Plataforma Modular de Ejecución Acelerada (MAX) está disponible a nivel mundial, comenzando primero como una vista previa en sistemas Linux. MAX es un conjunto unificado de herramientas y bibliotecas que desbloquean rendimiento, programabilidad y portabilidad para pipelines de inferencia de IA. Cada componente de MAX está diseñado para simplificar el proceso de implementación de modelos en cualquier hardware, brindando la mejor relación costo-rendimiento posible para tus cargas de trabajo.

¿Qué se incluye con MAX?


MAX está diseñado para satisfacer las necesidades de implementación de IA, brindándo lo necesario para implementar pipelines de inferencia en tiempo real de baja latencia y alta capacidad en producción.

Este primer lanzamiento de MAX se entrega con tres componentes clave:

  • Motor MAX: Un compilador de IA de última generación y un sistema de tiempo de ejecución que soporta modelos PyTorch, TensorFlow y ONNX como Mistral, Difusión Estable, Llama2, WavLM, DLMR, ClipVit y muchos más. Ofrece una velocidad de inferencia incomparable en diversas plataformas de hardware, y apenas estamos comenzando.
  • Servicio MAX: Un envoltorio de servicio eficiente para el Motor MAX, que garantiza una interoperabilidad perfecta con los sistemas actuales de servicio de IA como NVIDIA Triton, y una implementación fluida en ecosistemas de contenedores como Kubernetes.
  • Mojo🔥: El primer lenguaje de programación del mundo creado desde cero para el desarrollo de IA, con tecnología de compilador de vanguardia que ofrece un rendimiento y una programabilidad incomparables en cualquier hardware.
  • MAX brinda a los desarrolladores superpoderes, proporcionándoles una variedad de herramientas y bibliotecas para construir aplicaciones de IA de alto rendimiento que pueden implementarse eficientemente en múltiples plataformas de hardware.

¿Cómo uso MAX?


MAX se integra perfectamente con tu infraestructura de herramientas y servicio existente, capturando el valor y las mejoras de rendimiento inmediatas de MAX con cambios mínimos en el código. Luego, cuando estés listo, puedes extender MAX para soportar otras partes de tu pipeline de IA y lograr aún más rendimiento, programabilidad y portabilidad.

Victorias rápidas en rendimiento y portabilidad

MAX compila y ejecuta tus modelos de IA existentes en una amplia gama de hardware, brindando ganancias de rendimiento inmediatas. Empezar es tan simple como usar nuestra API de Python o C para reemplazar tus llamadas de inferencia actuales de PyTorch, TensorFlow o ONNX con llamadas de inferencia del Motor MAX.

Al cambiar solo unas pocas líneas de código, tus modelos se ejecutan hasta 5 veces más rápido, aumentando la latencia para que puedas implementar modelos más grandes mientras mejoras la eficiencia para reducir significativamente los costos de cálculo en comparación con PyTorch, TensorFlow o ONNX Runtime. Y el Motor MAX proporciona portabilidad completa a través de una amplia gama de arquitecturas de CPU (Intel, AMD, ARM), con soporte para GPU próximamente. Esto significa que puedes moverte fácilmente al mejor hardware para tu caso de uso sin tener que reescribir tu modelo.

Además, puedes envolver el Motor MAX con MAX Servicing como un backend para NVIDIA Triton Inference Server para un stack de implementación de grado de producción. Triton proporciona puntos finales gRPC y HTTP, manejando eficientemente las solicitudes de entrada entrantes.

Extiende y optimiza tu pipeline

Además de ejecutar modelos existentes con el Motor MAX, puedes optimizar aún más tu rendimiento con las capacidades únicas de extensibilidad y programabilidad de MAX. El Motor MAX está construido usando Mojo, y también es completamente extensible por ti en Mojo. Hoy, la API de gráficos MAX te permite construir modelos de inferencia completos en Mojo, consolidando la complejidad que brindan los marcos de inferencia de «solución puntual» populares como llama.cpp, ofreciendo una mejor flexibilidad y mejor rendimiento. Próximamente, incluso podrás escribir operaciones personalizadas que puedan ser fusionadas nativamente por el compilador del Motor MAX en tu gráfico de modelo existente.

Más allá de la optimización del modelo con el Motor MAX, puedes acelerar aún más el resto de tu pipeline de IA migrando tu código de pre/post-procesamiento de datos y de aplicación a Mojo, utilizando Mojo nativo con la API de Mojo del Motor MAX. Nuestro norte es proporcionarte una gran cantidad de apalancamiento, para que puedas obtener innovaciones en IA en tus productos más rápido.

¿Cómo funciona MAX?
La base de MAX es Mojo, un modelo de programación común para todo el hardware de IA que tiene como objetivo unificar todo el stack de IA, desde los núcleos de gráficos hasta la capa de aplicación, y proporcionar una alternativa portable a Python, C y CUDA.

El Motor MAX utiliza Mojo de manera transparente para acelerar tus modelos de IA en una variedad de hardware de IA a través de un stack de compilador y tiempo de ejecución de vanguardia.

Los usuarios pueden cargar y optimizar modelos existentes de PyTorch, TensorFlow y ONNX con las interfaces de Python y C de MAX Engine, o construir sus propios grafos de inferencia utilizando la API de Gráficos Mojo. Además, hemos facilitado el uso de MAX Serving para integrar y respaldar rápidamente sus canalizaciones de servicios de inferencia existentes.

Debido a que los internos de MAX están construidos en Mojo, siempre puedes escribir Mojo nativo para optimizar aún más el resto de tus canalizaciones de IA, incluida la aceleración masiva de tu lógica de pre y post procesamiento, y finalmente eliminar Python de tus sistemas de producción de servicios de IA.

Una mejor experiencia para desarrolladores

Además del lanzamiento de vista previa de la Plataforma MAX, también se lanzaron muchas mejoras en la experiencia del desarrollador de MAX. Estas incluyen:

  • Repositorio de ejemplos de MAX: El repositorio de GitHub de MAX proporciona muchos ejemplos prácticos de cómo usar MAX en la práctica. Esto incluye ejemplos de inferencia para modelos de PyTorch y TensorFlow con las API de Python y C de MAX Engine, así como un modelo llama2.🔥 desarrollado con la API de Gráficos.
  • Nuevo sitio de documentación: Reconstruido desde cero, nuestro nuevo sitio de documentación presenta una búsqueda súper rápida, mejor categorización y estructura, ejemplos de código más ricos y una mejor usabilidad para los desarrolladores en todas partes. ¡Sin mencionar nuevos tutoriales para todas las nuevas características de MAX!
  • Nueva experiencia de «Playground» para Mojo: Nuestro nuevo playground de codificación Mojo es perfecto para aprendizajes tempranos y experimentación rápida. Puedes empezar a ejecutar código Mojo en segundos y compartirlo fácilmente con tus amigos a través de Gist.
  • Nuevo panel de desarrollador: Hemos renovado y actualizado nuestro panel de desarrollador, permitiéndote acceder a actualizaciones, el panel de rendimiento y nuestras próximas características de MAX Enterprise.

¡Hay más por venir!


Publicado

en

por