Los modelos preentrenados de NVIDIA NIM acelerarán la implementación de IA
NVIDIA presentó NVIDIA Inference Microservices (NIM), un paquete de modelos de inferencia previamente entrenados para acelerar la implementación de IA a escala, durante GTC 2024. En una sesión de preguntas y respuestas, el CEO de NVIDIA, Jensen Huang, afirmó que la IA no está en el hardware, sino en el software; el hardware sólo está diseñado para habilitar las aplicaciones idealizadas.
NIM es parte del enfoque completo de NVIDIA para proporcionar el ecosistema completo necesario para que empresas de todos los tamaños no solo implementen IA listas para usar, sino que creen las suyas propias, adaptadas a sus necesidades. A diferencia de elegir API de desarrollo específicas, NIM permite experimentar con una serie de plataformas abiertas, todas optimizadas para CUDA en una asociación directa entre los desarrolladores y NVIDIA, y descargar el modelo que mejor se adapta a la demanda de cada cliente.
Libertad de elección y facilidad de migración
Los microservicios de inferencia de NVIDIA incluyen modelos para una variedad de industrias, desde atención médica, análisis de imágenes, asistentes virtuales de IA hasta desarrollo de juegos. En la práctica, todos los modelos reducidos previamente entrenados están disponibles en un formato abierto para que las corporaciones experimenten tanto en entornos de nube como en sus sistemas internos.
Como todos ya están optimizados para CUDA, técnicamente cualquier infraestructura de NVIDIA puede operarlos, permitiendo al menos entender cuál de estos modelos se adapta mejor a las necesidades de la empresa. Además, como todos están incluidos en el paquete NVIDIA AI Enterprise, la propia NVIDIA es responsable de dimensionar el tamaño de la infraestructura necesaria para operar esos servicios y dirigir al cliente al fabricante asociado con las soluciones más adecuadas.
Otra ventaja es que el soporte nativo de los productos incluidos en NIM para hardware NVIDIA le permite simplemente cambiar el modelo si uno inicial no funciona como se desea. El cliente simplemente necesita descargar el nuevo modelo y volver a entrenarlo internamente, utilizando prácticamente los mismos procesos que el producto anterior.
Además de optimizar el dimensionamiento de los costes de operación de la IA, evitando invertir más recursos de los estrictamente necesarios, según NVIDIA, este enfoque reduce el tiempo de implementación de meses a semanas.