Los últimos modelos Gemma 4 utilizan un truco de entrenamiento para reducir el uso de memoria en el dispositivo

TL;DR

Los modelos Gemma 4 ahora están disponibles para descargar con entrenamiento consciente de la cuantificación (QAT), que reduce el tamaño y la huella de memoria de los modelos.
Estos modelos de código abierto conservan mejor la calidad gracias a QAT en comparación con aquellos que utilizan cuantificación posterior al entrenamiento (PTQ).
Los modelos Gemma 4 optimizados con QAT están disponibles en cinco tamaños: Gemma 4 E2B, Gemma 4 E4B, Gemma 4 12B, Gemma 4 26B A4B y Gemma 4 31B.

Tras el lanzamiento por parte de Google del modelo Gemma 4 12B para computadora portátil a principios de esta semana, la compañía está lanzando nuevos puntos de control del modelo Gemma 4 con capacitación con reconocimiento de cuantificación. La cuantificación es necesaria para reducir la cantidad de memoria necesaria para ejecutar modelos ligeros. El método estándar es la cuantificación posterior al entrenamiento (PTQ), que cuantifica el modelo después del entrenamiento, pero podría dar como resultado un rendimiento más débil. Las últimas versiones de Gemma 4 utilizan entrenamiento consciente de la cuantificación (QAT) para reducir la pérdida de calidad del modelo y acelerar la velocidad de decodificación, según la publicación del blog de Google.

Google dice que incorporar la cuantificación en el proceso de capacitación da como resultado puntos de control con mejor rendimiento que los modelos refinados con PTQ. Los modelos comprimidos funcionan bien en teléfonos y portátiles gracias a un esquema de cuantificación móvil personalizado. Esto implica el uso de configuraciones precalculadas, compresión de 2 bits en ciertas partes del modelo y lista de vocabulario y compresión de memoria a corto plazo. Para el usuario, esto da como resultado un modelo más pequeño que consume menos memoria del sistema.

Hay varios tamaños de modelos disponibles con optimización QAT, incluidos Gemma 4 E2B, Gemma 4 E4B, Gemma 4 12B, Gemma 4 26B A4B y Gemma 4 31B. Las versiones más pequeñas, como el modelo Gemma 4 E2B de sólo texto, requieren menos de un gigabyte de memoria para funcionar. Estos pequeños puntos de control de Gemma 4 sin requisitos intensivos de recursos son ideales para ejecutarse en teléfonos.

Google compartió los requisitos de memoria aproximados para cargar los nuevos modelos Gemma 4 con QAT en varios tamaños:

Hay cuatro formatos diferentes de modelos QAT de Gemma 4 disponibles para descargar: puntos de control QAT no cuantificados, formato unificado generado por GPT (GGUF), optimizado para dispositivos móviles y tensores comprimidos. Estos modelos conservan “una calidad similar a la de bfloat16 y al mismo tiempo reducen drásticamente los requisitos de memoria para cargar el modelo”, según Google.

Después de descargar los pesos del modelo Gemma 4 QAT, los usuarios pueden ejecutar los puntos de control en sus teléfonos, computadoras portátiles o de escritorio. Puede encontrar los modelos móviles y de escritorio en Hugging Face, así como en LM Studio.

Noticias

IAGoogle

Seguir

Gracias por ser parte de nuestra comunidad. Lea nuestra Política de comentarios antes de publicar.