Las pruebas de codificación de Android de Google revelan una debilidad inesperada de Gemini 3.5 Flash

TL;DR

Los resultados de Android Bench de Google muestran que Gemini 3.5 Flash está detrás de modelos más antiguos a pesar de su posicionamiento premium.
Gemini 3.5 Flash no quedó entre los cinco primeros, mientras que GPT 5.5 de OpenAI obtuvo el primer lugar y Gemini 3.1 Pro Preview superó a su sucesor.
El modelo Flash más nuevo de Google obtuvo una puntuación de 63,7 y se convirtió en la opción más cara del ranking, con un promedio de 147,1 dólares por ejecución.

Google acaba de actualizar su clasificación de Android Bench y los resultados presentan a los desarrolladores una imagen desconcertante. El nuevo Gemini 3.5 Flash de Google se está quedando atrás de su predecesor y le cobra tres veces el precio por usarlo.

La última tabla de clasificación de codificación de Android, un punto de referencia que evalúa qué tan bien los diferentes modelos de IA pueden realizar tareas de desarrollo de Android, presentó Gemini 3.5 Flash por primera vez, pero el recién llegado no llegó a estar entre los cinco primeros. Encabezando la lista estaba GPT 5.5 de OpenAI, que obtuvo una puntuación de 74, seguido por GPT 5.4 y un modelo anterior de Google, Gemini 3.1 Pro Preview, ambos con 72,4. Los nuevos modelos Claude Opus también superaron a la variante Flash.

Gemini 3.5 Flash obtuvo una puntuación de 63,7, ubicándose sexto en la general. Sin embargo, lo que fue más sorprendente fue su eficiencia. El modelo promedió 355,9 tokens en total, un gran salto en comparación con otros sistemas, según los datos de referencia de Google. Eso supuso un coste medio de 147,1 dólares, lo que lo convierte en el modelo más caro de toda la lista, incluso con un rendimiento más lento que el de varios rivales.

En contexto, la marca Flash de Google siempre ha tenido que ver con la velocidad y los precios más baratos. En Google I/O 2026, la compañía anunció el modelo Flash más potente que jamás haya creado, Gemini 3.5 Flash, que, según afirmó, tenía capacidades de codificación más sólidas y mejor soporte para agentes de inteligencia artificial y flujos de trabajo complejos. Google también dijo que el modelo superó al Gemini 3.1 Pro en una serie de pruebas internas y produjo resultados hasta cuatro veces más rápido que los modelos fronterizos de la competencia.

Sin embargo, el punto de referencia de Android cuenta una historia diferente. Gemini 3.5 Flash puede brillar en las evaluaciones más amplias de tareas de codificación y agentes ejecutadas por Google, pero su rendimiento en tareas reales de desarrollo de Android parece menos que estelar. Por ejemplo, Gemini 3.1 Pro Preview obtuvo una puntuación significativamente mejor y costó aproximadamente un tercio más, como señaló 9to5Google.

La pregunta más importante ahora es si Google puede mejorar Gemini 3.5 Flash con actualizaciones o si el próximo Gemini 3.5 Pro cumplirá mejor las promesas de rendimiento de la compañía. Por ahora, los propios números de Google sugieren que lo más nuevo no siempre es mejor.