Android Bench: La nueva realidad de la IA en desarrollo Android

Google acaba de lanzar Android Bench, y como desarrollador que migra apps iOS de 40K-100K líneas a Android casi a diario, tengo opiniones. No es otro benchmark genérico más. Es el primer intento serio de medir qué tan bien entienden los LLMs los caprichos únicos del desarrollo Android.

Después de probarlo en mis proyectos reales—Leonard AI con 104K líneas de Swift que estoy portando a Kotlin, y ChutApp donde manejo Android + iOS en paralelo—puedo confirmar una cosa: los resultados no mienten, pero tampoco cuentan toda la historia.

¿Qué está midiendo realmente Android Bench?

No es otro HumanEval disfrazado. Android Bench extrae tareas del mundo real de repositorios GitHub públicos (+500 estrellas) y mide tres tipos de competencias que cualquier desarrollador Android reconoce:

1. Breaking changes entre versiones

// Antes de Android 14 (API 34)
if (Build.VERSION.SDK_INT >= Build.VERSION_CODES.TIRAMISU) {
    manager.registerReceiver(receiver, filter, Context.RECEIVER_NOT_EXPORTED)
}

// Android 14+ requiere declaración explícita
if (Build.VERSION.SDK_INT >= Build.VERSION_CODES.UPSIDE_DOWN_CAKE) {
    manager.registerReceiver(receiver, filter, 
        Context.RECEIVER_NOT_EXPORTED or Context.RECEIVER_VISIBLE_TO_INSTANT_APPS)
}

En Leonard AI tuve exactamente este problema al actualizar de API 33 a 34. El LLM que use GPT-4 en ese momento) sugirió mantener ambas versiones pero no detectó que el nuevo flag era obligatorio en ciertos contextos. Tuve que debuggearlo manualmente.

2. Migraciones a Jetpack Compose

// Legacy View System
class ProfileActivity : AppCompatActivity() {
    private lateinit var profileImageView: ImageView
    private lateinit var nameTextView: TextView
    
    override fun onCreate(savedInstanceState: Bundle?) {
        super.onCreate(savedInstanceState)
        setContentView(R.layout.activity_profile)
        
        profileImageView = findViewById(R.id.profile_image)
        nameTextView = findViewById(R.id.profile_name)
        
        loadProfileData()
    }
}

// Jetpack Compose equivalente
@Composable
fun ProfileScreen(
    profileState: ProfileState = viewModel<ProfileViewModel>().profileState.collectAsState()
) {
    Column(
        modifier = Modifier
            .fillMaxSize()
            .padding(16.dp)
    ) {
        AsyncImage(
            model = profileState.value.imageUrl,
            contentDescription = "Profile Image",
            modifier = Modifier
                .size(120.dp)
                .clip(CircleShape)
        )
        
        Spacer(modifier = Modifier.height(16.dp))
        
        Text(
            text = profileState.value.name,
            style = MaterialTheme.typography.headlineMedium
        )
    }
}

En ChutApp migré 15 pantallas de Views a Compose el año pasado. Lo que más falla en LLMs es el state management—sugieren remember cuando necesitas collectAsState(), o no manejan bien el lifecycle de ViewModels en Compose. Es el tipo de error que solo detectas cuando la app se recrea.

3. Especificidades de plataforma (Wear OS, TV)

// Networking en Wear OS requiere verificaciones específicas
class WearNetworkManager(private val context: Context) {
    private val capabilityClient = Wearable.getCapabilityClient(context)
    
    suspend fun syncWithPhone(): Result<SyncData> {
        // Verificar conectividad con el teléfono
        val phoneNodes = capabilityClient
            .getCapability("phone_sync", CapabilityClient.FILTER_REACHABLE)
            .await()
            .nodes
            
        if (phoneNodes.isEmpty()) {
            return Result.failure(NoPhoneConnectedException())
        }
        
        // Android Bench evalúa si el LLM entiende que Wear OS
        // necesita MessageClient en lugar de HTTP directo
        return sendMessageToPhone(phoneNodes.first())
    }
}

Esto es súper específico. La mayoría de LLMs sugieren usar Retrofit o HttpURLConnection directamente en Wear OS, cuando en realidad necesitas el DataLayer API. Es el tipo de conocimiento que solo tienes si has desarrollado para Wear OS.

Resultados: La realidad de marzo 2026

Los números no mienten, pero hay matices importantes:

Modelo	Score (%)	Mi experiencia práctica
Gemini 3.1 Pro Preview	72.4%	Sorprendentemente bueno en Compose, falla en edge cases
Claude Opus 4.6	66.6%	Mejor para arquitectura, a veces verbose
GPT-5.2-Codex	62.5%	Conocimiento amplio pero inconsistente
Claude Sonnet 4.6	58.4%	Balance precio/calidad, lo uso diario

Gemini 3.1 Pro: El favorito de la casa

Google tiene ventaja obvia—entrenan con documentación Android de primera mano. En mis pruebas, Gemini 3.1 es el único que sugiere patrones recomendados por Google sin que se lo pidas:

// Gemini sugiere esto automáticamente
@OptIn(ExperimentalMaterial3Api::class)
@Composable
fun SearchScreen() {
    var query by rememberSaveable { mutableStateOf("") }
    
    SearchBar(
        inputField = {
            SearchBarDefaults.InputField(
                query = query,
                onQueryChange = { query = it },
                onSearch = { /* handle search */ },
                placeholder = { Text("Buscar usuarios...") }
            )
        },
        expanded = false,
        onExpandedChange = { }
    ) {
        // Content
    }
}

Otros LLMs siguen sugiriendo OutlinedTextField con leadingIcon manual. Gemini conoce las APIs más recientes.

Claude Opus 4.6: El arquitecto

Claude es mejor explicando por qué hace algo:

// Claude explica el patrón Repository completo
interface UserRepository {
    suspend fun getUser(id: String): Result<User>
}

// Implementación con Room + Retrofit
class UserRepositoryImpl(
    private val userDao: UserDao,
    private val apiService: UserApiService,
    private val networkChecker: NetworkChecker
) : UserRepository {
    
    override suspend fun getUser(id: String): Result<User> {
        return try {
            // Claude explica: "Primero cache, luego red"
            val cachedUser = userDao.getUser(id)
            if (cachedUser != null && !isStale(cachedUser)) {
                Result.success(cachedUser)
            } else if (networkChecker.isConnected()) {
                val networkUser = apiService.getUser(id)
                userDao.insertUser(networkUser)
                Result.success(networkUser)
            } else {
                cachedUser?.let { Result.success(it) } 
                    ?: Result.failure(NetworkException())
            }
        } catch (e: Exception) {
            Result.failure(e)
        }
    }
}

GPT-5.2 habría sugerido solo la interfaz. Gemini habría hecho la implementación pero sin explicar el patrón.

La trampa de los benchmarks: Lo que no miden

Android Bench es excelente para medir competencia técnica, pero en el desarrollo real hay factores que ningún benchmark puede capturar:

1. Contexto de proyecto completo

// En Leonard AI tengo esta estructura
data class Treatment(
    val id: String,
    val customerId: String,
    val centerId: String,
    val procedures: List<Procedure>,
    val pricing: PricingModel,
    val metadata: Map<String, Any>
)

// El LLM necesita entender que:
// - customerId conecta con Supabase Auth
// - centerId determina configuración regional
// - procedures tienen validaciones específicas por tipo de centro
// - pricing cambia según país/moneda

Un LLM puede resolver tareas aisladas perfectamente, pero fallar al entender las interdependencias de una app real de 100K líneas.

2. Decisiones de UX específicas de Android

// iOS (SwiftUI) - Natural gesture
.onTapGesture {
    withAnimation(.spring()) {
        isExpanded.toggle()
    }
}

// Android (Compose) - Necesitas pensar en accesibilidad
.clickable(
    role = Role.Button,
    onClickLabel = "Expandir detalles"
) {
    // Android users expect haptic feedback
    performHapticFeedback(HapticFeedbackType.LongPress)
    isExpanded = !isExpanded
}

Los LLMs suelen portar directamente patrones iOS sin adaptar a las expectativas de Android. Material Design no es solo colores—es filosofía de interacción.

3. Performance en dispositivos reales

En ChutApp aprendí que código técnicamente correcto puede ser inutilizable:

// Técnicamente correcto pero terrible en dispositivos baratos
@Composable
fun PlayerGrid(players: List<Player>) {
    LazyVerticalGrid(
        columns = GridCells.Adaptive(minSize = 150.dp)
    ) {
        items(players) { player ->
            PlayerCard(player) // Cada card hace network calls
        }
    }
}

// Optimizado para Android real
@Composable
fun PlayerGrid(
    players: List<Player>,
    preloadedImages: Map<String, ImageBitmap> = remember { mutableMapOf() }
) {
    LazyVerticalGrid(
        columns = GridCells.Fixed(2) // Fijo para predictibilidad
    ) {
        items(
            items = players,
            key = { it.id } // Crucial para recomposition
        ) { player ->
            PlayerCard(
                player = player,
                image = preloadedImages[player.id],
                modifier = Modifier.animateItemPlacement()
            )
        }
    }
}

Android Bench no puede medir si tu app funciona bien en un Redmi Note 10 con 4GB RAM.

Cómo usar Android Bench en desarrollo real

He integrado las métricas de Android Bench en mi workflow. No como verdad absoluta, sino como filtro inicial:

1. Prototipado rápido

Para arquitecturas iniciales o migraciones complejas, empiezo con Gemini 3.1. Su conocimiento de APIs actuales me ahorra horas de documentación.

2. Code review automático

# En mis scripts de CI/CD
curl -X POST "https://api.openai.com/v1/chat/completions" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -d '{
    "model": "gpt-5.2-codex",
    "messages": [
      {
        "role": "system", 
        "content": "Analiza este diff de Android. Busca: 1) Breaking changes no manejados 2) Anti-patterns de Compose 3) Memory leaks potenciales"
      },
      {
        "role": "user",
        "content": "'$(git diff HEAD~1 --name-only | grep .kt | xargs cat)'"
      }
    ]
  }'

3. Pair programming asimétrico

En Leonard AI uso Claude Opus 4.6 como “senior developer” virtual:

// Yo escribo la estructura básica
class TreatmentViewModel(
    private val repository: TreatmentRepository
) : ViewModel() {
    // Claude: sugiere StateFlow en lugar de LiveData
    // Claude: recomienda `sealed interface` para UI state
    // Claude: detecta que falta error handling
}

Claude tiene mejor architectural sense que otros modelos.

El futuro: Más allá de Android Bench

Android Bench es un buen primer paso, pero necesitamos métricas más sofisticadas:

1. Performance benchmarking

// Futuro Android Bench debería medir
@Benchmark
fun measureCompositionPerformance() {
    // ¿El código generado causa recomposition innecesaria?
    // ¿Usa remember() correctamente?
    // ¿Maneja large datasets eficientemente?
}

2. Testing quality

// No solo si compila, sino si el test es útil
@Test
fun `should handle network timeout gracefully`() {
    // ¿El LLM entiende que Android necesita diferentes timeouts
    // para WiFi vs mobile data?
    // ¿Mockea correctamente las dependencies?
}

3. Multi-platform awareness

// Con KMP creciendo, necesitamos LLMs que entiendan
expect class DatabaseDriver()

// Y no sugieran Room cuando necesitas SQLDelight

Reflexiones de un desarrollador en las trincheras

Después de migrar Leonard AI (104K líneas Swift → Kotlin) y mantener ChutApp en ambas plataformas, mi conclusión es simple: Android Bench mide competencia técnica, pero desarrollar es 30% código y 70% decisiones.

Los LLMs actuales son excelentes research assistants—pueden explicarte cualquier API de Android mejor que la documentación oficial. Pero siguen siendo terribles product partners. No entienden por qué elegiste Firebase sobre Supabase, o por qué tu arquitectura MVVM tiene esa forma específica.

En 2026, mi workflow ideal es:

Gemini 3.1 para boilerplate y APIs nuevas
Claude Opus 4.6 para architectural decisions y code review
Mi cerebro para todo lo demás

Android Bench nos da métricas objetivas por primera vez. Pero recuerda: un LLM que puntúa 72% en el benchmark puede seguir sugiriéndote arquitecturas horribles para tu caso específico.

La IA es una herramienta. Android Bench nos ayuda a elegir la herramienta correcta. Pero el desarrollador sigue siendo quien define qué construir y cómo.

¿Has probado Android Bench en tus proyectos? Me encantaría conocer tu experiencia comparando LLMs en desarrollo Android real.

Recursos útiles

Gaizka Jiménez es Senior Mobile Developer & AI Engineer en CODX Digital. Actualmente migra apps iOS a Android y experimenta con IA en desarrollo mobile. Puedes seguir sus proyectos en LinkedIn.