mide humo » Enrique Dans
Durante un tiempo, a muchas empresas les pareció una buena idea medir la adopción de la inteligencia artificial contando tokens. Cuántos tokens consumía cada empleado, cuántas llamadas hacía, cuántas veces invocaba un agente, cuánto contexto movía por sus sistemas. Cómodo, cuantificable, fácil de poner en un dashboard y, sobre todo, producía esa tranquilizadora ilusión de control que tanto gusta en las organizaciones cuando aparece una tecnología nueva.
El problema es que, como casi siempre, la tranquilidad era falsa. El caso de Amazon, que acaba de eliminar un ranking interno de uso de inteligencia artificial después de que algunos empleados empezasen a inflar artificialmente su consumo de tokens para subir posiciones, es casi demasiado perfecto para ser real. Según detalla el Financial Times en «Amazon scraps AI leaderboard to stop workers chasing usage scores«, el sistema, llamado Kirorank, puntuaba a los usuarios de la plataforma Kiro en función de su actividad con inteligencia artificial, hasta que algunos trabajadores empezaron a asignar tareas innecesarias a agentes autónomos para así generar más consumo. La propia compañía terminó pidiendo a sus empleados algo que debería haber sido obvio desde el principio: no uséis inteligencia artificial simplemente por usar inteligencia artificial.
Es difícil encontrar una ilustración más limpia de la ley de Goodhart: cuando una métrica se convierte en objetivo, deja de ser una buena métrica. Pero en este caso hay que ir un paso más allá: el consumo de tokens no dejó de ser una buena métrica cuando se convirtió en objetivo, porque en realidad, nunca fue una buena métrica. Era, como mucho, un proxy perezoso de actividad. Y la actividad, en una empresa, no es valor.
Este es el error de fondo: confundir el movimiento con el progreso. Un empleado que consume muchos tokens no está necesariamente trabajando mejor. Puede estar formulando mal sus preguntas, enviando contexto innecesario como si no hubiera un mañana, utilizando agentes para tareas triviales, iterando sin criterio, aceptando respuestas mediocres o delegando en la máquina procesos que habría resuelto más rápido con una conversación, una búsqueda o cinco minutos de concentración. Puede, simplemente, estar quemando dinero de la empresa para parecer moderno.
La industria de la inteligencia artificial tiene todos los incentivos del mundo para alimentar esa confusión. Si facturas por tokens, más tokens significan más ingresos. Si vendes infraestructura, más inferencia significa más demanda. Si vendes la narrativa de la automatización agéntica, más bucles, más llamadas a herramientas, más memoria y más contexto parecen síntomas de sofisticación. Pero para la empresa que paga la factura, el análisis debería ser exactamente el contrario: más consumo no significa más inteligencia. Muchas veces significa peor arquitectura.
La empresa inteligente no debería celebrar que sus sistemas consuman cada vez más, sino preguntarse por qué lo necesitan. La propia Anthropic, en su guía sobre context engineering, lo formula con bastante claridad: el objetivo es encontrar el conjunto más pequeño posible de tokens de alta señal que maximice la probabilidad de obtener el resultado deseado. No el conjunto más grande. No el prompt más largo. No la conversación más aparatosa. El conjunto más pequeño y más relevante.
Esa frase debería estar enmarcada en todos los comités de dirección que hoy se preguntan cómo medir la adopción de inteligencia artificial. Porque medir tokens es fácil. Medir competencia es mucho más difícil. Un buen profesional puede usar pocos tokens porque sabe exactamente qué pedir, qué contexto aportar, qué modelo elegir, cuándo detenerse, e incluso cuándo no utilizar inteligencia artificial. Uno malo, en cambio, puede usar millones porque no sabe pensar el problema, no sabe estructurar información, no sabe evaluar la respuesta o ha aprendido que el dashboard premia el ruido. En ese escenario, el ranking no identifica a los mejores usuarios: identifica a los más caros.
La paradoja es incómoda: el empleado realmente competente puede parecer menos «adoptador» que el que convierte cada tarea en una innecesaria liturgia agéntica de veinte pasos. El primero hace ingeniería. El segundo hace teatro. Y el teatro, cuando se mide, se expande.
No es un fenómeno nuevo. Las organizaciones llevan décadas destruyendo buenas intenciones mediante indicadores mal escogidos: llamadas atendidas, líneas de código, horas facturables, número de reuniones, tickets cerrados, publicaciones, citas, leads, visitas, clics. Siempre ocurre lo mismo. Primero se elige una métrica porque parece correlacionar con algo importante. Después se convierte en objetivo. Finalmente, la organización aprende a producir la métrica aunque el objetivo original desaparezca. La empresa quería productividad y obtiene actividad. Quería aprendizaje y obtiene cumplimiento. Quería adopción y obtiene tokenmaxxing.
Con la inteligencia artificial, el problema es aún más peligroso porque el coste marginal de fingir actividad puede ser muy alto. Un agente puede ejecutar bucles, llamar herramientas, reintentar, resumir, consultar documentos, generar código, descartarlo y volver a empezar. Desde fuera, todo parece trabajo. Desde dentro, puede ser una máquina de transformar presupuesto en vapor.
Por eso son tan importantes las señales contrarias. El estudio de METR sobre desarrolladores experimentados, por ejemplo, encontró que el uso de herramientas de inteligencia artificial les hizo tardar un 19% más en completar tareas sobre repositorios que conocían bien, aunque ellos mismos creían estar siendo más rápidos. El resultado no demuestra que la inteligencia artificial no funcione, demuestra algo más interesante: que la percepción subjetiva de productividad puede ser profundamente engañosa. Y si la percepción engaña, un contador de tokens engaña todavía más.
También por eso tienen sentido técnicas como el prompt caching de OpenAI, que puede reducir latencia y costes en prompts repetidos, o las recomendaciones de Microsoft sobre chunking en sistemas RAG, que insisten en enviar información relevante y eliminar lo irrelevante. Todas esas prácticas parten de la misma idea: el token no es una medalla, es un recurso. Y como todo recurso, debe administrarse.
La adopción real de inteligencia artificial no debería medirse por cuánto se consume, sino por cuánto mejora el trabajo. Menos tiempo hasta una decisión correcta. Menos errores. Menos repeticiones improductivas. Mejor documentación. Mejor código mantenible. Mejor atención al cliente. Mejor aprendizaje organizativo. Mejor capacidad para abordar problemas que antes no se podían abordar. Y, sobre todo, mejor relación entre resultado obtenido y coste incurrido.
Claramente, el numerador importa, pero el denominador también: una empresa que solo mira tokens está midiendo el denominador y fingiendo que eso le dice algo sobre el numerador. Es como evaluar a un conductor por los litros de gasolina consumidos, a un investigador por el número de PDFs abiertos o a un profesor por los megabytes descargados para preparar una clase. Puede haber alguna correlación débil en ciertos contextos, pero sería absurdo convertirlo en criterio de rendimiento. La pregunta relevante no es quién usa más inteligencia artificial. La pregunta relevante es quién obtiene mejores resultados porque sabe cuándo, cómo y para qué usarla.
Esto nos lleva a una distinción fundamental: el acceso a capacidad de inferencia puede convertirse en una parte muy relevante de la propuesta de valor para determinados profesionales, como planteaba al hablar de los tokens como forma de retribución o de capacidad de acción. Pero una cosa es equipar bien a una persona para que pueda trabajar mejor, y otra muy distinta es premiarla por agotar el presupuesto. Dar acceso a modelos potentes puede ser una inversión. Incentivar su consumo indiscriminado es una estupidez contable.
La madurez empresarial en inteligencia artificial no consistirá en presumir de los millones de tokens procesados: consistirá en diseñar sistemas que necesiten menos tokens para conseguir mejores resultados. Menos fuerza bruta y más contexto bien seleccionado. Menos rankings y más criterio. Menos gamificación infantil y más responsabilidad económica. Menos «mira cuánto uso la inteligencia artificial» y más «mira qué problema he resuelto».
El episodio de Amazon debería ser una advertencia temprana. No porque Amazon haya hecho algo especialmente exótico, sino precisamente porque hizo algo muy normal: intentar acelerar una adopción tecnológica mediante una métrica visible, comparable y aparentemente objetiva. El problema es que las personas no obedecen a los objetivos abstractos de la dirección: obedecen a los incentivos reales del sistema. Y si el sistema premia tokens, producirán tokens.
La inteligencia artificial necesita métricas, por supuesto, pero no cualquier métrica. Necesita métricas que capturen valor, calidad, aprendizaje, fiabilidad, seguridad, coste total y mejora real de procesos. Necesita auditorías, comparativas, experimentos controlados y disciplina. Necesita, en definitiva, gestión. Lo que no necesita es otro marcador luminoso que premie al que más ruido hace.
Porque cuando el consumo de tokens se convierte en objetivo, deja de medir adopción. Y cuando una empresa cree que el consumo de tokens mide inteligencia, lo que realmente está midiendo es su propia ingenuidad.
