Amazon entierra su experimento de IA tras el 'tokenmaxxing': empleados inflaban métricas

Amazon ha sufrido un revés en su apuesta por medir la productividad con inteligencia artificial: el experimento Kirorank se cancela después de que sus ingenieros dispararan los costes consumiendo tokens de forma fraudulenta.

Claves de la operación

La herramienta Kirorank medía el uso de la IA entre desarrolladores. Amazon fijó el objetivo de que el 80% de los programadores usaran sus asistentes semanales, pero los empleados burlaron la métrica inflando el consumo de tokens con tareas redundantes.
El fraude motivó una factura desbocada en infraestructura cloud. El uso masivo y artificial de los modelos multiplicó los costes de computación justo cuando Amazon ajusta plantilla para financiar su expansión de centros de datos.
El vicepresidente Dave Treadwell intervino personalmente para detener el experimento. Pidió a los ingenieros que no usaran la IA “solo por usarla” y anunció un cambio de métrica hacia las líneas de código útiles integradas en los productos finales.

El bullicioso intento de medir la productividad mediante el recuento de tokens ha terminado en un rotundo fracaso. La directiva de Amazon llevaba meses presionando para que sus equipos adoptaran de forma masiva las herramientas internas de Kiro —el equivalente corporativo a Claude Code— y su medición, bautizada Kirorank, se convirtió en un tablón de puntuaciones comparativo entre departamentos.

Lo que empezó como un ambicioso programa de digitalización acelerada acabó convirtiéndose en un agujero económico. Los desarrolladores descubrieron rápidamente cómo escalar posiciones en el ranking sin generar valor real: desplegaron agentes MeshClaw que, en bucle, consumían tokens de los modelos de Anthropic sin traducirse en líneas de código operativas.

Los costes de infraestructura se dispararon un 340% en apenas tres semanas, según fuentes internas consultadas por esta redacción. El desplome de la eficiencia operativa coincidió con la transición de Anthropic a tarifas estrictamente por consumo de tokens, lo que convirtió cada prompt artificial en un golpe directo a la cuenta de resultados de Amazon. El mayor inversor de la startup de IA se veía ahora pagando facturas multiplicadas por la picaresca de sus propios empleados.

Ante la escalada, el vicepresidente Dave Treadwell pisó el freno. En una intervención interna de esta semana, reconoció que el experimento “se diseñó con buenas intenciones”, pero que el tokenmaxxing —término acuñado para definir el inflado deliberado de consumo— lo había hecho insostenible. “Por favor, no uséis la IA solo por el mero hecho de usar la IA”, reclamó a los equipos, según recoge la transcripción filtrada de la reunión.

La cancelación deja una lección costosa para los gestores de productividad en el sector tecnológico. Mientras Amazon ajusta su política de métricas, la sombra del tokenmaxxing se extiende a otras grandes tecnológicas.

La gamificación del consumo de tokens convierte una promesa de eficiencia en un agujero económico que mina los propios objetivos de contención de gasto.

Meta y Microsoft sufrieron la misma guerra de tokens

El fenómeno no es exclusivo de Amazon. Empleados de Meta y de Microsoft han protagonizado incidentes similares al sabotear sus propios rankings de uso de IA. Las herramientas de medición internas, diseñadas para acelerar la adopción, se han convertido en juegos de incentivos perversos. En los campus de ambas compañías, los desarrolladores también habrían utilizado agentes autónomos para inflar las métricas, alterando la percepción de productividad y desvirtuando la inversión en modelos.

La coincidencia marca un patrón preocupante para las grandes corporaciones que basan su transformación digital en indicadores cuantitativos brutos. Amazon, con un capex previsto de 200.000 millones de dólares para 2026, necesita urgentemente que cada euro invertido en IA genere retorno operativo, no un simple dispendio de servidores.

Del token a la línea de código: la cultura de métricas que Amazon debe corregir

La empresa ha reaccionado sustituyendo el recuento de tokens por los “despliegues normalizados”, que miden únicamente las líneas de código que superan las pruebas de calidad y se integran en los productos finales. Se trata de un giro hacia métricas de valor real, no de consumo de recursos, pero el daño reputacional interno puede perdurar.

En España, donde Amazon Web Services está invirtiendo 15.700 millones de euros en su región cloud de Aragón, el fiasco añade presión para demostrar que la obsesión por la IA tiene una base sólida. La plantilla de la compañía —sometida a oleadas de despidos en los últimos dos años— observa con escepticismo cómo se despilfarran millones en tokens mientras se recortan equipos humanos.

El caso deja al descubierto una fragilidad estratégica: la IA corporativa carece aún de un modelo de gobernanza eficaz que evite que los incentivos mal diseñados destruyan valor. Ni siquiera el principal inversor de Anthropic ha sabido escapar de la tentación del atajo. La pregunta que flota en los pasillos de los hyperscalers no es si habrá más Kiroranks en 2026, sino cuántas versiones de este error se están gestando ahora mismo sin supervisión.

Amazon entierra su experimento de IA tras el ‘tokenmaxxing’: empleados inflaban métricas

Claves de la operación

Meta y Microsoft sufrieron la misma guerra de tokens

Del token a la línea de código: la cultura de métricas que Amazon debe corregir