El Fin de la Señal Barata

Hasta 2022, generar una señal digital creíble costaba algo. No necesariamente dinero — pero sí tiempo, esfuerzo, o acceso. Para escribir una reseña en Amazon había que comprar el producto o parecerlo. Para publicar un benchmark en Papers with Code había que correr el modelo. Para falsificar un diploma había que photoshopearlo, y un ojo entrenado detectaba la diferencia.

La IA generativa eliminó esas barreras. Reseñas, benchmarks, credenciales, papers, noticias — todo se produce con un prompt. Todo cuesta $0 marginales. Y todo es indistinguible a simple vista.

Cada una de estas señales, por separado, es un problema manejable. Juntas, crean un colapso sistémico de la verificabilidad. No es que no podamos verificar una reseña sospechosa. Es que no podemos verificar un millón por minuto.

La Paradoja de la Abundancia

En economía clásica, cuando un bien se vuelve abundante y barato, su valor cae. La señal digital sigue la misma lógica: si cualquiera puede generar una reseña 5★, una reseña 5★ no significa nada. Si cualquiera puede publicar “SOTA en MMLU”, SOTA no significa nada. Si cualquiera puede tener un perfil de LinkedIn impecable, el perfil de LinkedIn no significa nada.

Pero hay una asimetría crucial: la señal falsa es barata de producir pero cara de refutar.

Desmentir un benchmark manipulado requiere reproducir el experimento. Desmentir una reseña falsa requiere comprar el producto y probarlo. Desmentir una credencial falsa requiere llamar a la universidad. El costo de verificación es órdenes de magnitud mayor que el costo de generación. Esto crea un desequilibrio de incentivos donde el atacante siempre gana por costo marginal.

El Gato de Schrödinger de la Métrica

Cuando el costo de generar señal es cero, toda métrica existe en un estado de incertidumbre: es simultáneamente verdadera y falsa hasta que se verifica — y la verificación nunca llega.

Un benchmark de LLM en un leaderboard público podría ser legítimo. Podría ser data leakage. Podría ser selectivo — el mejor de 50 runs omitiendo los otros 49. Podría ser directamente fabricado. No hay forma de saber sin reproducir. Y nadie reproduce. El leaderboard se acepta como verdad porque verificarlo no escala.

Esto no es nuevo — el p-hacking y el publication bias existen desde que existe la ciencia moderna. Lo nuevo es la escala: la IA permite que esto ocurra millones de veces, no cientos. El ruido de fondo se vuelve señal dominante.

¿Qué se Vuelve Escaso Entonces?

Si la señal es barata y abundante, cuatro cosas se vuelven caras y escasas:

Trayectoria. Una señal aislada no vale nada. Cien señales consistentes en el tiempo — eso sí vale. Un benchmark individual puede ser falso, pero si el mismo equipo publica mejoras incrementales durante tres años, si sus releases tienen git history coherente, si sus papers tienen reviewers que los conocen — eso es una trayectoria. Fabricar una trayectoria es caro porque requiere tiempo (no se acelera), consistencia interna (difícil de mantener en mentiras), testigos y costos hundidos.

Verificabilidad en vivo. La señal pregrabada es barata de falsificar. La señal en vivo no. Un video pregrabado de un experto puede ser deepfake; una llamada en vivo con preguntas impredecibles es difícil de falsificar. Un coding test sincrónico con observación es difícil de engañar. El giro es fascinante: la tecnología nos lleva a valorar más lo sincrónico, lo efímero, lo interactivo — exactamente lo opuesto a la promesa original de internet donde todo debía ser grabado, disponible y asíncrono.

Costo de verificación por terceros. Si verificarlo todo es imposible, entonces quién verifica y a qué costo se vuelve el bottleneck. Emergen nuevos intermediarios: agencias de verificación de benchmarks, reputación basada en staking económico, firmas criptográficas de pipelines de inferencia, curadores humanos con reputación en juego. La paradoja: más IA genera más demanda de verificación humana, no menos.

Reproducción local. Correr un benchmark en tu propio hardware, con tus propios datos, es el estándar más alto del método científico. Pero tiene un costo: setup, tiempo, tokens, energía. No escala. Por eso el benchmark local es valioso: porque quien se toma el trabajo de correrlo tiene incentivos alineados con la verdad.

El Benchmark Local Como Ritual de Confianza

Cuando corres un benchmark local, estás diciendo: “No confío en tus números. Voy a medir yo mismo, en mi hardware, con mis datos, y decidir.”

Eso es verificación por reproducción — el gesto epistemológico más honesto que existe en tecnología. El benchmark local no te da solo una métrica; te da una relación directa con la verdad, sin intermediarios. No importa si el leaderboard dice otra cosa. Tus números son reales porque pagaste el costo de producirlos.

El benchmark local es valioso precisamente porque es caro. Porque no lo hace cualquiera. Porque el que se toma el trabajo de correrlo está eligiendo un modelo para su caso de uso real, no vendiendo nada. Es un ritual de confianza en un mundo donde la confianza se ha vuelto el recurso más escaso.

Confianza Distribuida

En un ecosistema de inferencia distribuida P2P — digamos, un anillo de nodos que comparten capacidad de cómputo — el problema de la señal barata se vuelve aún más agudo. ¿Cómo sé que el nodo remoto corrió el modelo que dice correr? ¿Cómo sé que no me devuelve basura sintetizada por un modelo más chico? ¿Cómo construyo reputación entre nodos anónimos?

Estos no son problemas de red. Son problemas de señal en un entorno sin verificación central. La respuesta arquitectónica — redundancia, chequeo cruzado, testigos múltiples e independientes — es una forma de verificación distribuida donde la señal barata muere porque siempre hay alguien mirando desde otro ángulo.

Lo Que Cambió

Durante años pensé que el problema de la desinformación era un problema de contenido: qué se dice, quién lo dice, si es verdad.

Hoy creo que el problema es más profundo. Es un problema de costo marginal de señal. La IA no solo generó más contenido falso — redefinió la economía de producción de verdad. Cuando generar cualquier señal cuesta cero, el sistema deja de ser sobre información y se convierte en un sistema de gestión de confianza.

Lo barato se vuelve inútil. Lo caro se vuelve indispensable. Lo efímero gana valor. Y lo reproducible — correr los benchmarks tú mismo, ver con tus propios ojos, pagar el costo de la verdad — se convierte en el gesto más valioso que puedes hacer en un mundo saturado de señales que no significan nada.

Mañana, cuando mires los resultados de tus benchmarks locales, no estarás comparando modelos. Estarás decidiendo en qué señales confías. Y el hecho de que tú mismo hayas corrido esos números — que hayas pagado el costo de verificación — es exactamente por lo que esos números importan más que cualquier leaderboard.