El acceso, no el puntaje

La grilla, de un vistazo:

Modelo	Precio (US$ por millón de tokens, entrada / salida)	Puntaje	Acceso
GPT-5.6 Sol	5 / 30	91,9% en Terminal-Bench 2.1, reportado por OpenAI (modo "ultra")	Preview limitado, cerca de 20 socios vía API y Codex
GPT-5.6 Terra	2,50 / 15	Sin récord propio reportado	Preview limitado, mismos socios
GPT-5.6 Luna	1 / 6	Sin récord propio reportado	Preview limitado, mismos socios
Claude Mythos 5	Precio no publicado	Sin puntaje independiente disponible	Más de 100 organizaciones de Estados Unidos, solo dentro del país
Claude Fable 5	Precio no publicado	83,1% en Terminal-Bench 2.1 (leaderboard público de tbench.ai)	Suspendido por una directiva de control de exportaciones

Punto de calibración: en el leaderboard público de Terminal-Bench 2.1 (una prueba de tareas de terminal y código), la cima la marcan GPT-5.5 con 83,4% y Claude Fable 5 con 83,1% (tbench.ai). El 91,9% de Sol no aparece ahí: es una cifra que reporta OpenAI en su preview (acceso anticipado), sin verificación independiente.

El precio abre un abanico de cinco a uno. Por millón de tokens (las piezas de texto en que se mide y se cobra el uso), Sol cuesta US$5 de entrada y US$30 de salida; Luna, US$1 y US$6 (OpenAI). Misma familia, salida cinco veces más cara en el tope que en el piso. Terra queda al medio: US$2,50 y US$15.

El verdadero filtro es el acceso. GPT-5.6 vive en preview limitado: OpenAI lo describe para cerca de 20 socios vía API y Codex, y dice haber compartido los modelos con el gobierno de Estados Unidos antes que con nadie (MarkTechPost). Mythos 5 llega a más de 100 organizaciones, pero solo de Estados Unidos, después de que una directiva de control de exportaciones suspendiera su acceso el 12 de junio de 2026 (Anthropic, 9to5Mac). Fable 5 sigue apagado: la misma directiva lo dejó fuera y, por ahora, nadie lo usa fuera de ese marco (Anthropic, CNBC).

Por eso la tabla de puntajes engaña si se lee sola. Un 91,9% reportado rinde poco si solo entran 20 socios, y un modelo fuerte como Fable 5 (83,1% en el leaderboard público) vale cero para quien no puede encenderlo. En esta camada, la pregunta útil no es qué tan alto puntúa un modelo, sino cuánto cobra por token y a cuántos los dejan usarlo.