La grilla, de un vistazo:

Modelo Precio (US$ por millón de tokens, entrada / salida) Puntaje Acceso
GPT-5.6 Sol 5 / 30 91,9% en Terminal-Bench 2.1, reportado por OpenAI (modo "ultra") Preview limitado, cerca de 20 socios vía API y Codex
GPT-5.6 Terra 2,50 / 15 Sin récord propio reportado Preview limitado, mismos socios
GPT-5.6 Luna 1 / 6 Sin récord propio reportado Preview limitado, mismos socios
Claude Mythos 5 Precio no publicado Sin puntaje independiente disponible Más de 100 organizaciones de Estados Unidos, solo dentro del país
Claude Fable 5 Precio no publicado 83,1% en Terminal-Bench 2.1 (leaderboard público de tbench.ai) Suspendido por una directiva de control de exportaciones

Punto de calibración: en el leaderboard público de Terminal-Bench 2.1 (una prueba de tareas de terminal y código), la cima la marcan GPT-5.5 con 83,4% y Claude Fable 5 con 83,1% (tbench.ai). El 91,9% de Sol no aparece ahí: es una cifra que reporta OpenAI en su preview (acceso anticipado), sin verificación independiente.

El precio abre un abanico de cinco a uno. Por millón de tokens (las piezas de texto en que se mide y se cobra el uso), Sol cuesta US$5 de entrada y US$30 de salida; Luna, US$1 y US$6 (OpenAI). Misma familia, salida cinco veces más cara en el tope que en el piso. Terra queda al medio: US$2,50 y US$15.

El verdadero filtro es el acceso. GPT-5.6 vive en preview limitado: OpenAI lo describe para cerca de 20 socios vía API y Codex, y dice haber compartido los modelos con el gobierno de Estados Unidos antes que con nadie (MarkTechPost). Mythos 5 llega a más de 100 organizaciones, pero solo de Estados Unidos, después de que una directiva de control de exportaciones suspendiera su acceso el 12 de junio de 2026 (Anthropic, 9to5Mac). Fable 5 sigue apagado: la misma directiva lo dejó fuera y, por ahora, nadie lo usa fuera de ese marco (Anthropic, CNBC).

Por eso la tabla de puntajes engaña si se lee sola. Un 91,9% reportado rinde poco si solo entran 20 socios, y un modelo fuerte como Fable 5 (83,1% en el leaderboard público) vale cero para quien no puede encenderlo. En esta camada, la pregunta útil no es qué tan alto puntúa un modelo, sino cuánto cobra por token y a cuántos los dejan usarlo.