ChatGPT 5.5: así es el nuevo salto de OpenAI en autonomía, coste y usos profesionales

OpenAI ha dado un nuevo golpe sobre la mesa con el lanzamiento de GPT-5.5, el modelo que sitúa la última generación de ChatGPT en un nivel de autonomía y razonamiento muy superior a lo visto hasta ahora. La compañía lo presenta como su sistema más intuitivo y capaz para encargarse de tareas complejas de principio a fin, reduciendo la necesidad de supervisión constante por parte del usuario.
Este movimiento llega en plena carrera por el liderazgo en inteligencia artificial generativa, con Anthropic y Google acelerando también sus propios modelos. GPT-5.5 se estrena primero en ChatGPT y en Codex para usuarios de pago, y combina mejoras en programación, trabajo de oficina, investigación científica y uso real del ordenador, a costa de un aumento de precios que OpenAI intenta justificar con una notable eficiencia en el uso de tokens.
Qué es GPT-5.5 y qué papel juega en la estrategia de OpenAI
Según OpenAI, GPT-5.5 marca un nuevo escalón en razonamiento sostenido y trabajo autónomo con un ordenador. El modelo está diseñado para asumir tareas largas y con múltiples pasos: puede recibir una instrucción desordenada, descomponerla, planificar qué hacer primero, elegir y manejar herramientas, revisar sus propios resultados y continuar aunque haya ambigüedades en el enunciado.
La empresa lo define como su IA más intuitiva hasta la fecha. En lugar de limitarse a responder preguntas sueltas, GPT-5.5 actúa como un agente: mantiene el contexto durante procesos extensos, navega por información en la web, ejecuta comandos, manipula documentos y aplicaciones de oficina, y devuelve resultados ya estructurados, listos para usar en entornos profesionales.
El lanzamiento incluye una versión GPT-5.5 Pro, orientada a trabajos de mayor complejidad y a usuarios que necesitan respuestas más rigurosas en ámbitos como el derecho, la empresa, la educación o el análisis avanzado de datos. En ChatGPT, además, aparece el modo GPT-5.5 Thinking, pensado para problemas especialmente difíciles en programación, investigación o análisis de información.
Autonomía y uso real del ordenador: de chatbot a agente de trabajo
Una de las grandes apuestas de OpenAI es la capacidad de GPT-5.5 para desempeñarse como un agente autónomo en el ordenador. El modelo puede buscar información, decidir qué es relevante, combinar fuentes, operar software y herramientas en cadena y transformar materiales dispersos en entregables útiles, sin que el usuario tenga que indicar minuciosamente cada paso.
En el día a día, esto se traduce en tareas como generar documentos complejos, hojas de cálculo o presentaciones, revisar contratos, preparar informes, analizar bases de datos o elaborar resúmenes extensos a partir de varios ficheros. La compañía asegura que GPT-5.5 entiende antes qué quiere hacer el usuario y se encarga de una porción mayor del trabajo por sí mismo que las versiones anteriores.
Para ilustrar este cambio, OpenAI menciona ejemplos internos: equipos de finanzas que usan Codex y GPT-5.5 para revisar decenas de miles de formularios fiscales en mucho menos tiempo, departamentos de comunicación que automatizan marcos de puntuación y riesgo sobre grandes volúmenes de solicitudes, o áreas de marketing y producto que han reducido de forma notable el tiempo dedicado a reportes periódicos gracias a flujos de trabajo automatizados.
Rendimiento en programación agéntica y desarrollo de software
Donde GPT-5.5 muestra una mejora en programación y en lo que OpenAI denomina “codificación agéntica”, es decir, el uso de la IA como un agente que escribe, corrige y mantiene código de extremo a extremo. En entornos de desarrollo, el modelo es capaz de gestionar repositorios grandes, proponer refactors complejos, identificar el origen de errores y anticipar qué partes del sistema se verán afectadas por un cambio.
En el benchmark Terminal-Bench 2.0, que mide flujos de trabajo complejos en línea de comandos, GPT-5.5 alcanza un 82,7%, superando de forma clara a GPT-5.4, y lo hace consumiendo menos tokens. En SWE-Bench Pro, centrado en la resolución de incidencias reales de GitHub, el modelo llega al 58,6%, y en la evaluación interna Expert-SWE, con tareas cuyo tiempo humano estimado ronda las 20 horas, también se sitúa por encima de su predecesor.
Los ingenieros que probaron versiones tempranas destacan que GPT-5.5 entiende mejor la arquitectura global de sistemas complejos. En pruebas internas, se citan casos como fusiones de ramas con cientos de cambios resueltas en unos veinte minutos, rediseños casi completos de subsistemas (por ejemplo, un sistema de comentarios en un editor colaborativo) o detección temprana de fallos que antes requerían muchas más iteraciones.
En Codex, el entorno de OpenAI enfocado en ingeniería de software, GPT-5.5 cuenta con una ventana de contexto de hasta 400.000 tokens, lo que le permite trabajar con bases de código muy extensas. Además dispone de un modo rápido que genera tokens aproximadamente 1,5 veces más deprisa, aunque con un coste por token superior, pensado para quienes priorizan la velocidad de respuesta.
Trabajo del conocimiento, empresa y uso cotidiano en oficina
Más allá del desarrollo de software, GPT-5.5 está diseñado como una herramienta para el trabajo profesional en entornos de oficina, consultoría o análisis de datos. OpenAI sostiene que las mismas capacidades que mejoran la programación permiten ahora operar con mayor solvencia en tareas de documentación y análisis.
En el benchmark GDPval, que evalúa la capacidad de producir trabajo experto especificado en 44 ocupaciones, GPT-5.5 obtiene un 84,9% de aciertos o empates. En OSWorld-Verified, una prueba orientada a comprobar si el modelo puede manejar entornos informáticos reales de forma autónoma, llega al 78,7%. En Tau2-bench Telecom, centrado en atención al cliente en el sector de telecomunicaciones, alcanza un 98% sin necesidad de ajustar el prompt, lo que indica un rendimiento alto en escenarios de soporte.
Para uso empresarial, OpenAI remarca que más del 85 % de su plantilla utiliza Codex semanalmente en áreas como ingeniería, finanzas, marketing, datos o producto. Casos como la automatización de informes semanales, que ahorra entre cinco y diez horas por persona a la semana, ilustran el tipo de beneficios que la compañía atribuye al nuevo modelo cuando se integra en procesos de negocio.
Investigación científica, biología y matemáticas avanzadas
La investigación científica es otro de los ejes centrales en la presentación de GPT-5.5. OpenAI apunta a flujos de trabajo donde es necesario explorar hipótesis, recopilar evidencia, comprobar supuestos, interpretar resultados y decidir el siguiente experimento, un entorno en el que el razonamiento contextual sostenido es clave.
En pruebas como GeneBench, centrada en tareas de biología y genética, GPT-5.5 mejora los resultados de GPT-5.4, y la variante GPT-5.5 Pro obtiene puntuaciones todavía más altas. En BixBench, orientado a bioinformática y biología cuantitativa, el nuevo modelo logra también el mejor rendimiento entre los sistemas con datos publicados hasta la fecha, según la información facilitada por la empresa.
OpenAI ha llegado a citar ejemplos de uso en matemáticas avanzadas, donde una versión interna de GPT-5.5 colaboró en la búsqueda de una nueva prueba relacionada con números de Ramsey fuera de la diagonal, posteriormente verificada en el asistente formal Lean. La compañía presenta este caso como una muestra de que el modelo no solo genera código o explicaciones, sino que puede contribuir a argumentos matemáticos en áreas complejas.
En el terreno práctico, se mencionan testimonios de investigadores que han utilizado GPT-5.5 Pro para analizar conjuntos de datos de expresión génica con decenas de miles de variables y un número significativo de muestras, obteniendo informes detallados, nuevos ángulos de análisis y preguntas clave en un plazo que, según sus cálculos, sería muy superior si se abordara exclusivamente con trabajo humano.
Latencia, tiempo de razonamiento y eficiencia en tokens
Detrás del lanzamiento de GPT-5.5 hay un mensaje insistente: aumenta la inteligencia del modelo sin penalizar la velocidad de respuesta. OpenAI afirma que el nuevo sistema iguala la latencia por token de GPT-5.4 en servicio real, a pesar de ser más capaz, algo poco habitual en modelos de mayor tamaño y complejidad.
Uno de los puntos clave es el tiempo de razonamiento necesario para completar tareas complejas. Usuarios tempranos que han comparado el comportamiento con versiones anteriores reportan que procesos que antes requerían entre 20 y 40 minutos de trabajo ahora se resuelven en apenas tres o cuatro minutos, manteniendo —e incluso mejorando— la calidad de las respuestas.
Esta ganancia no llega solo por la velocidad bruta, sino por una mejor gestión de tokens. GPT-5.5 necesita menos tokens para llegar a resultados comparables o superiores a los de GPT-5.4, lo que reduce tanto el tiempo total de procesamiento como el coste asociado a cada flujo de trabajo. En escenarios con gran volumen de consultas o automatización intensiva, esa diferencia puede ser determinante.
OpenAI explica que, para mantener la latencia, ha tenido que rediseñar la inferencia como un sistema integrado. GPT-5.5 se ha co-diseñado, entrenado y desplegado sobre infraestructura basada en hardware de NVIDIA de última generación (GB200 y GB300 NVL72), y se ha recurrido al propio GPT-5.5 y a Codex para optimizar heurísticas de balanceo de carga y particionado, con un aumento superior al 20 % en velocidad de generación de tokens en sus sistemas.
Precios, coste real y comparación con GPT-5.4
Aunque GPT-5.5 se sitúa en la franja alta de precios por token, OpenAI insiste en que, en la práctica, puede resultar más económico que su predecesor y que parte de la competencia. El motivo es la combinación de mayor eficiencia en tokens y menor necesidad de reintentos o correcciones.
En la API, los precios de referencia comunicados para GPT-5.5 son de 5 dólares por millón de tokens de entrada y 30 dólares por millón de tokens de salida, con una ventana de contexto que llega hasta el millón de tokens. Para GPT-5.5 Pro, las tarifas suben a 30 dólares por millón de tokens de entrada y 180 dólares por millón de salida, apuntando claramente a usos donde el valor añadido de la respuesta compense el coste.
OpenAI ofrece además modalidades como Batch y Flex, con tarifas aproximadamente a la mitad del precio estándar, y un modo Priority que multiplica el coste por 2,5 a cambio de mayor prioridad en cola y tiempos de respuesta más cortos. La compañía admite que GPT-5.5 es más caro que GPT-5.4 en términos nominales, pero argumenta que la reducción de tokens necesarios por tarea y el menor tiempo de razonamiento pueden abaratar el coste total de proyectos complejos frente a otros modelos.
En el mercado, esta política sitúa a GPT-5.5 por encima de modelos anteriores de OpenAI y por debajo de alternativas de alta gama que, según estimaciones compartidas durante la presentación, pueden resultar entre cinco y diez veces más caras en términos prácticos cuando se tiene en cuenta la combinación de precio, tokens consumidos y calidad del resultado.
Contexto largo y rendimiento en benchmarks de razonamiento
Otra de las mejoras visibles de GPT-5.5 es su capacidad de trabajar con contextos muy extensos sin perder el hilo. En pruebas como Graphwalks BFS 1M, el modelo alcanza un 45,4 % frente al 9,4 % de GPT-5.4, y en OpenAI MRCR v2 con contextos entre 512K y 1M tokens sube hasta el 74,0 %, comparado con el 36,6 % de la versión anterior.
En el terreno del razonamiento abstracto, GPT-5.5 registra un 95,0 % en ARC-AGI-1 y un 85,0 % en ARC-AGI-2, con mejoras significativas respecto a GPT-5.4. En pruebas de conocimiento avanzado como GPQA Diamond, enfocado en preguntas de alta dificultad, obtiene un 93,6 %, y en evaluaciones como Humanity’s Last Exam supera el 50 % cuando se le permite utilizar herramientas externas.
OpenAI subraya que muchas de estas evaluaciones se han realizado en entornos de investigación con configuraciones de razonamiento en niveles muy altos, por lo que los resultados pueden diferir ligeramente de los que perciben los usuarios de ChatGPT en producción. Aun así, la empresa quiere transmitir la idea de que GPT-5.5 representa un salto práctico en tareas reales, no solo una mejora académica en tablas de benchmarks.
Seguridad, ciberseguridad y uso responsable
El incremento de capacidades lleva aparejado un refuerzo de las salvaguardas de seguridad. OpenAI afirma que GPT-5.5 se lanza con su sistema de protección más avanzado hasta el momento, tras pasar por evaluaciones internas y externas, marcos de preparación específicos y procesos de red teaming con especialistas en ciberseguridad y biología.
En el marco de su Preparedness Framework, la compañía clasifica las capacidades de GPT-5.5 en biología, química y ciberseguridad en el nivel “Alto”, sin llegar al nivel “Crítico”. Aun así, reconoce que el modelo es más eficaz que GPT-5.4 a la hora de encontrar y explotar vulnerabilidades, por lo que ha desplegado clasificadores más estrictos para peticiones sensibles y mecanismos contra usos reiterados de riesgo, algo que puede resultar más restrictivo para parte de los usuarios técnicos.
En paralelo, OpenAI pretende ampliar el acceso a capacidades más avanzadas para usos defensivos verificados a través de programas como Trusted Access for Cyber, especialmente dirigidos a organizaciones encargadas de proteger infraestructuras críticas. La idea es facilitar herramientas potentes para la defensa sin relajar los controles frente a posibles usos ofensivos.
En el ámbito de la investigación biológica, la compañía ha puesto en marcha iniciativas como programas de recompensas por detección de errores biológicos en el comportamiento del modelo, con el objetivo de que la comunidad científica ayude a identificar fallos y mejorar las salvaguardas antes de un despliegue más amplio.
Disponibilidad de GPT-5.5 y su despliegue en productos
El despliegue de GPT-5.5 ha comenzado para los usuarios Plus, Pro, Business y Enterprise de ChatGPT y Codex, tanto en entornos personales como corporativos. En Codex, el modelo se integra en los flujos de desarrollo de software con ventana de contexto ampliada y modos de respuesta rápida.
La versión GPT-5.5 Pro se está activando progresivamente para usuarios Pro, Business y Enterprise que necesitan un nivel extra de detalle y precisión, especialmente en campos regulados o de alto impacto donde los errores pueden ser costosos. En ChatGPT, los usuarios también empiezan a ver opciones específicas como GPT-5.5 Thinking para problemas complejos de investigación o análisis.
En cuanto a la API, OpenAI trabaja en incorporar GPT-5.5 y GPT-5.5 Pro a sus endpoints de Responses y Chat Completions con ventanas de contexto que alcanzan el millón de tokens. La compañía indica que el acceso se irá ampliando conforme se vayan cumpliendo los requisitos internos de seguridad y capacidad de infraestructura, de modo que los desarrolladores puedan integrar el modelo en aplicaciones propias una vez completada esta fase.
La llegada de GPT-5.5 consolida un cambio de etapa en la evolución de ChatGPT: el foco se desplaza de la simple generación de texto a la automatización integral de tareas digitales, con modelos más autónomos, capaces de razonar durante más tiempo y de trabajar sobre sistemas reales, a costa de precios más altos y de un debate creciente en torno a seguridad y gobernanza. En un contexto europeo en el que la regulación de la IA avanza y las empresas buscan eficiencia sin perder control, la forma en que organizaciones, desarrolladores y administraciones adopten —o limiten— el uso de GPT-5.5 puede ser tan relevante como las cifras de benchmarks que acompañan a este nuevo modelo.
.png)