Anthropic lanzó Claude Sonnet 5 para todos los usuarios en su plataforma, presentándolo como un modelo que va más allá de los chatbots ordinarios. La empresa describe el sistema como diseñado para "trabajo de ingeniería de software multi-paso", codificación sostenida, uso de herramientas, depuración y "contextos técnicos complejos". Puede planificar, navegar, ejecutar comandos de terminal y operar con un grado de autonomía más alto que los modelos anteriores y más baratos.
Prueba de planificación de viaje muestra comportamiento de agente
El revisor de TechRadar sometió el nuevo modelo a un escenario del mundo real: planificar un fin de semana en Bath, Inglaterra, para dos adultos y dos adolescentes. La solicitud pidió a Claude que redactara un itinerario breve, enumerara lo que podía completar de inmediato, señalara los elementos que necesitaban herramientas o juicio humano, anotara suposiciones y proporcionara una lista de verificación de verificación. En cuestión de segundos, Claude devolvió un plan estructurado que incluía opciones de viaje, un lugar sugerido para almorzar, una visita a las Termas Romanas y un mapa interactivo que señalaba cada recomendación.
A diferencia de una respuesta simple, la salida también resaltó lo que se había terminado, lo que aún requería acción humana y el "siguiente mejor paso" para el usuario. Cuando el tester agregó detalles como la fecha de viaje, Claude proporcionó un pronóstico del tiempo para ese día, reforzando la sensación de un asistente dinámico que se adapta a medida que llega nueva información.
ChatGPT-5.5 Medium recibió la misma solicitud. Produjo un itinerario comparable y también notificó al tester cuando la tarea estaba completa, pero carecía de elementos visuales como el mapa y presentó el resultado como un informe estático. El revisor observó que ChatGPT asumió el viaje en tren mientras que Claude se default a conducir, y cada modelo sugirió diferentes restaurantes. Ambos modelos identificaron correctamente que el adolescente mayor, un estudiante universitario, podría recibir entrada gratuita a las Termas Romanas.
Desafío de hoja de cálculo resalta la capacidad iterativa
El revisor cambió a un dominio diferente, pidiendo a cada IA que construyera un seguimiento de presupuesto doméstico simple. Ambos modelos generaron un archivo de hoja de cálculo. La versión de ChatGPT presentaba un gráfico de barras que seguía los gastos contra un presupuesto, mientras que Claude optó por un diseño más simple con un gráfico de pie que mostraba las categorías de gastos. Claude también ofreció un botón para cargar el archivo directamente a Google Drive, simplificando la transferencia al usuario.
Cuando el tester solicitó una actualización del gráfico de pie, ChatGPT se comprometió pero tropezó al intentar mostrar tanto los valores presupuestados como los valores reales en el mismo gráfico antes de entregar la versión corregida. Claude, después de una breve revisión, agregó una sección de presupuesto y cambió el gráfico de pie por un gráfico de barras exactamente como se le pidió, mostrando nuevamente sus pasos de razonamiento internos.
Ambos modelos manejan las revisiones suavemente, demostrando que la verdadera prueba hoy en día no es qué chatbot entrega la mejor respuesta única, sino qué uno sigue trabajando hasta que el trabajo esté efectivamente hecho. El revisor concluyó que Claude Sonnet 5 se siente "extremadamente capaz" en un papel de agente, presentando salidas de una manera más organizada y colaborativa. ChatGPT se mantuvo cerca, ofreciendo funcionalidad similar pero con una presentación menos pulida.
Ninguno de los asistentes puede finalizar reservas, cargar archivos automáticamente o tomar decisiones sin supervisión humana, por lo que la tecnología aún no está al nivel de un asistente personal que realiza recados de forma independiente. Sin embargo, el lanzamiento de Anthropic marca un cambio claro en la carrera de IA hacia modelos que actúan como compañeros de trabajo, cerrando la brecha entre responder preguntas y completar tareas.
Este artículo fue escrito con la asistencia de IA.
News Factory APP - noticias agénticas para impulsar tu SEO y AEO.