A OpenAI lançou o Images 2.0 na terça-feira, posicionando o novo sistema como um "parceiro de pensamento visual" que vai além da renderização pixel a pixel. O modelo primeiro analisa uma solicitação, planeja a composição, raciocina sobre relações espaciais e pode buscar dados em tempo real na web antes de desenhar. O resultado: até oito imagens que compartilham personagens e configurações consistentes, todas geradas a partir de uma única instrução.

A renderização de texto, um ponto fraco histórico das ferramentas de imagem de IA, atinge cerca de 99% de precisão em várias línguas e scripts, incluindo japonês, coreano, chinês, hindi e bengali. Se os testes independentes confirmarem a afirmação, os designers poderão finalmente confiar no modelo para gráficos de produção em vez de demonstrações de novidade.

Dentro de 12 horas após o lançamento, o Images 2.0 conquistou o primeiro lugar na leaderboard do Image Arena, registrando uma pontuação de 1.512 - 242 pontos à frente do vice-líder, o Nano Banana 2 da Google. A liderança marca a maior margem já registrada no benchmark, destacando o impacto imediato do modelo no cenário competitivo.

A OpenAI dividiu a oferta em dois modos de acesso. O modo "Instantâneo" é enviado a todos os usuários do ChatGPT, gratuitos ou pagos, entregando as principais melhorias visuais: layouts mais nítidos, texto melhor e detalhes mais ricos. O modo "Pensamento", reservado para planos Plus (US$ 20/mês), Pro (US$ 200/mês), Empresarial e Corporativo, desbloqueia a busca na web, o lote de imagens e a verificação de saída. A camada premium, portanto, carrega a maior parte da capacidade de raciocínio que impulsiona o salto de qualidade.

O preço segue uma estrutura baseada em tokens. Os tokens de entrada custam US$ 8 por milhão, as entradas em cache custam US$ 2 por milhão e a saída de imagem custa US$ 30 por milhão de tokens. Na prática, uma única imagem custa entre US$ 0,04 e US$ 0,35, dependendo da complexidade da solicitação e da resolução, que pode chegar a 2K.

O identificador de API do modelo é gpt-image-2, com acesso de desenvolvedor previsto para o início de maio de 2026. A OpenAI observou um corte de conhecimento em dezembro de 2025; qualquer coisa que tenha surgido após essa data exige a função de busca na web do modelo para permanecer atualizada.

As medidas de segurança incluem filtragem de conteúdo, metadados C2PA para proveniência e monitoramento contínuo, refletindo a resposta da empresa ao aumento da fiscalização regulatória sobre mídia sintética. A OpenAI se recusou a divulgar a arquitetura subjacente, descrevendo o Images 2.0 simplesmente como um "modelo generalista" ou "GPT para imagens" sem confirmar se usa difusão, técnicas autoregressivas ou híbridas.

Os observadores da indústria veem a capacidade de imagem múltipla como um game-changer para o fluxo de trabalho. As equipes de marketing agora podem gerar uma família de ativos de mídia social, frames de storyboards ou ilustrações de livros infantis em uma única etapa, eliminando a necessidade de solicitar e costurar cada imagem individualmente. A integração com Codex significa que os desenvolvedores podem produzir mockups de UI e ativos visuais diretamente no mesmo ambiente que usam para código, slides e automação de navegador.

Com o DALL-E 2 e o DALL-E 3 programados para serem aposentados em 12 de maio de 2026, o Images 2.0 se torna a ferramenta visual de ponta da OpenAI. A mudança sinaliza uma estratégia mais ampla: incorporar capacidades de imagem gerativa em toda a plataforma do ChatGPT, posicionando o serviço como um concorrente direto não apenas do Midjourney e dos modelos da Google, mas também de produtos de design focados em SaaS como Canva e Figma.

Questo articolo è stato scritto con l'assistenza dell'IA.
News Factory SEO ti aiuta ad automatizzare i contenuti delle notizie per il tuo sito.