A OpenAI apresentou o ChatGPT Images 2.0 na segunda-feira, expandindo seu serviço de geração de imagens impulsionado por IA para todos os níveis de usuários do ChatGPT. A atualização chega um pouco mais de um ano após a empresa permitir que os usuários criassem imagens diretamente do chatbot, e traz uma série de melhorias que visam tornar a ferramenta mais confiável para trabalhos profissionais e criativos.
Entre as principais novidades está uma "mudança de passo" na capacidade do modelo de seguir prompts detalhados, especialmente quando esses prompts envolvem texto denso ou posicionamento preciso de objetos. A OpenAI destaca ganhos significativos na renderização de caracteres não-latino, observando que o modelo agora lida com scripts em japonês, coreano, chinês, hindi e bengali com muito maior fidelidade. Essa melhoria deve ajudar designers que precisam incorporar texto autêntico em mockups, storyboards ou ativos de jogos.
Além da precisão linguística, as Imagens 2.0 expandem a tela visual. Os usuários podem solicitar proporções de aspecto tão amplas quanto 3:1 ou tão altas quanto 1:3, e o sistema pode gerar imagens com resolução de até 2K. O modelo também suporta saída em lote, produzindo até oito variações a partir de um único prompt. Para desenvolvedores, a atualização está acessível por meio da API da OpenAI e do aplicativo de codificação Codex, que agora inclui geração de imagens integrada.
A OpenAI adicionou um componente de raciocínio ao modelo, permitindo que ele pesquise na web e verifique suas saídas. A empresa afirma que essa camada melhora a consistência e reduz as alucinações, um desafio persistente para a IA gerativa. Testadores iniciais observaram que, embora o modelo tenha se saído bem na maioria das tarefas, às vezes ele se desviou de prompts de arte de pixel, sugerindo espaço para mais refinamento.
Casos de uso criativos e impressões iniciais
Em uma prévia, um jornalista pediu ao modelo que produzisse um gato de casca de tartaruga no estilo de arte de pixel de um jogo de Pokémon de terceira geração. O resultado capturou a estética nostálgica, e o sistema até gerou uma versão PNG transparente — uma capacidade que muitos modelos de imagem lutam para entregar. O mesmo prompt foi seguido por um pedido de um mangá de quatro páginas com o gato, que o modelo montou com layout de painel e diálogo razoáveis.
A OpenAI afirma que o novo modelo é particularmente útil para prototipagem de jogos, storyboarding e qualquer fluxo de trabalho onde a coesão visual e a precisão textual são essenciais. Assinantes Plus e Pro recebem acesso prioritário às saídas mais avançadas, enquanto os usuários da tier gratuita ainda podem experimentar as capacidades básicas.
Observadores da indústria compararão as Imagens 2.0 com sistemas concorrentes, como o Nano Banana 2 do Google, mas a combinação da OpenAI de resolução mais alta, proporções de aspecto flexíveis e suporte a texto não-latino define um novo padrão para imagens geradas por IA. O lançamento ocorre apenas dias após a Anthropic entrar no mercado de design visual com seu próprio assistente, intensificando a competição no espaço de IA gerativa.
O movimento da OpenAI sinaliza uma continuação do esforço para incorporar a criação visual em sua plataforma de conversação, borrando a linha entre assistência baseada em texto e ferramentas de design completas. À medida que os desenvolvedores integram a API em aplicativos e plataformas, o impacto real do Images 2.0 se tornará mais claro, mas o lançamento inicial já sugere um papel mais amplo para a IA nos fluxos de trabalho criativos cotidianos.
Este artigo foi escrito com a assistência de IA.
News Factory SEO ajuda você a automatizar conteúdo de notícias para o seu site.