O ChatGPT agora pode gerar imagens - e elas são surpreendentemente detalhadas. A OpenAI, startup de inteligência artificial dona do sistema, incorporou a tecnologia do gerador de imagens DALL-E e lançou uma nova versão a um pequeno grupo de pessoas para experimentar. Agora, os usuários podem usar o chatbot para produzir imagens digitais simplesmente descrevendo o que desejam ver.
Segundo a empresa, a tecnologia agora produz imagens mais convincentes do que as versões anteriores. O sistema está mais refinado para gerar imagens contendo letras, números e mãos humanas, disse a OpenAI.
— É muito melhor para compreender e representar o que o usuário está pedindo — disse Aditya Ramesh, pesquisadora da OpenAI, acrescentando que a tecnologia foi construída para ter uma compreensão mais precisa da língua inglesa.
'Hub' de IA generativa
Ao integrar a versão mais recente do DALL-E ao ChatGPT, a OpenAI dá mais um passo em direção à criação de um hub da inteligência artificial generativa capaz de produzir texto, imagens, sons, software e outras mídias digitais por conta própria. Desde que o ChatGPT se tornou viral no ano passado, ele deu início a uma corrida entre os gigantes da tecnologia do Vale do Silício para estar na vanguarda da IA com avanços.
Na terça-feira, o Google lançou uma nova versão de seu chatbot, Bard, que se conecta a vários dos serviços mais populares da empresa - incluindo Gmail, YouTube e Docs. Midjourney e Stable Diffusion, dois outros geradores de imagens, também atualizaram seus modelos recentemente.
Integração com serviços on-line
A OpenAI há muito oferece maneiras de conectar seu chatbot a outros serviços online, incluindo Expedia, OpenTable e Wikipedia. Mas esta é a primeira vez que a startup combina um chatbot com um gerador de imagens.
Em uma demonstração esta semana, Gabriel Goh, pesquisador da OpenAI, mostrou como o ChatGPT agora pode gerar descrições textuais detalhadas que são então usadas para produzir imagens. Mas como todos os geradores de imagens – e outros sistemas de IA – também está sujeito a erros, disse Goh.
DALL-E 3 só estará disponível para ChatGPT Plus
Enquanto trabalha para refinar a tecnologia, a OpenAI não compartilhará o DALL-E 3 com o público em geral até o próximo mês. O DALL-E 3 estará então disponível através do ChatGPT Plus, um serviço que custa US$ 20 por mês.
A tecnologia de geração de imagens pode ser usada para espalhar grandes quantidades de desinformação online, alertaram os especialistas. Para se proteger contra isso, com o DALL-E 3, a OpenAI incorporou ferramentas projetadas para prevenir assuntos problemáticos, como imagens sexualmente explícitas e representações de figuras públicas. A empresa também está tentando limitar a capacidade do DALL-E de imitar estilos de artistas específicos.
Risco de desinformação
Sandhini Agarwal, pesquisadora da OpenAI com foco em segurança e política, disse que o DALL-E 3 tende a gerar imagens mais estilizadas do que fotorrealistas. Ainda assim, ela reconheceu que o modelo poderia ser levado a produzir cenas convincentes, como o tipo de imagens granuladas capturadas por câmeras de segurança.
Na maior parte, a OpenAI não planeja bloquear conteúdo potencialmente problemático proveniente do DALL-E 3. Agarwal disse que tal abordagem era “muito ampla” porque as imagens podem ser perigosas dependendo do contexto em que aparecem.
— Realmente depende de onde está sendo usado, como as pessoas estão falando sobre isso — disse ela.