OpenAI lança versão ChatGPT 4 Omni

0

A OpenAI anunciou nesta segunda-feira, 13, um novo modelo generativo de IA chamado de GPT-4o – o "o" significa "omni", referindo-se à capacidade do modelo de lidar com texto, fala e vídeo. O GPT-4o está definido para ser implementado "interativamente" nos produtos da empresa para desenvolvedores e voltados para o consumidor nas próximas semanas.

"O GPT-4o raciocina através de voz, texto e visão", disse Mira Murati, CTO da OpenAI, durante uma apresentação transmitida nos escritórios da OpenAI em São Francisco na segunda-feira, informou o site TechCrunch. "E isso é extremamente importante, porque estamos olhando para o futuro da interação entre nós e as máquinas", disse a executiva.

GPT-4 Turbo, o modelo anterior e mais avançado da OpenAI, foi treinado em uma combinação de imagens e texto e pode analisar imagens e texto para realizar tarefas como extrair texto de imagens ou até mesmo descrever o conteúdo dessas imagens. Mas o GPT-4o acrescenta fala à mistura.

O GPT-4o melhora muito a experiência no chatbot com tecnologia de IA da OpenAI, ChatGPT . A plataforma oferece há muito tempo um modo de voz que transcreve as respostas do chatbot usando um modelo de conversão de texto em fala, mas o GPT-4o potencializa isso, permitindo que os usuários interajam com o ChatGPT mais como um assistente.

Por exemplo, os usuários podem fazer uma pergunta ao ChatGPT com tecnologia GPT-4o e interromper o ChatGPT enquanto ele responde. O modelo oferece capacidade de resposta em "tempo real", diz a OpenAI, e pode até captar nuances na voz do usuário, gerando em resposta vozes em "uma variedade de estilos emotivos diferentes" (incluindo canto).

O GPT-4o também atualiza os recursos de visão do ChatGPT. Dada uma foto – ou uma tela de desktop – o ChatGPT agora pode responder rapidamente a perguntas relacionadas, desde tópicos que vão desde "O que está acontecendo neste código de software?" para "Que marca de camisa essa pessoa está vestindo?"

Esses recursos evoluirão ainda mais no futuro, diz Murati. Embora hoje o GPT-4o possa ver a imagem de um menu em um idioma diferente e traduzi-lo, no futuro, o modelo poderá permitir que o ChatGPT, por exemplo, "assista" a um jogo esportivo ao vivo e explique as regras para você.

"Sabemos que esses modelos estão ficando cada vez mais complexos, mas queremos que a experiência de interação se torne realmente mais natural, fácil e que você não se concentre na UI, mas apenas na colaboração com ChatGPT," disse Murati. "Nos últimos dois anos temos focados em melhorar a inteligência destes modelos… Mas esta é a primeira vez que estamos realmente danda um grande passo em frente no que diz respeito à facilidade de utilização."

O GPT-4o também é mais multilíngue, afirma a OpenAI, com desempenho aprimorado em cerca de 50 idiomas. E na API da OpenAI e no Azure OpenAI Service da Microsoft, o GPT-4o é duas vezes mais rápido, metade do preço e tem limites de taxa mais altos do que o GPT-4 Turbo, diz a empresa.

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.