INTELIGÊNCIA ARTIFICIAL

GPT-4o: a primeira grande evolução do Chat GPT, mas não a última

Por

Fred Andrade

16 de maio de 2024

Frederico Andrade_Foto_Divulgação4 — Frederico Andrade

Há cerca de dois anos, o termo "Inteligência Artificial" se integrou definitivamente ao nosso cotidiano, especialmente alavancada por ferramentas como o ChatGPT, distintas pela capacidade de realizar tarefas cognitivamente complexas por meio de interfaces simples, como um bate-papo que teríamos com outras pessoas.

Para o usuário final, ferramentas de IA têm evoluído desde camadas de automações embarcadas em aplicações que usamos, como em algoritmos de predição e recomendação, até contextos "interativos", como copilotos que nos auxiliam no preenchimento de um documento, robôs que fazem nosso atendimento e até carros autônomos. IAs que escrevem, leem, enxergam, pensam e respondem como nós.

No início desta semana, essa tecnologia entrou em uma nova fase, com o anúncio da OpenAI da nova versão de sua IA generativa, a LLM GPT-4o, que passará a ser o sistema de funcionamento do chat GPT. Ela será liberada gratuitamente para todos os usuários, incluindo os que não assinam o GPT Plus, com algumas restrições.

Mas por que esse anúncio é tão importante? A resposta começa pela própria sigla. O "o" de GPT-4o significa "omni" ("tudo", em latim), uma referência à capacidade da nova versão da IA de lidar com texto, vídeo e, mais notável, fala! O GPT-4 Turbo, o "modelo mais avançado" anterior da OpenAI, era treinado em combinar imagens e textos, podendo extrair textos das imagens ou mesmo descrever essas imagens. Mas o GPT-4o adiciona a tudo isso a possibilidade de conversar – e não apenas responder perguntas. Entenda melhor abaixo:

Conversas e identificação de emoções: o ChatGPT já contava com um modo de voz, que transcrevia as respostas do chatbot. Mas agora, o usuário passa a ser capaz de conversar com o CharGPT, e de modo mais natural do que com um assistente virtual. Segundo a OpenAI, trata-se de "resposta em tempo real": o modelo consegue captar as nuances da voz do usuário e com base nisso, gerar vozes em "uma variedade de estilos emotivos diferentes", incluindo canto. Em uma demonstração ao vivo usando a versão de voz do GPT-4o, a solução não se limitou a resolver uma equação, mas deu sugestões sobre como resolver o problema, que havia sido escrito em um pedaço de papel. As aplicações em campos como ensino e treinamentos em empresas não têm precedentes.

Visão: A interpretação de emoções também passa a ser possível em imagens. Durante a mesma apresentação já citada, o ChatGPT foi capaz de identificar o estado emocional de um homem sorrindo em uma selfie. Além disso, diz a OpenAI, a solução agora consegue examinar o código fonte de uma imagem e também detalhes como a marca de uma roupa usada por uma pessoa na fotografia ou desenho. No futuro, diz a OpenAI, esse recurso poderá permitir que o ChatGPT, por exemplo, "assista" a um jogo esportivo ao vivo e explique as regras para o usuário.

Mais linguagens: o ChatGPT agora tem desempenho aprimorado em cerca de 50 idiomas. E na API da OpenAI e no Azure OpenAI Service da Microsoft, o GPT-4o é duas vezes mais rápido, custa a metade do preço e tem limites de taxa mais altos do que o GPT-4 Turbo. Trata-se de outro recurso com aplicações interessantíssimas em treinamentos e ensino.

Pragmaticamente, o GPT-4o consolida mais um avanço na redução da latência e do custo relacionados à inteligência artificial generativa, o que torna viável projetos outrora impeditivos. Aqui na Indigo Hive, já estamos implementando todas as novas funcionalidades, e o maior benefício está em transformar o que antes era uma demonstração em uma aplicação pronta para operar.

Como sempre dizemos aqui na empresa, a discussão não está tanto na substituição de pessoas por IA, mas sim na substituição daqueles que não a usam por aqueles que o fazem. Por isso, nossa missão é aprofundar a "aplicação" de ferramentas como as da OpenAI, mas também apoiar na navegação dessas oportunidades, inclusive educativamente. Estamos aprendendo juntos e colaborando em um cenário cada vez mais próximo àquele de obras de ficção científica em que conversas entre humanos e IAs são fatos do cotidiano.

Fred Andrade, cofundador da Indigo Hive.

Panorama do IoT no Brasil

Conheça os investimentos em cybersegurança das empresas no Brasil

Desafios da jornada do cliente em serviços financeiros

Saiba como usar os novos recursos de tecnologia para se relacionar…

Digital Workplace: Working anywhere ressignificando o trabalho

DEIXE UMA RESPOSTA Cancelar resposta