Há cerca de dois anos, o termo "Inteligência Artificial" se integrou definitivamente ao nosso cotidiano, especialmente alavancada por ferramentas como o ChatGPT, distintas pela capacidade de realizar tarefas cognitivamente complexas por meio de interfaces simples, como um bate-papo que teríamos com outras pessoas.
Para o usuário final, ferramentas de IA têm evoluído desde camadas de automações embarcadas em aplicações que usamos, como em algoritmos de predição e recomendação, até contextos "interativos", como copilotos que nos auxiliam no preenchimento de um documento, robôs que fazem nosso atendimento e até carros autônomos. IAs que escrevem, leem, enxergam, pensam e respondem como nós.
No início desta semana, essa tecnologia entrou em uma nova fase, com o anúncio da OpenAI da nova versão de sua IA generativa, a LLM GPT-4o, que passará a ser o sistema de funcionamento do chat GPT. Ela será liberada gratuitamente para todos os usuários, incluindo os que não assinam o GPT Plus, com algumas restrições.
Mas por que esse anúncio é tão importante? A resposta começa pela própria sigla. O "o" de GPT-4o significa "omni" ("tudo", em latim), uma referência à capacidade da nova versão da IA de lidar com texto, vídeo e, mais notável, fala! O GPT-4 Turbo, o "modelo mais avançado" anterior da OpenAI, era treinado em combinar imagens e textos, podendo extrair textos das imagens ou mesmo descrever essas imagens. Mas o GPT-4o adiciona a tudo isso a possibilidade de conversar – e não apenas responder perguntas. Entenda melhor abaixo:
Conversas e identificação de emoções: o ChatGPT já contava com um modo de voz, que transcrevia as respostas do chatbot. Mas agora, o usuário passa a ser capaz de conversar com o CharGPT, e de modo mais natural do que com um assistente virtual. Segundo a OpenAI, trata-se de "resposta em tempo real": o modelo consegue captar as nuances da voz do usuário e com base nisso, gerar vozes em "uma variedade de estilos emotivos diferentes", incluindo canto. Em uma demonstração ao vivo usando a versão de voz do GPT-4o, a solução não se limitou a resolver uma equação, mas deu sugestões sobre como resolver o problema, que havia sido escrito em um pedaço de papel. As aplicações em campos como ensino e treinamentos em empresas não têm precedentes.
Visão: A interpretação de emoções também passa a ser possível em imagens. Durante a mesma apresentação já citada, o ChatGPT foi capaz de identificar o estado emocional de um homem sorrindo em uma selfie. Além disso, diz a OpenAI, a solução agora consegue examinar o código fonte de uma imagem e também detalhes como a marca de uma roupa usada por uma pessoa na fotografia ou desenho. No futuro, diz a OpenAI, esse recurso poderá permitir que o ChatGPT, por exemplo, "assista" a um jogo esportivo ao vivo e explique as regras para o usuário.
Mais linguagens: o ChatGPT agora tem desempenho aprimorado em cerca de 50 idiomas. E na API da OpenAI e no Azure OpenAI Service da Microsoft, o GPT-4o é duas vezes mais rápido, custa a metade do preço e tem limites de taxa mais altos do que o GPT-4 Turbo. Trata-se de outro recurso com aplicações interessantíssimas em treinamentos e ensino.
Pragmaticamente, o GPT-4o consolida mais um avanço na redução da latência e do custo relacionados à inteligência artificial generativa, o que torna viável projetos outrora impeditivos. Aqui na Indigo Hive, já estamos implementando todas as novas funcionalidades, e o maior benefício está em transformar o que antes era uma demonstração em uma aplicação pronta para operar.
Como sempre dizemos aqui na empresa, a discussão não está tanto na substituição de pessoas por IA, mas sim na substituição daqueles que não a usam por aqueles que o fazem. Por isso, nossa missão é aprofundar a "aplicação" de ferramentas como as da OpenAI, mas também apoiar na navegação dessas oportunidades, inclusive educativamente. Estamos aprendendo juntos e colaborando em um cenário cada vez mais próximo àquele de obras de ficção científica em que conversas entre humanos e IAs são fatos do cotidiano.
Fred Andrade, cofundador da Indigo Hive.