Impulsionado pelo aumento de aplicações que utilizam grandes modelos de linguagem (LLMs), o espaço de gateways de IA de código aberto está crescendo rapidamente. A partir disso, engenheiros da Bloomberg e da Tetrate se uniram para desenvolver um conjunto inovador de recursos principais de gateways de inteligência artificial, liderado pela comunidade, para a integração delas em empresas. Esse esforço expandirá as capacidades do projeto Envoy Gateway da CNCF, uma das implementações da API Gateway do Kubernetes.
Como padrão emergente para o gerenciamento de tráfego de entrada no Kubernetes, o Envoy Gateway é projetado para operações em grande escala e é extensível, tornando-o uma escolha sólida para suportar esse novo conjunto de recursos, além de impulsionar futuras inovações no espaço de gateways de API de IA. Além disso, o Envoy Gateway é um projeto de código aberto liderado pela comunidade, sem recursos licenciados comercialmente, em que as decisões sobre o desenvolvimento de novos recursos são feitas pelos membros.
Isso o diferencia de outras ofertas de gateways de IA de código aberto encabeçadas por fornecedores e de soluções totalmente proprietárias e comerciais, que podem adicionar complexidade e dificultar a inovação para algumas empresas. É por isso que a comunidade Envoy está desenvolvendo uma opção sem dependência de fornecedores ou funcionalidades que exigem licenças empresariais adicionais.
Segundo Varun Talwar, fundador da Tetrate, historicamente, quando surgem problemas compartilhados na indústria de software, a comunidade de código aberto se une para resolvê-los, acelerando a inovação. "Nossa colaboração com a Bloomberg e a CNCF visa projetar e entregar um gateway de IA totalmente aberto, liderado pela comunidade, usando a principal tecnologia para substituir modelos antigos de entrada no Kubernetes. É uma solução que o mercado está pedindo, e estamos empolgados em fazer parte dessa equipe de mantenedores e colaboradores."
Gateways de IA permitem que organizações integrem as funcionalidades em fluxos de trabalho e aplicativos. Eles roteiam solicitações para vários provedores de serviços de IA e modelos por meio de uma camada de proxy reverso (geralmente chamada de gateway). Esses gateways simplificam a integração de IA, ao oferecer uma API unificada com a qual os desenvolvedores podem interagir, além de funcionalidades adicionais, como controle de taxas, cache e possibilidade de observação.
A ideia inicial deste projeto surgiu quando Dan Sun, líder de engenharia da equipe de Serviços de Computação Nativa em Nuvem – IA da Bloomberg e cofundador/mantenedor do projeto KServe, trouxe à comunidade Envoy sua visão sobre o espaço problemático e uma possível solução. A Tetrate, grande contribuidora do projeto, manifestou interesse em ajudar Sun e Bloomberg a concretizarem sua visão para a API do Gateway de IA.
O Envoy Gateway e o KServe podem ser usados em conjunto para rotear o tráfego tanto para modelos LLM hospedados internamente quanto para os oferecidos por fornecedores. Neste caso, o gateway de IA atua como uma camada superior, roteando o tráfego de modelos LLM de código aberto para endpoints autohospedados com o KServe, enquanto o tráfego de modelos hospedados por fornecedores é direcionado para serviços como AWS Bedrock ou outros similares baseados na nuvem.