Dois anos atrás, escrevi que a solução de problemas de SDN exigiria uma máquina do tempo para pacotes para desenredar a topologia complexa e transitória de redes dinâmicas em rápida transformação. Além disso, as empresas estão acelerando a transição para a nuvem com redes híbridas que nos tornam ainda mais dependentes de um roteamento que não podemos controlar com facilidade nas redes dos ISPs. Então, como os engenheiros de rede podem solucionar problemas transitórios, oscilantes ou recentes, já que a estrutura se reconfigura regularmente nos dois lados do firewall? Novas ferramentas estão emergindo para lidar com o problema, mas elas não se parecem com nada que já usamos antes.
Ação estranha da rede à distância
Um princípio essencial à ciência é a reprodutividade: pesquisadores independentes seguindo o mesmo procedimento para obter os mesmos resultados sob condições semelhantes. Se existe algo científico nas redes, é a linha de comando. Suas limitações funcionais impõem um uso restrito e, embora isso não seja totalmente determinístico, comandos repetidos produzem uma operação mensurável. Ela também é relativamente cara, o que reforça a estabilidade de que precisamos ao tentar entender por que a rede teve um comportamento indesejado em um determinado momento. "Por que o Marcos mudaria essa regra de firewall?" é uma pergunta pertinente ao fazer a engenharia reversa das alterações do Marcos durante o turno da noite.
E Marcos, Cristina e meu alto preço vêm da ineficiência de administradores habilidosos que ficam debruçados sobre laptops às 3h da manhã olhando janelas de manutenção. A configuração da rede pela linha de comando é trabalhosa, propícia a erros e limita o ritmo máximo de alterações à rede. Como consequência, a baixa cardinalidade faz com que nossos cérebros criem modelos de topologia operacionais. Lembramos dos links e nós em nossas rotas críticas porque fomos nós que os criamos. Quando o serviço piora, lembramos do recurso que provavelmente causou o problema e, mais importante, do nó onde a alteração foi feita. CLI nessa máquina, reparo e fechamento do tíquete como corrigido.
Solução de problemas de rotas insondáveis
A promessa da SDN é uma espada de dois gumes, já que não existem barreiras às alterações. Adicionar uma rota preferencial para o próximo salto de qualquer roteador é o mesmo que adicioná-la a uma centena deles, e quando os administradores de GUI criam conexões com várias hospedagens em segundos, a barreira representada pelo custo da alteração desaparece. E a TI adora fazer alterações superficiais. Com que frequência você reconfigurava os servidores físicos antes do VMware? Agora, quantas alterações você faz em máquinas virtuais antes do almoço? A SDN traz a mesma facilidade às redes.
E como a solução de um problema de sistema operacional de uma máquina virtual quatro horas depois que o convidado já mudou para outro host virtual, agora estamos rastreando rotas de rede que podem mudar em algumas horas. Não basta visualizar o estado atual da rede – nossas ferramentas deverão nos permitir praticamente reverter as alterações de roteamento em tempo hábil e solucionar problemas de rotas que podem ter existido por apenas alguns minutos. Esse é um problema que as redes de operadoras vêm tendo há uma década e agora também enfrentamos.
Uma abordagem visual
As ferramentas de rede emergentes se concentram em descobrir e monitorar caminhos. Caminhos não são rotas no sentido tradicional, visto que são quadridimensionais. Um caminho é um par de pontos de extremidade de tráfego e todas as rotas possíveis que os pacotes devem percorrer, mas que são capturados e suspensos no tempo. Dada a complexidade dos caminhos, especialmente para roteamento na Internet, essas ferramentas não são como os típicos painéis de controle agregados com drill down até os detalhes que usamos com um pé nas costas. Elas são interativas, com navegação e percurso contextual sempre à mão.
Ao retrocedermos e avançarmos as visualizações de conexões para comparar instantâneos de momentos diferentes, elas revelam nuances sutis no desempenho do roteamento à medida que a rede é reconfigurada. Elas identificam a causa da perda de pacotes a partir de um único vínculo mal-configurado em uma lista de centenas deles, mesmo que a SDN tenha instanciado um vínculo virtual há apenas alguns minutos. Elas sabem a diferença entre a latência geral normal do caminho e o comportamento normal dos saltos intermediários do caminho. Isso é importante porque faz os problemas virem à tona em redes complexas com grandes atrasos que estendem a latência em geral.
Dois anos atrás, eu me perguntava como os fornecedores esperavam monitorar o desempenho no mundo real e a topologia da SDN à medida que ela se modifica de forma programática, provavelmente algumas centenas de vezes por dia. Além disso, eu me preocupava com o fato de que não contaríamos com o ponto de vista do aplicativo além das rotas e vínculos virtuais que podemos criar em nossos controladores de SCN. Por fim, estamos vendo algo novo nos laboratórios, que pode até ser um pouco revolucionário (pelo menos para redes). Talvez tenhamos atingido um limite prático para as operações, em que é impossível ter mais automação sem ferramentas de monitoramento para visualização da complexidade criada pela SDN. O ano de 2016 pode ser um grande ano para os especialistas em roteamento – seja atuado por software ou configurado por CLI, ou em nossos data centers, na nuvem ou em ambos.
Patrick Hubbard, gerente técnico da SolarWinds.