A meta de qualquer organização de TI é garantir que tudo, da infraestrutura subjacente aos aplicativos, esteja funcionando de maneira que os usuários finais possam concluir suas tarefas de forma eficiente. Para ajudá-los, as organizações de TI sempre dependeram de ferramentas de monitoramento de sistemas para alertar sobre problemas ocorridos em seu ambiente, mas as tendências do monitoramento de sistemas apontam para uma evolução rumo à análise, à automação e à correção. Por sua vez, essa evolução permitiu que as organizações de TI passassem de reativas a proativas, evitando assim situações de "combate a incêndios", que tendem a ser muito comuns.
Com base em minha experiência pessoal, um dia típico de um administrador de TI começa com a rotina pós-ativação de verificar o telefone para saber se foram enviados alertas por email ou SMS indicando algum tipo de "incêndio". Se você tiver "sorte", a correção será trivial, mas o mais provável é que o alerta seja escalonado, exigindo que vários membros (ou equipes) de TI desviem sua atenção do trabalho em projetos para alterações fora de banda.
Quando as acusações que costumam acontecer ("É a rede!", "É o servidor!", "É a SAN!") se aquietam, a correção resultante costuma ser um "quebra-galho" temporário para retornar os usuários finais ao estado operacional. Depois disso, há o tempo de inatividade adicional para a resolução permanente do problema por meio de interrupções planejadas. Os processos tradicionais associados ao monitoramento e à resposta a alertas criam uma organização de TI reacionária (ou seja, presa a um aparentemente infindável apagar de incêndios, um após o outro, o que consome todo o tempo e energia da equipe), e não uma organização proativa.
Agora, novas tendências em software de monitoramento estão começando a fornecer uma dimensão adicional que permite que os administradores de TI sejam mais proativos quanto à minimização do tempo de inatividade. Em especial, os fornecedores de monitoramento estão usando dois métodos para começar a integrar a análise de dados e o aprendizado por máquinas a suas plataformas de monitoramento.
Em primeiro lugar, por meio da análise de dados atuais e históricos e da correlação de eventos ambientais, o administrador pode ter acesso a modelos de previsão, tendências de capacidade e correlação de alertas mais precisos. Tudo isso permite a realização de um melhor planejamento, que poderá prevenir correções fora de banda ou alertas de interrupções no meio da noite.
A segunda implementação analisa o ambiente e fornece os passos recomendados necessários para solucionar problemas atuais e potenciais. Isso pode ser estendido à execução automática das ações recomendadas para a correção de problemas atuais e potenciais no ambiente, sem a interação do administrador, o que resulta no aumento do tempo de atividade operacional.
O que isso significa para você? Essa evolução do monitoramento dos sistemas de TI permite que você use uma abordagem equilibrada de manter as luzes acesas, ao mesmo tempo que avança na capacitação de práticas recomendadas. O tempo que costumava ser alocado ao combate de incêndios pode agora ser aplicado à implementação de novos projetos ou ao aprimoramento da infraestrutura. Existe também o benefício de proporcionar o aumento do tempo de atividade operacional aos usuários finais e de migrar de uma TI reacionária para uma organização de TI transformacional. Mas tudo começa com o uso das ferramentas, dos processos e das pessoas certas.
Chris Paap, gerente técnico de produtos da SolarWinds.