Facebook down: O que sua empresa pode fazer para não cair no limbo?

0

Na última segunda-feira, 4 de outubro de 2021, o Facebook (incluindo suas outras aplicações Instagram e WhatsApp) passou pelo maior evento de indisponibilidade da sua história. Todas as redes sociais ficaram totalmente fora do ar por um período de aproximadamente sete horas.

Segundo o relatório oficial do Facebook, o erro ocorreu devido a uma falha na configuração dos equipamentos de rede. Pelo que tudo indica, o problema foi causado por uma configuração errada em seus roteadores de Border Gateway Protocol (BGP) que fazem a comutação do tráfego entre os seus Pontos de Presença(POPs).

Mas por que levou tanto tempo para retomarem os serviços? Tudo leva a crer que ocorreu o famoso "tiro no pé", ou seja, quando há um erro de configuração, a rede "desliga-se da internet" e perde-se o acesso aos equipamentos e/ou sistemas de suporte internos para poder corrigir o problema sem impactar o acesso aos usuários.

Mas, o que podemos aprender com esse erro e o que fazer para mitigar esse risco?

Primeiro ponto que devemos destacar: É preciso sempre pensar na sua árvore de dependências. Isso significa, mapear todos os componentes da sua infraestrutura e a relação entre eles. Neste caso específico, aparentemente, as ferramentas de suporte dependiam da rede.

Ter um plano contra desastres é um ponto chave. As pessoas precisam ter informações e serem treinadas sobre como agir quando há um problema como este. No caso do Facebook, pelo relatório público disponibilizado, houve problema de acesso dos engenheiros e analistas às ferramentas do dia a dia que seriam utilizadas para que o ambiente voltasse ao ar.

Ter implantada uma política de escopo de poderes de administração nos equipamentos também é muito importante. Mapear atividades versus pessoas e sistemas, inclusive com controle de aprovações, tendem a reduzir erros de configuração.

Na disciplina de gestão de redes, uma boa prática é construir uma rede de gerenciamento apartada Out of Band (OFB). Essa rede não pode ter qualquer dependência da sua rede de produção e pode ser construída com equipamentos de mercado ou soluções específicas. Um bom engenheiro de redes consegue desenhar a melhor solução para cada cenário.

Em uma visão geral, a sugestão para minimizar riscos é ter um ambiente bem projetado, documentado e pensado para que, em eventos extremos como esse, a recuperação do ambiente aconteça de forma mais rápida possível.

Artur Araujo, diretor e chefe de Tecnologia da Pinpoint.

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.