AWS anuncia disponibilidade geral do Amazon DevOps Guru

0
30

A Amazon Web Services anuncia a disponibilidade geral do Amazon DevOps Guru, um serviço de operações totalmente gerenciado que utiliza machine learning para facilitar a melhoria da disponibilidade de aplicativos, detectando automaticamente problemas operacionais e recomendando ações específicas para a remediação.

Baseado nos anos de excelência operacional da Amazon.com e da AWS, o Amazon DevOps Guru aplica machine learning para analisar automaticamente dados como métricas de aplicativos, logs, eventos e rastreamentos de comportamentos que se desviam dos padrões operacionais normais.

Quando o Amazon DevOps Guru identifica comportamentos anômalos de aplicativos que podem causar possíveis paralisações ou interrupções de serviço, alerta os desenvolvedores com detalhes de problemas para ajudá-los a entender rapidamente o potencial impacto e as prováveis causas do problema, com recomendações específicas para solucionar o problema.

Os desenvolvedores podem usar as sugestões do Amazon DevOps Guru para reduzir o tempo de resolução quando os problemas surgirem e melhorar a disponibilidade do aplicativo — tudo isso sem necessidade de configuração manual ou conhecimento profundo em machine learning. Não há custos ou compromissos iniciais com o Amazon DevOps Guru e os clientes pagam apenas pelos dados analisados. Para aplicar o Amazon DevOps Guru, visite aws.amazon.com/devops-guru.

À medida que mais organizações se movem para arquiteturas de implantação de aplicativos e microsserviços baseadas em nuvem para escalar seus negócios, as aplicações se tornaram cada vez mais distribuídas, e os desenvolvedores precisam de práticas mais automatizadas para manter a disponibilidade de aplicativos e reduzir o tempo e o esforço gasto para detectar, apurar e resolver problemas operacionais.

A inatividade da aplicação causada por alterações de código ou configurações defeituosas, clusters de contêineres desequilibrados ou esgotamento de recursos (por exemplo: CPU, memória, disco etc.) inevitavelmente prejudica a experiência do cliente e resulta em perda de receita.

Empresas investem uma quantidade considerável de recursos, tempo e dinheiro para implementar ferramentas de monitoramento, muitas vezes gerenciadas separadamente. Em seguida, têm que desenvolver e manter alertas personalizados para problemas comuns, como picos de erros de balanceador de carga ou quedas nas taxas de solicitação de aplicativos. Definir limites para identificar e alertar quando os recursos do aplicativo estão se comportando de forma anormal é difícil; envolve configuração manual e requer limites que devem ser continuamente atualizados à medida que o uso do aplicativo muda (por exemplo, um número extraordinariamente grande de solicitações durante uma promoção de vendas).

Se um limite for definido como muito alto, os desenvolvedores não conseguem identificar alarmes até que o desempenho operacional seja severamente afetado. Quando um limite é definido como muito baixo, os desenvolvedores recebem muitos falsos positivos, que são propensos a ignorar. Mesmo quando são alertados sobre um possível problema operacional, o processo de identificação da causa ainda pode ser difícil.

Utilizando ferramentas existentes, os desenvolvedores muitas vezes têm dificuldade em triangular a raiz de um problema operacional a partir de gráficos e alarmes, e, mesmo quando são capazes de encontrar, muitas vezes não têm as informações adequadas para corrigi-la. Cada tentativa de solução de problemas é um começo incerto onde as equipes devem passar horas ou dias identificando problemas, um trabalho demorado e tedioso que diminui o tempo para resolver uma falha operacional e pode prolongar interrupções na aplicação.

Os modelos de machine learning do Amazon DevOps Guru alavancam mais de 20 anos de experiência operacional em construção, dimensionamento e manutenção de aplicações altamente disponíveis para Amazon.com. Isso dá ao serviço a capacidade de detectar automaticamente problemas operacionais (por exemplo, alarmes faltantes ou mal configurados, aviso prévio de esgotamento de recursos, confundir alterações que poderiam levar a paralisações etc.), fornecer contexto sobre recursos envolvidos e eventos relacionados e recomendar ações de remediação.

Com apenas alguns cliques no console Amazon DevOps Guru, métricas históricas de aplicação e infraestrutura como latência, taxas de erro e taxas de solicitação de recursos são automaticamente ingeridas a partir dos aplicativos AWS do usuário e analisadas para estabelecer limites operacionais normais. O Amazon DevOps Guru usa, então, um modelo pré-treinado para identificar desvios dessa linha de base estabelecida (por exemplo, capacidade de computação sub-provisionada, utilização de I/O do banco de dados, vazamentos de memória etc.).

Quando o serviço analisa dados de sistemas e aplicativos para detectar anomalias automaticamente, também agrupa esses dados em insights operacionais que incluem métricas anômalas, visualizações do comportamento do aplicativo ao longo do tempo e recomendações sobre ações — todas facilmente visualizadas no console Amazon DevOps Guru.

O serviço também se correlaciona e agrupa métricas de aplicativos e infraestrutura relacionadas (por exemplo, picos de latência de aplicativos da Web, falta de espaço em disco, implementações de código ruins etc.) para reduzir alarmes redundantes e ajudar a concentrar os usuários em problemas de alta gravidade. Os clientes podem ver históricos de alterações de configuração e eventos de implantação, juntamente com a atividade do sistema e do usuário, para gerar uma lista priorizável de causas prováveis para um problema operacional por um painel no console Amazon DevOps Guru.

Para ajudar os clientes a resolver problemas rapidamente, o Amazon DevOps Guru fornece recomendações inteligentes com etapas de soluções e integra-se ao AWS Systems Manager para ferramentas de runbook e colaboração, dando aos clientes a capacidade de manter aplicações de forma mais eficaz e gerenciar a infraestrutura para suas implantações. Por exemplo, quando um aplicativo de análise usando o Amazon Relational Database Service (RDS) (serviço de banco de dados relacional da Amazon) começa a exibir latências degradadas, o Amazon DevOps Guru detecta a alteração analisando automaticamente as métricas relevantes em toda a pilha de aplicações, identifica a causa subjacente (por exemplo, o aumento do número de instâncias de computação simultâneas escrevendo para RDS) e fornece uma recomendação para resolver o problema (por exemplo, aumentar a capacidade de RDS provisionada e o armazenamento IOPS para lidar com a carga mais alta).

Com alguns cliques no Console de Gerenciamento AWS, os clientes podem habilitar o Amazon DevOps Guru a começar a analisar a atividade da conta e da aplicação em poucos minutos para fornecer insights operacionais. O Amazon DevOps Guru oferece aos clientes uma experiência de console único para visualizar seus dados operacionais, resumindo dados relevantes em várias fontes (por exemplo, AWS CloudTrail, Amazon CloudWatch, AWS Config, AWS CloudFormation, AWS X-Ray) e reduz a necessidade de alternar entre várias ferramentas.

Os clientes também podem visualizar eventos operacionais correlacionados e dados contextuais para obter insights operacionais no console Amazon DevOps Guru e receber alertas via Amazon SNS. Além disso, o serviço suporta pontos finais de API através do AWS SDK, facilitando que parceiros e clientes da Amazon Partner Network (APN) integrem o Amazon DevOps Guru em suas soluções existentes para bilhetagem, paginação e notificação automática de engenheiros para problemas de alta gravidade. PagerDuty e Atlassian estão entre os parceiros da AWS que integraram o Amazon DevOps Guru em suas plataformas de monitoramento de operações e gerenciamento de incidentes. Os clientes que usam suas soluções agora podem se beneficiar de insights operacionais fornecidos pelo serviço.

O Amazon DevOps Guru está disponível hoje nas regiões Leste dos EUA (Norte da Virginia), Leste dos EUA (Ohio) e Oeste dos EUA (Oregon), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Tóquio), Europa (Frankfurt), Europa (Irlanda) e Europa (Estocolmo), com disponibilidade prevista em regiões adicionais nos próximos meses.
Juntamente com o Amazon CodeGuru — uma ferramenta de desenvolvedor alimentada por machine learning que fornece recomendações inteligentes para melhorar a qualidade do código e identificar as linhas de código mais caras de um aplicativo —, o Amazon DevOps Guru oferece aos clientes os benefícios automatizados de machine learning para seus dados operacionais, fazendo com que desenvolvedores possam melhorar com mais facilidade a disponibilidade e a confiabilidade das aplicações.

A Thomson Reuters é um dos provedores de respostas mais confiáveis do mundo, ajudando profissionais a tomar decisões confiantes e administrar melhores negócios. "A experiência e a satisfação do cliente são nossas principais prioridades. Quando várias fontes de alertas e eventos de monitoramento são recebidas, pode ser desafiador e demorado filtrar através do ruído para identificar incidentes que impactam o cliente", afirma Steve Thoennes, diretor de engenharia de confiabilidade do site e cloud da Thomson Reuters. "Com o Amazon DevOps Guru, somos capazes de aproveitar seus insights alimentados por ML para fornecer caminhos claros para que as ações reduzam — e, em muitos casos, eliminem — os problemas de impacto que os nossos clientes têm. A integração do Amazon DevOps Guru com o PagerDuty também fornece um caminho direto para fornecer recomendações rápidas e eficientes às pessoas certas no momento certo e prevemos uma redução significativa do tempo de inatividade operacional como resultado".

Deixe seu comentário