Relatório de Incidente Ping. Case #3

Ping.
3 min readDec 24, 2022

--

Informação técnica sobre ocorrência instabilidade da plataforma na data de 23/12/2022.

Resumo dos fatos:

  • Ocorrência de instabilidades às 06h00min do dia 23/12/2022;
  • Detectamos problemas no controle de sessão do sistema, onde após certo tempo de uso, a sessão era encerrada necessitando novo acesso;
  • Os procedimentos de rotina de troubleshooting realizados para identificar o problema e resolver o incidente se iniciaram às 06h00min;
  • Identificação do erro: problemas na conexão com o Cluster de Banco de Dados utilizando a ferramenta PgBouncer[1];
  • Com o problema de conexão com o Cluster do Banco de Dados, durante o processo de troubleshooting, foi necessário a reinicialização da aplicação diversas vezes em razão do número de clientes conectados no momento.
  • Após a modificação da configuração de conexão do Ping. ao Cluster de Banco de dados e reinicialização do sistema, o ambiente foi estabilizado.
  • Devido a instabilidades na ferramenta CloudFlare[2], após a resolução do incidente, o sistema ainda permaneceu instável devido ao tempo de propagação das correções aplicadas.
  • Finalização do incidente às 10h15min;

Problemas de acesso a recursos do Ping.

Hoje, dia 23 de Dezembro de 2022 por volta de 06h00min (horário de Brasília), fomos acionados pelos sistemas de monitoramento da aplicação Ping. descrevendo falhas no acesso aos recursos da plataforma.

De forma automática, a equipe de suporte e desenvolvimento foi informada sobre a falha, permitindo a execução dos procedimentos de rotina de troubleshooting para resolução de incidente, que consistiu em:

  • Verificar os registros de log de erros e indicadores de recursos dos servidores e serviços em funcionamento no Ping;
  • Limitação de acesso aos clientes para identificação do problema;
  • Identificação do problema;
  • Desconexão da Aplicação do Cluster de Banco de Dados;
  • Reconexão da aplicação;
  • Reinicialização dos serviços;

O problema identificado causou uma falha na conexão do Ping. com o Cluster de Banco de Dados, mediante a instabilidade da comunicação causada pelo uso da ferramenta PgBouncer[1], a qual tem por finalidade proporcionar melhor desempenho na conexão entre o Ping. e o Cluster de Banco de Dados por meio do gerenciamento otimizado das conexões abertas.

Em razão do problema de comunicação entre o Ping. e o Cluster de Banco de Dados, o sistema apresentou diversas falhas decorrentes da situação relatada. Esse conjunto resultou na instabilidade do sistema para alguns clientes do Ping.

Por fim, cabe destacar um fator a mais que acabou por atrasar a estabilização efetiva do sistema após os procedimentos de correção do incidente, que foi a demora na propagação das correções aplicadas por parte do CloudFlare[2], devido a instabilidades da ferramenta na região da América do Sul ocorrida no decorrer deste dia, conforme pode ser consultado na página de status da ferramenta, sendo a CloudFlare[2] a plataforma responsável por proporcionar além da proteção e segurança do sistema, a garantia de que todo acesso seja devidamente filtrado, evitados ataques e que usuários de qualquer lugar tenham uma experiência de acesso dinâmica e confortável

Medidas de contorno e futuras melhorias

Considerando o ocorrido, estamos analisando uma alternativa ao PgBouncer[1] para proporcionar melhor desempenho no gerenciamento da conexão entre o Ping. e o Cluster de Banco de Dados.

A equipe já efetuou correção da configuração que permitia o uso de 100% de uso do Banco de Dados principal e continua a estudar formas de otimizar o uso dos recursos do Ping.

Garantia de integridade e segurança dos dados

Destacamos que a plataforma Ping possui equipe de profissionais com experiência de anos na área de tecnologia. O corpo técnico acompanha a execução das atividades 24 horas por dia e 7 dias por semana para ofertar serviços de qualidade aos nossos clientes.

Ainda sim, existem ferramentas e tecnologias que são propriedade de terceiros, soluções de vanguarda e provedores de serviços de inovação contratados pelo Ping. Neste cenário buscamos sempre entender e mitigar riscos, características de redundância e otimização do uso dos recursos para ofertar aos clientes um preço competitivo com todos os aspectos de disponibilidade, garantias e segurança disponíveis na Industria.

Pedimos desculpas pelo transtorno e lembramos sempre que estamos disponíveis para quaisquer esclarecimentos adicionais.

Equipe de Tecnologia.

Ping.

dev [at] meuping.com

1 — PgBouncer: https://docs.digitalocean.com/glossary/pgbouncer/

2 — CloudFlare: https://www.cloudflare.com/pt-br/

--

--

Ping.
Ping.

Written by Ping.

Somos uma STARTUP de tecnologia criada para otimizar a gestão documental eliminando a papelada e trazendo economia e sustentabilidade para as empresas.

No responses yet