Início Tecnologia Cloudflare explica o erro que derrubou grandes partes da internet ontem

Cloudflare explica o erro que derrubou grandes partes da internet ontem

20
0
Cloudflare explica o erro que derrubou grandes partes da internet ontem | Foto aproximada de uma mensagem de erro meramente ilustrativa

Grandes partes da Internet estavam completamente indisponíveis ontem, com muitos outros sites e serviços apresentando desempenho lento. Ficou imediatamente claro que o problema estava na rede Cloudflare, mas demorou algum tempo para a empresa estabelecer a verdadeira causa.

A Cloudflare diz que inicialmente acreditou que estava enfrentando um ataque cibernético massivo, mas posteriormente percebeu que os problemas eram causados ​​por um erro “doloroso” com uma atualização de software…

Como informamos ontem, a interrupção foi enorme.

Atualmente, um grande número de aplicativos e sites estão totalmente off-line ou sofrem interrupções significativas devido a um problema com o popular provedor de rede de infraestrutura Cloudflare. O Cloudflare CDN alimenta os sites por trás de muitos aplicativos de alto perfil, portanto, qualquer interrupção na Cloudflare tem implicações de amplo alcance. Isso inclui o site de mídia social X (antigo Twitter), onde os usuários atualmente não conseguem publicar novas postagens ou atualizar seus cronogramas. O problema parece estar afetando os usuários da web em todo o mundo.

Por que a Cloudflare pensou que estava sob ataque

A Cloudflare disse que o padrão observado foi que as conexões eram colocadas off-line por cerca de cinco minutos por vez antes de serem restauradas e depois colocadas off-line novamente. Esse padrão levou a empresa a acreditar que estava enfrentando o que descreveu como um ataque DDoS em hiperescala, uma vez que um erro técnico normalmente não se resolveria sozinho.

Um ataque distribuído de negação de serviço ocorre quando um ator mal-intencionado direciona um volume muito grande de solicitações a um servidor para usar toda a sua capacidade disponível, o que significa que usuários genuínos não conseguem acessar o serviço.

O que parecia ser mais uma evidência de um ataque cibernético acabou sendo pura coincidência.

Nos confundir e nos fazer acreditar que poderia ter sido um ataque foi outro sintoma aparente que observamos: a página de status da Cloudflare caiu. A página de status é hospedada completamente fora da infraestrutura da Cloudflare, sem dependências da Cloudflare. Embora tenha sido uma coincidência, isso levou alguns membros da equipe que diagnosticou o problema a acreditar que um invasor pode ter como alvo nossos sistemas e também nossa página de status.

A verdadeira causa foi um erro do Cloudflare

No entanto, posteriormente descobriu que o problema era que havia uma falha na atualização de um arquivo usado pelo sistema de gerenciamento de bots.

Há uma regra não escrita em TI de que se você estiver enfrentando um problema com sintomas estranhos, será um problema de permissão – e esse foi o caso aqui.

Ele foi acionado por uma alteração nas permissões de um dos nossos sistemas de banco de dados, o que fez com que o banco de dados gerasse diversas entradas em um “arquivo de recursos” usado pelo nosso sistema de gerenciamento de bots. Esse arquivo de recursos, por sua vez, dobrou de tamanho. O arquivo de recursos maior que o esperado foi então propagado para todas as máquinas que compõem nossa rede.

O software executado nessas máquinas para rotear o tráfego em nossa rede lê esse arquivo de recursos para manter nosso sistema de gerenciamento de bots atualizado contra ameaças em constante mudança. O software tinha um limite de tamanho do arquivo de recursos abaixo do tamanho duplicado. Isso fez com que o software falhasse.

Havia também uma explicação simples para o estranho ciclo de cinco minutos.

O arquivo era gerado a cada cinco minutos por uma consulta executada em um cluster de banco de dados ClickHouse, que era atualizado gradativamente para melhorar o gerenciamento de permissões. Dados inválidos só eram gerados se a consulta fosse executada em uma parte do cluster que tivesse sido atualizada. Como resultado, a cada cinco minutos havia uma chance de um conjunto bom ou ruim de arquivos de configuração ser gerado e propagado rapidamente pela rede.

A empresa apresentou um pedido de desculpas, descrevendo seu erro como “profundamente doloroso”.

Lamentamos o impacto causado aos nossos clientes e à Internet em geral. Dada a importância da Cloudflare no ecossistema da Internet, qualquer interrupção de qualquer um dos nossos sistemas é inaceitável. O fato de ter havido um período em que nossa rede não foi capaz de rotear o tráfego é profundamente doloroso para todos os membros de nossa equipe. Sabemos que decepcionamos você hoje.

Você pode ler uma explicação mais detalhada em uma postagem do blog da Cloudflare.

Acessórios em destaque

Foto de David Pupăză no Unsplash

FTC: Usamos links de afiliados automotivos para geração de renda. Mais.

Fuente