Muitos dos maiores sites do mundo, incluindo Snapchat, Reddit e Roblox, foram desligados na segunda-feira após uma interrupção massiva do Amazon Web Services (AWS).

De acordo com o monitor de interrupções da plataforma Downdetector, mais de 1.000 aplicativos e sites – incluindo bancos como Lloyds e Halifax – foram afetados pelo problema no centro das operações da gigante da computação em nuvem nos EUA.

Ele disse que os relatos de problemas de usuários em todo o mundo aumentaram para mais de 6,5 milhões durante a interrupção na manhã de segunda-feira.

A Amazon disse mais tarde que havia resolvido o problema subjacente, mas alguns problemas de serviço permaneceram, e especialistas disseram que a interrupção demonstrou os perigos de muitas empresas dependerem de um único provedor dominante.

“O que este episódio destaca é o quão interdependente é a nossa infraestrutura”, disse o professor Alan Woodward, da Universidade de Surrey.

“Muitos serviços online dependem de terceiros para a sua infraestrutura física, e isso mostra que os maiores problemas também podem ocorrer dentro desses fornecedores terceirizados.

“Pequenos erros, muitas vezes cometidos pelo homem, podem ter impactos enormes e significativos”.

Os problemas parecem ter começado às 07h00 BST de segunda-feira, quando os usuários começaram a relatar problemas de acesso a diversas plataformas.

Inclui uma ampla variedade de sites e serviços diferentes, desde jogos online massivos como Fortnite até o aplicativo de aprendizagem de idiomas Duolingo.

O Downdetector disse à BBC que viu mais de quatro milhões de relatos de usuários de 500 sites em apenas algumas horas – mais que o dobro da quantidade que veria em um dia de semana normal inteiro.

Mais tarde, estes atingiram um pico de mais de seis milhões, à medida que mais serviços tentavam se recuperar, incluindo Reddit e Lloyds Bank, disse.

Por volta das 22:00 BST, a Amazon disse que muitos dos seus serviços afetados foram restaurados, acrescentando que “continuamos a fazer progressos”, embora tenha reconhecido que os problemas persistem.

De acordo com Mike Chapple, professor de tecnologia da informação da Universidade de Notre Dame, uma nova série de “falhas em cascata” pode ocorrer após a interrupção inicial.

“É como quando você sofre uma queda de energia em grande escala”, disse Chapple. “As equipes começam a trabalhar tentando colocá-lo novamente em funcionamento. A energia pode oscilar algumas vezes”, mas é possível que “eles apenas tratem dos sintomas” e não da causa raiz.

A Amazon ainda não forneceu detalhes completos ou emitiu uma declaração oficial sobre a interrupção de segunda-feira.

Ele disse em uma atualização em sua página de status de serviço que o problema “parece estar relacionado à resolução de DNS do endpoint da API DynamoDB em US-EAST-1”.

DNS, que significa Sistema de Nomes de Domínio, é frequentemente comparado a uma lista telefônica da Internet.

Ele traduz efetivamente nomes de sites que as pessoas usam (por exemplo, bbc.co.uk) em números que podem ser lidos e compreendidos por computadores.

Este processo baseia-se em grande parte na forma como utilizamos a Internet, e interrupções no mesmo podem fazer com que os navegadores não consigam localizar o conteúdo que procuram.

O presidente-executivo da Cloudflare, Matthew Prince, disse à BBC que a interrupção da AWS destaca o poder que os serviços em nuvem têm sobre o funcionamento da Internet.

“Todo mundo tem um dia ruim, a Amazon teve um dia ruim hoje”, disse ele.

“Há coisas incríveis sobre a nuvem, ela permite escalar… mas se houver uma interrupção como essa, ela pode derrubar muitos dos serviços dos quais dependemos.”

E Corey Crider, chefe do Future of Technology Institute, disse à BBC que foi “um pouco como uma ponte desabando”.

“Uma parte essencial da economia foi fragmentada”, disse ele.

E com tanta computação em nuvem dependendo da Amazon, Microsoft e Google – estimada em cerca de 70% – o status quo é “insustentável”, disse ele.

“Quando se tem uma oferta concentrada num punhado de fornecedores monopolistas, quando algo assim fracassa, é preciso uma enorme percentagem da economia”, disse ele.

“Em vez de depender de um punhado de plataformas monopolistas americanas, deveríamos tentar comprar mais serviços locais.

“Isto representa um risco para a nossa segurança, a nossa soberania e a nossa economia, e precisamos de considerar rupturas estruturais para tornar os nossos mercados mais resilientes a tais choques.”

Um especialista em ciência da computação disse que parte da responsabilidade recai sobre as empresas que usam a AWS.

“As empresas que usam a Amazon não estão tomando cuidado suficiente para incorporar segurança em seus aplicativos”, disse Ken Bierman, professor de ciência da computação na Universidade Cornell, em Nova York.

Interrupções como a de segunda-feira acontecem com mais frequência, embora nem sempre nesta escala.

Birman disse à BBC que os desenvolvedores de aplicativos devem ter o cuidado de investir em backups de aplicativos de missão crítica na nuvem.

“Sabemos como tornar estes sistemas mais fortes e como fazê-lo com segurança”, disse Bierman.

Podem surgir questões de responsabilidade em tribunal.

Mais de um ano após a paralisação massiva da greve coletiva, a Delta Airlines ainda está brigando com a empresa para recuperar mais de US$ 500 milhões em perdas.

Mesmo depois de resolver o problema da greve coletiva, a companhia aérea disse que teve que redefinir manualmente 40.000 servidores, causando grandes atrasos nos voos por vários dias.

Reportagem adicional de Esyllt Carr.

Source link