- Publicado em
- 28/12/2023
Carregando...
*** Sobre os eventos ocorridos nos dias 15 e 16/10/2015
Prezados Clientes,
Cenário: nas últimas 48 horas, tivemos fortes evento gerados por causas naturais pontuais no estado do Rio Grande do Sul, onde temos ainda parte da base de servidores web e a base instalada de e-mails, bem como backend dos sistemas de apoio, como painel de controle. Ventos acima de 130 Km/h; comunicado público da NASA dando conta de que nunca antes no mundo, ocorreu tanta chuva em um único local geográfico; inundações por todo lado; famílias desalojadas por águas de chuva ou granizo que perfurou suas moradas. Neste cenário de guerra, persistimos com forte empenho de um time de mais de 160 guerreiros em uma cidade não acostumada a tantos eventos naturais pesados em um curto espaço de tempo.
Inicialmente no dia 15 de madrugada, múltiplas quedas de postes de energia, bem como excesso de chuvas ocasionaram quedas dos principais links de acesso ao Datacenter da TIM/Intelig, onde temos três salas de servidores. Uma delas teve ainda por cima, sobretensão elétrica e foi reinicializada às 06:50 do dia 15. Geradores funcionaram das 22h do dia 14 até 08:00 do dia 15 mantendo serviços alojados em Porto Alegre, semi-operacionais, com restauração completa dos mais de 800 servidores, às 14:00h do mesmo dia, com focos pontuais de restauração de configurações.
Segundo a TIM/Intelig, durante o dia, as empresas que prestam assistencia ao site de Porto Alegre trabalharam durante o dia para que a causa do problema da manhã não retornasse.
Às 17:30 ocorreu queda da energia pública no site, e em 10 minutos o gerador de 750 KVA que sustenta a maior parte do site, desligou em falha. Um gerador auxiliar de 450 KVA foi ligado, mas não suportou o peso o site (servidores, equipamentos de telecomunicações da TIM e ar-condicionado). As baterias do nobreak da rede AC foram consumidas e tivemos parada total. Em teleconferência com o CEO da Intelig, Alex Salgado, que faz parte da Diretoria da TIM Brasil, foi autorizada a locação imediata de um sistema de geração confiável, com capacidade de 750 KVA ou maior - a demanda do site é de 500A. Em virtude da hora, esta operação ficou agendada para o primeiro horário do dia 16/10.
A energia foi restaurada às 21h, quando começamos a religar os equipamentos, checando um a um os serviços. Em reunião informal com a equipe que ficaria de plantão no site para acompanhar o sistema de alimentação energética, ficou acertado que em nova falha, o sistema de geração de energia seria ligado apenas para manter o site funcionando sem os sistemas de ar-condicionado, afim de manter apenas o essencial rodando. Os serviços foram restaurados completamente antes das 2h.
Às 02:24, uma sobretensão na rede pública causou nova queda, devido à falha no acionamento do sistema de geração auxiliar. Novamente os serviços foram religados, com alguns fatores pontuais: a rede de acesso em algumas farms gerou um storm (loop de layer 2), deixando inacessíveis serviços. O loop leva tempo para ser interpretado, localizado e corrigido.
A partir das 06:30, os serviços começam a ser restaurados. Trabalhamos com prazo de até às 11h estarmos com todos os serviços novamente operacionais em Porto Alegre.
---- * ---- Nosso sistema de telefonia, por estar vinculado diretamente ao Datacenter, durante as quedas, também fica completamente desestabilizado ou inoperante. A central SIP teve inclusive que passar por correção de disco (fsck).
E-mails: todos os e-mails enviados nos momentos de instabilidade, estão sendo recebidos pelos nossos servidores e devidamente encaminhados às caixas postais de destino.
Estado físico de servidores, storages, switches e roteadores: todos estão fisicamente íntegros.
Links de acesso: toda a capacidade contratada com as operadoras está disponível.
Gerador de reserva: sendo providenciado na manhã do dia 16/10.
Sistema de nobreak: baterias em carregamento desde a última queda. O prazo para estarem completamente recarregadas e baixa tensão é de 12 horas. ---- * ----
Aprendizados: desde 2014, estamos distribuindo servidores e serviços entre Curitiba e São Paulo, onde já temos mais de 70% dos sites hospedados. A partir dos eventos ocorridos nas últimas horas, estamos acelerando este processo, visando finalizar ainda em 2015, aumentando a distribuição geográfica para áreas mais confiáveis.
No nível tecnológico, a KingHost já trabalha com o que há de mais confiável no mercado: Storages DELL com raid nível 50, espelhamento de servidores de e-mail, backup cumulativo diário de 7 dias e até 15 dias em bancos de dados, distintos fornecedores de acesso, time próprio de manutenção predial e de datacenter (apesar disso, ainda não é de nossa responsabilidade a manutenção do sistema de energia nos datacenters que utilizamos)
Penso que os eventos das últimas horas merecem nossa total atenção para as mudanças climáticas que temos no planeta e esse é o nosso guia para buscar novas localidades cada vez mais blindadas contra eventos naturais.
A KingHost, como prestador de serviço de webhosting gerenciado, passa a partir destes eventos, a aumentar a descentralização dos sites, visando oferecer um maior nível de resiliência aos clientes que confiam no nosso trabalho de qualidade e no bom atendimento que sempre tiveram.
Esclarecimentos sobre as principais dúvidas relacionadas ao evento de 15 e 16/10/2015
Para saber mais acesse: https://www.facebook.com/notes/kinghost/esclarecimentos-sobre-as-principais-d%C3%BAvidas-relacionadas-ao-evento-de-15-e-16102/10156224106080232
Juliano Primavesi CEO KingHost
Matéria sugerida por Frederico Mendes - Programador Ecos
Informações publicadas em: https://www.facebook.com/KingHost.Brasil/posts/10156223983175232