alta disponibilidade infraestrutura

Alta disponibilidade infraestrutura TI: active-active vs active-passive para decisões que custam caro

Um guia de decisão prático sobre alta disponibilidade infraestrutura TI compara os modelos active-active e active-passive com métricas reais de SLA, custo de downtime e critérios de RTO e RPO para o contexto brasileiro.

Resumo

  • Active-active distribui carga entre todos os nós e entrega SLA de 99,999%, mas exige o dobro de recursos e sincronização constante.
  • Active-passive reserva um nó em espera e custa menos, porém o failover consome de 30 segundos a alguns minutos, o que impacta RTO.
  • A escolha entre os dois modelos define quanto a empresa paga por hora de indisponibilidade e se ela cumpre exigências do BACEN, da ANS e da LGPD.

Introdução

A alta disponibilidade infraestrutura TI deixou de ser diferencial e virou requisito de operação. Bancos, operadoras de saúde e varejistas brasileiros de grande porte já respondem a órgãos reguladores por cada minuto fora do ar. A escolha entre active-active e active-passive não é técnica: é financeira e regulatória.

Por isso, o debate precisa sair do diagrama de rede e entrar na planilha do CFO. Por exemplo, uma hora de indisponibilidade em e-commerce de médio porte no Brasil custa, em média, R$ 180 mil em vendas perdidas, segundo benchmarks de mercado de 2025. Em instituições financeiras, esse número passa de R$ 1 milhão por hora.

A Resolução BACEN 4.893/2021 e a Circular 3.909/2018 também exigem planos de continuidade com RTO e RPO documentados. Escolher a arquitetura errada coloca a empresa em risco de multa e de embargo operacional.

O que separa os dois modelos de alta disponibilidade infraestrutura TI

No modelo active-active, todos os nós processam requisições ao mesmo tempo. Assim, o tráfego se divide entre eles. Se um nó falha, os demais absorvem a carga sem interrupção perceptível. Por isso, o RTO é próximo de zero.

No entanto, esse ganho tem preço. A sincronização de estado entre os nós exige latência baixa e banda dedicada. Por isso, qualquer inconsistência de dados entre os nós vira incidente.

No modelo active-passive, um nó principal processa tudo. No entanto, o nó secundário fica em espera e monitora o principal. Quando o principal falha, o secundário assume. Assim, o processo leva de 30 segundos a 5 minutos, dependendo da configuração e da tecnologia usada.

Por isso, o active-passive é mais simples de operar, mas o downtime durante o failover é real. Para sistemas que toleram essa janela, o modelo entrega proteção a custo menor.

SLA, RTO e RPO na alta disponibilidade infraestrutura TI: os números que definem a escolha

Um SLA de 99,9% permite até 8,7 horas de indisponibilidade por ano. Já 99,99% reduz essa folga para 52 minutos. Por fim, 99,999% deixa apenas 5 minutos. Por isso, cada dígito a mais exige arquitetura mais cara e mais complexa.

O active-passive bem configurado entrega 99,9% a 99,99% de disponibilidade. O active-active, com redundância geográfica, chega a 99,999%. A diferença parece pequena no papel, porém representa horas de indisponibilidade por ano em sistemas críticos.

RTO e RPO como critérios objetivos

O RTO define quanto tempo o sistema pode ficar fora do ar após uma falha. Da mesma forma, o RPO define quanto de dados a empresa aceita perder. Portanto, esses dois números devem guiar a arquitetura, não o contrário.

Para RTO menor que 15 segundos e RPO igual a zero, somente o active-active resolve. Para RTO de até 5 minutos e RPO de até 1 minuto, o active-passive com replicação síncrona é suficiente. Portanto, definir esses números antes de escolher a arquitetura evita retrabalho caro.

Veja como as duas arquiteturas se comparam nos critérios principais:

  • RTO active-active: próximo de zero, sem interrupção perceptível ao usuário.
  • RTO active-passive: de 30 segundos a 5 minutos, dependendo do mecanismo de failover.
  • RPO active-active: zero, com replicação síncrona entre os nós.
  • RPO active-passive: de zero a alguns minutos, conforme o intervalo de replicação.
  • Custo de hardware: active-active exige o dobro de capacidade ativa; active-passive usa o nó secundário só em emergência.

Alta disponibilidade infraestrutura TI e conformidade regulatória no Brasil

A regulação brasileira tornou a alta disponibilidade infraestrutura TI obrigatória em setores específicos. O BACEN, por exemplo, exige pela Resolução 4.893/2021 que instituições financeiras mantenham planos de continuidade com RTO e RPO formalizados e testados ao menos uma vez por ano.

Da mesma forma, a ANS cobra de operadoras de saúde a disponibilidade contínua de sistemas de autorização de procedimentos. Na prática, uma falha de 30 minutos em um sistema de autorização pode atrasar cirurgias e gerar responsabilidade civil.

A LGPD também pressiona indiretamente por alta disponibilidade. Sistemas de gestão de consentimento e de atendimento a titulares precisam estar acessíveis dentro dos prazos legais. Uma indisponibilidade prolongada pode configurar descumprimento de prazo e gerar notificação da ANPD.

Por isso, o CIO precisa documentar a arquitetura escolhida e conectá-la aos requisitos regulatórios do setor. A documentação protege a empresa em auditorias e fortalece o argumento de orçamento junto ao CFO.

Tecnologias de alta disponibilidade infraestrutura TI no mercado brasileiro

No ambiente on-premises, o Microsoft Failover Cluster é a escolha mais comum para active-passive em ambientes Windows Server. Ele também suporta SQL Server, Exchange e aplicações críticas com failover automático. O custo de licença já está incluído no Windows Server Datacenter para a maioria das empresas.

Para active-active em ambientes virtualizados, o VMware vSphere com vSAN Stretched Cluster distribui carga entre dois sites físicos. O Nutanix oferece solução equivalente com gerenciamento unificado. Da mesma forma, ambos têm forte presença no Brasil e suporte local.

Em ambientes Linux, o Pacemaker com Corosync entrega cluster active-passive sem custo de licença. O Proxmox VE com cluster de alta disponibilidade é alternativa crescente em médias empresas brasileiras que buscam reduzir TCO.

Alta disponibilidade em cloud híbrida

Empresas brasileiras combinam, cada vez mais, on-premises com nuvem pública. Nesse cenário, a alta disponibilidade infraestrutura TI precisa atravessar os dois ambientes. O Azure garante disponibilidade de infraestrutura com SLA de 99,99% para VMs em zonas de disponibilidade distintas.

No entanto, a latência entre on-premises e nuvem pública limita o uso de replicação síncrona. Para RPO zero em ambiente híbrido, a empresa precisa de link dedicado com latência abaixo de 5 ms. Acima disso, a replicação assíncrona é o caminho, e o RPO passa a ser medido em segundos ou minutos.

Portanto, o modelo híbrido geralmente combina active-active dentro de cada ambiente e active-passive entre on-premises e nuvem. Essa decisão precisa estar no desenho de arquitetura antes da contratação do link.

Para reforçar a proteção em ambientes multicloud, veja o guia sobre segurança multi-cloud sem ponto único de falha.

TCO e custo de downtime: a conta que justifica o orçamento

Active-active custa mais para construir. O hardware secundário fica ativo, não em espera. Por isso, o custo de licença dobra em algumas tecnologias e aumenta o consumo de energia em 40% a 60%. Por outro lado, o custo de downtime cai para próximo de zero.

Active-passive custa menos para construir. Ainda assim, o nó secundário consome recursos mínimos em espera. Entretanto, cada evento de failover tem custo operacional: equipe em alerta, testes de recuperação e eventual perda de transações em curso.

Assim, a conta do TCO precisa incluir três variáveis:

  • Custo de construção: hardware, licenças, configuração e testes iniciais.
  • Custo de operação: monitoramento, manutenção, treinamento e testes periódicos de failover.
  • Custo de falha: receita perdida por hora de indisponibilidade, multas regulatórias e impacto de imagem.

Para sistemas com receita acima de R$ 500 mil por hora, o active-active se paga em menos de um ano, mesmo com custo de construção 80% maior que o active-passive. Por outro lado, para sistemas com baixa criticidade financeira, o active-passive entrega proteção suficiente a custo menor.

A IBM define alta disponibilidade como a capacidade de um sistema permanecer operacional pelo tempo exigido pelo negócio. Ou seja, a definição coloca o negócio como ponto de partida, não a tecnologia.

Para ambientes SQL Server, o comparativo entre Always On Availability Groups e Failover Cluster Instance está detalhado no artigo sobre alta disponibilidade SQL Server para ambientes críticos.

Framework de decisão: como escolher a arquitetura certa

Antes de definir a arquitetura, o CIO precisa responder cinco perguntas objetivas. Assim, as respostas determinam o modelo sem ambiguidade.

  • Qual é o RTO máximo aceitável? Abaixo de 15 segundos exige active-active. Acima de 1 minuto, o active-passive é viável.
  • Qual é o RPO máximo aceitável? Zero exige replicação síncrona e, em geral, active-active. Acima de 30 segundos, o active-passive com replicação assíncrona resolve.
  • Qual é o custo por hora de downtime? Acima de R$ 300 mil por hora, o active-active se justifica financeiramente.
  • Há exigência regulatória documentada? BACEN, ANS e setores com auditoria externa exigem RTO e RPO formalizados.
  • A equipe tem capacidade de operar o modelo escolhido? Active-active exige mais maturidade operacional. Sem equipe treinada, o risco aumenta.

Igualmente importante é testar o failover em produção ao menos uma vez por trimestre. Cluster que nunca foi testado em condição real não garante alta disponibilidade. Sem teste, existe apenas a suposição de que o failover funciona.

Para a camada de armazenamento, o artigo sobre configurações RAID para arquitetos de infraestrutura complementa a decisão de arquitetura.

A Microsoft documenta o design para alta disponibilidade e recuperação de desastres com critérios objetivos que servem de referência para qualquer ambiente.

Erros comuns que comprometem a alta disponibilidade infraestrutura TI

O erro mais caro é confundir redundância com alta disponibilidade. Ter dois servidores não garante nada se o failover nunca foi testado. Em 2024, 43% dos incidentes graves em datacenters brasileiros ocorreram em ambientes com redundância declarada, mas sem failover validado, segundo levantamento de empresas de consultoria de infraestrutura.

Outro erro frequente é ignorar o ponto único de falha na camada de rede. Um cluster active-active com dois nós conectados pelo mesmo switch não é active-active de verdade. A redundância precisa cobrir todas as camadas: servidor, armazenamento, rede e energia.

Por fim, muitas empresas dimensionam o nó secundário com capacidade inferior ao principal. Já em um evento de failover real, o nó secundário precisa suportar 100% da carga. Se foi dimensionado para 60%, o failover gera degradação e pode provocar nova falha em cascata.

Para monitorar a saúde do ambiente e detectar falhas antes do incidente, o artigo sobre monitoramento de servidores Ubuntu em produção traz ferramentas e automação para ambientes críticos.

Conclusão

Assim, a decisão entre active-active e active-passive define o perfil de risco da operação. Não é escolha de arquiteto: é escolha de negócio, com impacto direto em receita, conformidade e reputação.

Active-active entrega SLA de 99,999% e RTO próximo de zero. Custa mais para construir e operar, mas elimina o custo de downtime em sistemas críticos. Por outro lado, o active-passive entrega proteção suficiente para a maioria dos sistemas, com custo de construção menor e operação mais simples.

Portanto, o caminho certo começa pelos números do negócio: RTO, RPO, custo por hora de indisponibilidade e obrigações regulatórias. Com essas variáveis na mão, a escolha da arquitetura se torna objetiva. Sem elas, qualquer decisão é aposta.

Certamente, a alta disponibilidade infraestrutura TI mais cara não é a que usa active-active. É a que falha sem aviso em um sistema crítico que nunca teve failover testado.

Perguntas frequentes

Qual é a diferença entre alta disponibilidade infraestrutura TI e recuperação de desastres?

Alta disponibilidade infraestrutura TI mantém o sistema operacional durante falhas locais, como queda de um servidor ou disco. No entanto, a recuperação de desastres cobre eventos maiores, como falha de um datacenter inteiro. Os dois conceitos se complementam, mas exigem arquiteturas e investimentos distintos. O RTO da alta disponibilidade é medido em segundos. Já a recuperação de desastres pode levar horas.

O modelo active-passive atende às exigências do BACEN para instituições financeiras?

Depende do RTO e do RPO definidos pela instituição em seu plano de continuidade. A Resolução BACEN 4.893/2021 não determina a arquitetura, mas exige que os objetivos de recuperação sejam documentados e testados. Se o active-passive entrega o RTO exigido pelo negócio e aprovado pelo regulador, ele é válido. Por isso, instituições com sistemas de pagamento em tempo real geralmente precisam de active-active para cumprir os SLAs internos.

Como a alta disponibilidade infraestrutura TI se aplica em ambientes cloud híbridos?

Em ambientes híbridos, a alta disponibilidade infraestrutura TI precisa cobrir tanto o ambiente on-premises quanto a nuvem pública. Assim, o modelo mais comum combina active-active dentro de cada ambiente e replicação assíncrona entre eles. A latência do link entre os ambientes define se a replicação pode ser síncrona. Abaixo de 5 ms, a replicação síncrona é viável. Acima disso, o RPO deixa de ser zero e precisa ser formalizado no plano de continuidade. A Microsoft documenta boas práticas de alta disponibilidade com VMs no Azure para cenários híbridos.

Qual é o custo típico de migrar de active-passive para active-active no Brasil?

A migração envolve três camadas de custo: hardware adicional para ativar o nó secundário, licenças de software que cobram por nó ativo e redesenho da camada de rede para eliminar pontos únicos de falha. Em ambientes de médio porte, esse investimento fica entre R$ 400 mil e R$ 1,2 milhão, dependendo da tecnologia base. O payback depende do custo por hora de downtime. Para sistemas com receita horária acima de R$ 500 mil, o retorno ocorre em menos de 12 meses.

Conheça o Autor

Descubra mais sobre No ticket, No Fix!

Assine agora mesmo para continuar lendo e ter acesso ao arquivo completo.

Continue reading