Отказоустойчивость (DRP/BCP)
Резервирование, бэкапы и планы восстановления
Отказоустойчивость (DRP/BCP)
Платформа классифицируется как Критичная Инфраструктура. Мы обеспечиваем доступность сервиса 99.9% и сохранность данных (RPO ≈ 0).
1. Процесс восстановления (Disaster Recovery Pipeline)
Алгоритм действий дежурной смены при возникновении критического инцидента (например, падение дата-центра).
Loading diagram...
2. Метрики RTO и RPO
- RPO (Recovery Point Objective) = 0 (потеря данных недопустима).
- Достигается за счет синхронной репликации БД (Sync Commit) и кворума в блокчейне (QBFT требует подтверждения от 2/3 узлов).
- RTO (Recovery Time Objective) = 4 часа.
- Максимальное время простоя при полной потере основного ЦОД.
3. Резервирование данных (Backups)
Стратегия 3-2-1
- 3 копии данных: Основная, Реплика, Холодный бэкап.
- 2 типа носителей: Быстрые SSD (для работы), Объектное хранилище S3 (для архива).
- 1 удаленная площадка: Бэкапы реплицируются в независимый регион.
Типы бэкапов
- PITR (Point-in-Time Recovery) для PostgreSQL: позволяет откатиться на любую секунду за последние 7 дней (через WAL-архивы).
- Besu Snapshots: Ежечасный снимок состояния блокчейна.
- Config Backup: Все конфигурации (Terraform, K8s manifests) хранятся в Git.
4. Business Continuity Plan (BCP)
Что делать, если "все сломалось", но работать надо?
Сценарий: Недоступен DLT (Реестр)
- Система переходит в режим Read-Only.
- Клиенты могут видеть балансы (из кэша Ledger-DB).
- Новые операции (выпуск, перевод) блокируются с ошибкой "Техническое обслуживание".
- Срочные погашения (по требованию регулятора) выполняются вручную через прямую выплату с банковского счета с последующим (отложенным) отражением в реестре.