Мониторинг и наблюдаемость
Как мы следим за здоровьем платформы
Мониторинг и наблюдаемость
Для обеспечения надежности финансовой платформы мы используем комплексный подход к мониторингу.
Стек технологий
- Prometheus: Сбор и хранение метрик.
- Grafana: Визуализация данных и дашборды.
- Loki: Централизованный сбор логов.
- Jaeger: Распределенная трассировка запросов (Distributed Tracing).
Ключевые метрики
1. Инфраструктурные
- Загрузка CPU/Memory по сервисам.
- Состояние Kafka (consumer lag, throughput).
- Статус узлов Besu (block height, peer count).
2. Бизнес-метрики
- Количество успешных выпусков ЦФА.
- Объем торгов в 24ч.
- Время обработки платежа (latency).
- Количество активных пользователей.
Логирование
Все логи микросервисов пишутся в формате JSON и включают:
trace_id/correlation_iduser_idservice_namelevel(INFO, WARN, ERROR)
Это позволяет быстро находить причину сбоя в распределенной системе.