Introduction
La plateforme FirstBreath Vision s’appuie sur un stack de monitoring robuste et adapté à la production pour assurer haute disponibilité, performances et réaction rapide aux incidents.
Ce système fournit une observabilité complète du pipeline IA, des indicateurs matériels (températures GPU) à la logique métier (frames d’inférence par seconde).
Architecture du monitoring
Le stack de monitoring tourne à côté des services applicatifs (camera-manager, batch-inference) sur un réseau partagé.
Composants clés
| Composant | Rôle | Port |
|---|---|---|
| Grafana | Tableaux de bord et alerting. | 3000 |
| Prometheus | Récupère et stocke les métriques de tous les services. | 9090 |
| cAdvisor | Métriques d’usage des conteneurs Docker (RAM, CPU). | 8080 |
| Node Exporter | Métriques de l’OS hôte (disque, I/O réseau). | 9100 |
| DCGM Exporter | Exporter NVIDIA pour la télémétrie GPU. | 9400 |
Objectifs
- Fiabilité : Détecter immédiatement les plantages ou redémarrages de services.
- Réglage des perfs : Identifier les goulots d’étranglement (ex. inférence trop lente, Redis en retard).
- Santé matérielle : Éviter la surchauffe GPU ou les OOM (Out Of Memory).