Skip to content

Le Pilotage : La Vraie Clé du Succès

Durée : 30min
Niveau : Fondamental
Objectif : Comprendre que la technologie n'est pas le problème, le pilotage l'est


Le Constat Brutal

Statistiques échecs projets SI (Standish Group 2023)

70% des projets SI échouent ou sont "challengés"

Définition échec :
❌ Budget dépassé > 20%
❌ Délais dépassés > 30%
❌ Fonctionnalités livrées < 80% prévues
❌ Projet abandonné

Répartition causes racines :
📊 40% Mauvais pilotage / gouvernance défaillante
📊 30% Mauvaise organisation / communication rompue
📊 20% Problèmes techniques purs
📊 10% Budget insuffisant dès le départ

Message fort

"La technologie n'est PAS le problème dans 80% des cas. Le pilotage et l'organisation le sont."

Exemples concrets :

Cas 1 : Refonte SI Banque (échec 12M€)
─────────────────────────────────────
Techno : Java Spring Boot (mature, éprouvée) ✅
Pilotage : Aucun dashboard, reporting PowerPoint mensuel ❌
Résultat : Projet arrêté Mois 19, 12M€ perdus

Cas 2 : E-commerce Startup (succès)
────────────────────────────────────
Techno : PHP Laravel (basique, pas sexy) ⚠️
Pilotage : Dashboards temps réel, sprints 2 sem, KPIs clairs ✅
Résultat : MVP 4 mois, rentable An 2

Conclusion : Pilotage > Technologie

Les 3 Niveaux de Pilotage

Vue d'ensemble

           ╱╲
          ╱  ╲         STRATÉGIQUE
         ╱COMEX╲       Pourquoi ? Valeur business ?
        ╱──────╲       Fréquence : Mensuel
       ╱        ╲      KPIs : ROI, VAN, Risques Top 3
      ╱          ╲
     ╱            ╲    TACTIQUE
    ╱ MANAGEMENT  ╲   Quoi ? Qui ? Quand ?
   ╱──────────────╲   Fréquence : Hebdomadaire
  ╱                ╲  KPIs : Vélocité, Budget, Qualité
 ╱                  ╲
╱   OPÉRATIONNEL    ╱ Comment ? Ça marche ?
────────────────────  Fréquence : Temps réel
    (ÉQUIPES)         KPIs : Perf, Errors, Saturation

Principe clé : Chaque niveau a ses propres KPIs, dashboards, fréquence


1. Pilotage Stratégique (Direction COMEX)

Objectif

Aligner SI avec stratégie business, décider continuation/arrêt projet

Audience

  • Primaire : COMEX (DG, DAF, DSI, Directeurs Métiers)
  • Secondaire : Conseil Administration (si projet > 5M€)

Fréquence

Mensuel : Comité Stratégique (1h, 1er lundi du mois)

Format

1 slide PowerPoint (règle Amazon : one-pager)


KPIs Stratégiques

IndicateurFormuleCibleAlerteSignification
ROI(Gains - Invest) / Invest> 50%< 20%Retour sur investissement
VANΣ flux actualisés> 0< 0Création de valeur
PaybackTemps récup. invest< 3 ans> 4 ansDélai rentabilité
Time to MarketIdée → Production< 3 mois> 6 moisAgilité business
Part de marchéCA / CA marchéTendance ↗️Tendance ↘️Compétitivité
Budget consomméDépensé / Prévu90-100%> 110%Maîtrise financière
Avancement réel% terminé (vérifié)≥ % planning< % planning -10%Tenue délais

Dashboard Stratégique (Exemple)

┌──────────────────────────────────────────────────────────┐
│  REFONTE SI E-COMMERCE - COMEX BRIEFING                  │
│  Mois 12/18 (67% planning)                               │
├──────────────────────────────────────────────────────────┤
│                                                          │
│  📊 BUDGET                                               │
│  ──────────────────────────────────────────────────────  │
│  Consommé :    1.8M€ / 2.0M€       [=========  ] 90%    │
│  Prévision :   1.95M€ (fin projet) ✅ Sous budget 2.5%  │
│  Contingence : 200K€ non utilisée                        │
│                                                          │
│  📅 PLANNING                                             │
│  ──────────────────────────────────────────────────────  │
│  Avancement :  Mois 12/18          [========  ] 67%     │
│  Statut :      ⚠️ -1 mois retard (migration données)    │
│  Mitigation :  +2 devs temporaires, scope réduit -5%    │
│  Livraison :   M17 (vs M18 initial) → Impact faible     │
│                                                          │
│  💰 ROI PRÉVISIONNEL                                     │
│  ──────────────────────────────────────────────────────  │
│  Investissement : 2.0M€                                  │
│  Gains/an :       950K€ (économies + CA additionnel)     │
│  VAN (5 ans) :    1.8M€              ✅ Création valeur  │
│  Payback :        2.5 ans            ✅ < 3 ans          │
│  ROI 5 ans :      90%                ✅ > 50%            │
│                                                          │
│  ⚠️ TOP 3 RISQUES                                       │
│  ──────────────────────────────────────────────────────  │
│  🔴 R1 : Turnover dev senior                             │
│         Probabilité : 70%  |  Impact : 500K€             │
│         Mitigation : Bonus rétention 50K€, recrutement   │
│                      candidat identifié, process en cours│
│                                                          │
│  🟠 R2 : Adoption utilisateurs faible                    │
│         Probabilité : 40%  |  Impact : 300K€             │
│         Mitigation : Formation renforcée (3j → 5j),      │
│                      ambassadeurs métier identifiés (×5) │
│                                                          │
│  🟡 R3 : Performance DB migration                        │
│         Probabilité : 30%  |  Impact : 200K€             │
│         Mitigation : Tests charge validés, plan B        │
│                      (rollback < 2h) documenté           │
│                                                          │
│  🎯 DÉCISION COMEX DEMANDÉE                              │
│  ──────────────────────────────────────────────────────  │
│  ✅ GO Phase 3 (Migration Production M13-15)             │
│  □  Validation budget contingence +100K€ (si R1 réalisé) │
│  □  Approbation communication clients (J-30 avant bascule│
│                                                          │
│  📈 IMPACT BUSINESS ATTENDU (Post Go-Live)               │
│  ──────────────────────────────────────────────────────  │
│  • Réduction coûts infra :  -280K€/an  (vs legacy)       │
│  • Gain productivité IT :   +150K€/an  (vélocité ×2)    │
│  • CA additionnel (scale) : +520K€/an  (capacité ×3)     │
│  ═══════════════════════════════════════════════════════ │
│  TOTAL GAINS ANNUELS :       +950K€/an                   │
│                                                          │
└──────────────────────────────────────────────────────────┘

Format Présentation COMEX

Slide unique (règle : tenir sur 1 page A4) :

markdown
# REFONTE SI E-COMMERCE - CHECKPOINT MOIS 12

## STATUS 🟡 ON TRACK (avec réserves)

│ Indicateur    │ Valeur        │ Statut │
│───────────────│───────────────│────────│
│ Budget        │ 90% consommé  │   ✅   │
│ Planning      │ -1 mois       │   ⚠️   │
│ ROI           │ VAN 1.8M€     │   ✅   │
│ Risques       │ 3 identifiés  │   🟠   │

## RÉALISATIONS CLÉS (3 derniers mois)

✅ Architecture validée (tests charge 10K req/s OK)
✅ Migration 60% données (3/5 modules live en staging)
✅ Formation 200 utilisateurs (satisfaction 85%)
✅ Performance P95 < 200ms (vs target 200ms) ✅

## RISQUES CRITIQUES

🔴 **R1 : Turnover dev senior** (P=70%, I=500K€)
    → Bonus rétention + recrutement en cours

🟠 **R2 : Adoption users** (pilote 72% vs target 80%)
    → Formation++ + ambassadeurs métier

## DÉCISION DEMANDÉE

**✅ GO Phase 3 (Prod Migration M13-15)**

Conditions :
• Budget contingence +100K€ (si R1)
• Communication clients J-30
• Fenêtre maintenance validée (Samedi 2h-8h)

Livraison finale : **M17** (vs M18 initial, -1 mois acceptable)

ROI confirmé : **VAN 1.8M€, Payback 2.5 ans**

Questions attendues COMEX

Q1 : "Le ROI est-il toujours valable ?"

Réponse :

Oui, VAN actualisée recalculée M12 : 1.8M€ (vs 1.5M€ initial)

Amélioration due à :
• Économies cloud meilleures que prévu (-320K€/an vs -280K€)
• CA additionnel revu à la hausse (+520K€/an vs +400K€)

Sensibilité testée :
• Scénario pessimiste (-30% gains) : VAN +600K€ (encore positif)
• Probabilité succès : 75% (vs 60% initial)

Conclusion : ROI sécurisé ✅

Q2 : "Peut-on accélérer le projet ?"

Réponse :

Non, accélération = risque qualité + coûts

Loi de Brooks : "Ajouter des gens retarde un projet"
• Actuellement : 8 devs, vélocité 45 pts/sprint
• Si +4 devs : ramp-up 3 mois, overhead communication
• Résultat : Pas de gain temps, surcoût +200K€

Alternative testée (refusée) :
• Réduire tests (-20% couverture) : Livraison -2 mois
• Mais bugs ×3 en prod : Coût incidents 400K€ An 1
• ROI détruit

Recommandation : Maintenir qualité, livrer M17 (acceptable)

Q3 : "Plan B si ça échoue ?"

Réponse :

3 niveaux de rollback :

Niveau 1 : Rollback technique (< 2h)
• Si bugs critiques Go-Live : Retour ancien SI
• Procédure testée 3× en staging (succès)
• Coût : 0€ (prévu)

Niveau 2 : Rollback partiel (< 1 semaine)
• Si adoption faible (-50%) : Garder modules OK
• Retour modules problématiques à l'ancien
• Coût : 50K€ (réversibilité)

Niveau 3 : Abandon complet (si catastrophe)
• Maintenir legacy 2 ans supplémentaires
• Coût : +500K€ maintenance legacy
• + Perte investissement 1.8M€ (sunk cost)
• TOTAL : 2.3M€ perdu

Mitigation niveau 3 :
• Go/No-Go à chaque phase (5 jalons)
• Critères objectifs (KPIs techniques + business)
• Décision arrêt rapide si dérive (pas attendre 18 mois)

Probabilité échec total : 5% (Risque maîtrisé)

2. Pilotage Tactique (Management)

Objectif

Orchestrer équipes et ressources, ajuster tactiques au quotidien

Audience

  • Primaire : Product Owners, Tech Leads, Scrum Masters, Manager SI
  • Secondaire : Sponsors métier, Architectes

Fréquence

Hebdomadaire : Comité Pilotage (2h, chaque lundi 14h-16h)

Format

Dashboard interactif (Jira, Confluence, Grafana)


KPIs Tactiques

IndicateurOutilCibleAlerteAction si écart
VélocitéJira50 pts/sprint< 40 ptsRétrospective, identifier blocages
Bugs ouvertsJira< 20> 50Sprint stabilisation
Dette techniqueSonarQube< 100K€> 150K€Refactoring sprint dédié
Couverture testsCoverage> 80%< 70%Pas de merge si < 80%
Capacité/ChargePlanningRatio 1.0> 1.2Recrutement ou réduction scope
Budget mensuelCompta± 5% prévu> 10%Analyse écarts, plan action
Satisfaction équipeRétroNPS > 60< 401-on-1, amélioration conditions

Dashboard Tactique (Exemple)

┌──────────────────────────────────────────────────────────┐
│  PILOTAGE TACTIQUE - SPRINT 24 (Sem 47, 2024)           │
│  Dernière màj : 18/11/2024 14:32                         │
├──────────────────────────────────────────────────────────┤
│                                                          │
│  📈 VÉLOCITÉ ÉQUIPES                                     │
│  ──────────────────────────────────────────────────────  │
│  Squad Sales :       22 pts  ✅ (target: 20)             │
│    Tendance :        ↗️ +2 pts vs sprint précédent       │
│    Burndown :        On track (reste 4 pts, J-3)         │
│                                                          │
│  Squad Inventory :   18 pts  ⚠️ (target: 20)             │
│    Tendance :        ↘️ -2 pts vs sprint précédent       │
│    Burndown :        Risque (reste 8 pts, J-3)           │
│    Blocage :         API legacy indisponible 2j          │
│                                                          │
│  Squad Shipping :    15 pts  ✅ (target: 15)             │
│    Tendance :        → Stable                            │
│                                                          │
│  Platform Team :     12 pts  ✅ (infra K8s déployée)     │
│                                                          │
│  ═══════════════════════════════════════════════════════ │
│  TOTAL :             67 pts (target: 70)  [======  ] 96% │
│                                                          │
│  🐛 QUALITÉ                                              │
│  ──────────────────────────────────────────────────────  │
│  Bugs P0 (critiques) :   2  🔴                           │
│    • [BUG-421] Paiement échoue Visa 3DS (Sales)          │
│    • [BUG-438] Stock négatif possible (Inventory)        │
│                                                          │
│  Bugs P1 (majeurs) :     5  🟠                           │
│    • [BUG-419] Sync stocks lente >30s (Inventory)        │
│    • [BUG-425] Email confirmation non envoyé (Sales)     │
│    • ... (3 autres)                                      │
│                                                          │
│  Bugs P2 (mineurs) :     8  🟡                           │
│                                                          │
│  Total ouverts :        15 (vs 12 semaine dernière) ⚠️   │
│                                                          │
│  Dette technique :  92K€  ✅ (-8K€ vs mois dernier)      │
│    SonarQube :      Debt ratio 4.8% (target < 5%) ✅     │
│    Complexité :     Avg 8.2 (target < 10) ✅             │
│    Duplication :    2.1% (target < 3%) ✅                │
│                                                          │
│  Coverage tests :   78%   ⚠️ (target: 80%)               │
│    Squad Sales :    82% ✅                                │
│    Squad Inventory: 71% ❌ (cause retard couverture)     │
│    Squad Shipping:  81% ✅                                │
│                                                          │
│  🚧 BLOCAGES CRITIQUES                                   │
│  ──────────────────────────────────────────────────────  │
│  1. API legacy indisponible (Inventory)                  │
│     Impact :    Squad Inventory bloquée 2j               │
│     Solution :  Workaround déployé (mock API staging)    │
│     ETA résolu: Legacy fix prévu mercredi 20/11          │
│                                                          │
│  2. Environnement staging instable                       │
│     Impact :    Tests E2E fails 40% (flaky)              │
│     Solution :  Redéploiement complet planifié lundi     │
│     Owner :     Platform Team                            │
│                                                          │
│  3. 1 dev Inventory en congé maladie                     │
│     Impact :    Capacité -16% Squad Inventory            │
│     Solution :  Renfort 1 dev Sales temporaire (2j)      │
│     Retour :    Jeudi 21/11 confirmé                     │
│                                                          │
│  💰 BUDGET (Mois en cours)                               │
│  ──────────────────────────────────────────────────────  │
│  Prévu :        167K€                                    │
│  Consommé :     159K€  (95%) ✅                          │
│  Reste :        8K€                                      │
│  Tendance :     Sous budget 5% ce mois ✅                │
│                                                          │
│  Détail :                                                │
│  • Salaires :      140K€ (84% budget)                    │
│  • Cloud :         12K€  (7%)                            │
│  • Licences :      4K€   (2%)                            │
│  • Consultants :   3K€   (2%) - Non prévu (hotfix P0)    │
│                                                          │
│  🎯 ACTIONS PRIORITAIRES (Cette semaine)                 │
│  ──────────────────────────────────────────────────────  │
│  □  Hotfix BUG-421 paiement Visa (Squad Sales, ETA: J+1) │
│  □  Perf tuning sync Inventory (Squad Inv., ETA: J+2)    │
│  □  Tests coverage Squad Inventory > 80% (ETA: J+5)      │
│  □  Redéploiement staging (Platform Team, ETA: Lundi)    │
│  □  Renfort Squad Inventory (Manager, ETA: Immédiat)     │
│                                                          │
│  📅 PROCHAINES ÉCHÉANCES                                 │
│  ──────────────────────────────────────────────────────  │
│  • Sprint Review :      Vendredi 22/11 14h               │
│  • Rétrospective :      Vendredi 22/11 15h30             │
│  • Sprint Planning 25 : Lundi 25/11 9h                   │
│  • Demo COMEX :         Mardi 26/11 10h (Préparer slides)│
│                                                          │
└──────────────────────────────────────────────────────────┘

Rituels Pilotage Tactique

Daily Standup (15min, chaque matin 9h15)

Format (par personne, 2min max) :

1. Hier : Qu'ai-je fait ?
2. Aujourd'hui : Que vais-je faire ?
3. Blocages : Ai-je besoin d'aide ?

Règles d'or :

  • ✅ Debout (évite rallonge discussions)
  • ✅ Time-boxed strict 15min (alarme)
  • ✅ Pas de résolution problème (parking lot pour après)
  • ✅ Scrum Master facilite (coupe si dérive)
  • ❌ Pas de laptop (focus, pas de distraction)

Sprint Planning (2h, début sprint)

Agenda :

1. Review backlog priorisé (PO présente) - 30min
2. Estimation stories (Planning Poker) - 45min
3. Commitment équipe (capacité vs charge) - 20min
4. Découpage tâches techniques - 20min
5. Sprint Goal énoncé - 5min

Sprint Review (1h, fin sprint)

Agenda :

1. Démo fonctionnalités terminées (live, pas slides) - 35min
2. Feedback PO + Stakeholders - 15min
3. Acceptance/Rejet stories - 5min
4. Calcul vélocité sprint - 5min

Rétrospective (1h, fin sprint)

Format : Start/Stop/Continue

Start (à commencer) :
• Pair programming sur code complexe
• Revue archi mensuelle

Stop (à arrêter) :
• Meetings sans agenda préparé
• Interruptions Slack pendant focus time

Continue (à poursuivre) :
• Code reviews systématiques
• Célébration wins (pizza vendredi)

Actions : 2-3 actions max, owner + deadline

3. Pilotage Opérationnel (Équipes Tech)

Objectif

Garantir qualité et performance au quotidien, réagir aux incidents

Audience

  • Primaire : Développeurs, DevOps, SRE, QA
  • Secondaire : Tech Leads

Fréquence

Temps réel : Dashboards permanents (écrans muraux + Slack alertes)

Format

Grafana / Datadog / New Relic (métriques live)


KPIs Opérationnels (4 Golden Signals - SRE Google)

SignalMétriqueCibleAlerteAction
LatencyP50/P95/P99P95 < 200ms> 500msInvestigation + Profiling
TrafficReq/s, RPS500 req/s nominal< 100 req/sCheck incident client
ErrorsError rate %< 0.5%> 1%War room si > 5%
SaturationCPU/RAM/DiskCPU < 70%> 85%Scale horizontal

Métriques additionnelles :

MétriqueCibleAlerteOutil
Uptime> 99.9%< 99.5%Pingdom
MTTR (Mean Time To Repair)< 30min> 2hPagerDuty
Deploy frequency> 10/jour< 1/jourCI/CD logs
Failed deploys< 5%> 10%CI/CD
Apdex score (satisfaction perf)> 0.9< 0.7APM

Dashboard Opérationnel (Exemple Grafana)

┌──────────────────────────────────────────────────────────┐
│  🔴 PRODUCTION MONITORING - TEMPS RÉEL                   │
│  Dernière mise à jour : il y a 5s                        │
├──────────────────────────────────────────────────────────┤
│                                                          │
│  📊 PERFORMANCE API (Dernières 5min)                     │
│  ──────────────────────────────────────────────────────  │
│                                                          │
│  P50 latency :   82ms    ✅ (< 100ms)                    │
│  ────────────────────────────────────────────────────── │
│  ██████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░   │
│                                                          │
│  P95 latency :   215ms   🟡 (target < 200ms)             │
│  ────────────────────────────────────────────────────── │
│  ███████████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░   │
│  Pic 10:35 : 487ms (enquête en cours)                    │
│                                                          │
│  P99 latency :   487ms   🟠 (target < 300ms)             │
│  ────────────────────────────────────────────────────── │
│  ████████████████████░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░   │
│  ⚠️ Alerte envoyée à SRE on-call                         │
│                                                          │
│  Throughput :    847 req/s  ✅                            │
│  ────────────────────────────────────────────────────── │
│  [Graphique ligne tendance 1h]                           │
│  Min: 720 req/s  |  Max: 920 req/s  |  Avg: 850 req/s    │
│                                                          │
│  🚨 SANTÉ SYSTÈME                                        │
│  ──────────────────────────────────────────────────────  │
│  Error rate :    0.3%    ✅ (< 0.5%)                     │
│  5xx errors :    2/min   ✅                               │
│  4xx errors :    18/min  (normal, validation forms)      │
│  Uptime (7j) :   99.97%  ✅ (> 99.9%)                    │
│                                                          │
│  Incidents :     0 en cours                              │
│  Dernier :       [INC-142] DB replica lag (Résolu 2h ago)│
│                                                          │
│  💻 INFRASTRUCTURE (3 instances)                         │
│  ──────────────────────────────────────────────────────  │
│  Instance 1 (web-prod-1a) :                              │
│    CPU :     58%    ✅  [████████████░░░░░░░░]            │
│    RAM :     71%    ✅  [██████████████░░░░░░]            │
│    Disk :    42%    ✅  [████████░░░░░░░░░░░░]            │
│    Network : 124Mbps ✅                                   │
│                                                          │
│  Instance 2 (web-prod-1b) :                              │
│    CPU :     62%    ✅  [████████████░░░░░░░░]            │
│    RAM :     68%    ✅  [█████████████░░░░░░░]            │
│    Disk :    42%    ✅  [████████░░░░░░░░░░░░]            │
│    Network : 118Mbps ✅                                   │
│                                                          │
│  Instance 3 (web-prod-1c) :                              │
│    CPU :     55%    ✅  [███████████░░░░░░░░░]            │
│    RAM :     73%    ✅  [██████████████░░░░░░]            │
│    Disk :    42%    ✅  [████████░░░░░░░░░░░░]            │
│    Network : 115Mbps ✅                                   │
│                                                          │
│  Load Balancer :                                         │
│    Healthy targets : 3/3  ✅                              │
│    Requests/target : 282 req/s (équilibré)               │
│                                                          │
│  🗄️ DATABASE (PostgreSQL)                                │
│  ──────────────────────────────────────────────────────  │
│  Master (db-prod-master) :                               │
│    Connections :     45/100   ✅  [██████░░░░]            │
│    Slow queries :    3        🟡 (> 1s, investigation)   │
│    Query time avg :  48ms     ✅                          │
│    Cache hit rate :  94%      ✅ (> 90%)                  │
│    Storage :         234GB/500GB ✅ (47%)                 │
│                                                          │
│  Replica 1 (db-prod-replica-1) :                         │
│    Replication lag : 120ms    ✅ (< 500ms)                │
│    Connections :     12/100   ✅                          │
│                                                          │
│  Replica 2 (db-prod-replica-2) :                         │
│    Replication lag : 95ms     ✅                          │
│    Connections :     8/100    ✅                          │
│                                                          │
│  🔍 TOP 5 REQUÊTES LENTES (Dernière heure)               │
│  ──────────────────────────────────────────────────────  │
│  1. SELECT * FROM orders WHERE customer_id=... 1.2s (×3) │
│  2. UPDATE inventory SET stock=... 890ms (×12)           │
│  3. SELECT COUNT(*) FROM products ... 780ms (×5)         │
│  4. JOIN orders+customers+products ... 650ms (×2)        │
│  5. SELECT * FROM logs WHERE ... 580ms (×8)              │
│                                                          │
│  💰 COÛTS CLOUD (Aujourd'hui)                            │
│  ──────────────────────────────────────────────────────  │
│  Compute (EC2) :       245€                              │
│  Database (RDS) :      89€                               │
│  Storage (S3) :        23€                               │
│  Network (LB+Transfer):34€                               │
│  ─────────────────────────────────────────────────────── │
│  TOTAL aujourd'hui :   391€  ✅ (budget: 400€/jour)      │
│                                                          │
│  Tendance mois :       11.7K€ (budget: 12K€/mois) ✅     │
│  Projection fin mois : 11.8K€ (-2% vs budget) ✅         │
│                                                          │
│  📈 BUSINESS METRICS (Temps réel)                        │
│  ──────────────────────────────────────────────────────  │
│  Commandes/heure :     47  (avg: 42) ✅ ↗️                │
│  CA/heure :            2 340€ (avg: 2 100€) ✅            │
│  Taux conversion :     3.2% (baseline: 3.0%) ✅           │
│  Panier moyen :        87€ (baseline: 85€) ✅             │
│                                                          │
└──────────────────────────────────────────────────────────┘

Alerting & On-Call

Système de pages (PagerDuty, Opsgenie)

Niveau 1 : Dev On-Call (rotation 24/7, 1 semaine)
  ↓ (si non résolu en 30min)
Niveau 2 : Tech Lead + SRE Senior
  ↓ (si non résolu en 1h)
Niveau 3 : CTO + Équipe complète (war room)

Classification incidents

NiveauDéfinitionSLA RéponseSLA RésolutionExemplesEscalation
P0 - CritiqueService DOWN complet15min4hSite inaccessible, data lossImmédiate
P1 - MajeurFonction critique KO30min8hPaiement impossible, commandes bloquées30min
P2 - ImportantDégradation notable2h24hLenteurs >3s, bug non bloquant2h
P3 - MineurImpact limité1 jour1 semaineBug cosmétique, typoPas d'escalation

War Room (Incident P0/P1)

Composition :

  • Incident Commander (décide, coordonne)
  • Tech Lead (diagnostique technique)
  • Communication (informe parties prenantes)
  • Scribe (documente timeline)

Procédure :

1. Déclaration incident (qui, quoi, quand, impact) - 2min
2. Constitution war room (5-10min)
3. Bridge audio/vidéo continu (Zoom/Teams)
4. Investigation parallèles (hypothèses multiples)
5. Communication status régulier (30min)
6. Résolution ou rollback
7. Post-mortem blameless (48h après)

Pyramide de Pilotage (Synthèse)

Communication inter-niveaux

BOTTOM-UP (Remontée d'information) :
─────────────────────────────────────
Équipes → Management → COMEX
Alerts → Risks → Strategic decisions

Exemple :
1. Ops : Latency P99 > 1s (alerte)
2. Tactique : Vélocité -20% (analyse cause = dette technique)
3. Stratégique : Décision investir 200K€ refactoring


TOP-DOWN (Cascade de décisions) :
──────────────────────────────────
COMEX → Management → Équipes
Strategy → Priorities → Tasks

Exemple :
1. Stratégique : Pivotfocus B2B (NPS B2C faible)
2. Tactique : Prioriser features B2B backlog
3. Opérationnel : Sprint 25 = 80% stories B2B

Règles d'Or du Pilotage

1. Mesurer Avant d'Agir

"You can't improve what you don't measure." - Peter Drucker

Process décisionnel :
1. Définir baseline (état actuel mesuré)
2. Fixer target (objectif chiffré SMART)
3. Mesurer en continu (automatique)
4. Ajuster si écart (plan d'action)

❌ MAUVAIS :
"La performance n'est pas bonne"

✅ BON :
"P95 latency = 800ms (baseline)
 Target : P95 < 200ms
 Action : Profiling + Caching
 Deadline : 2 semaines
 Mesure : Grafana dashboard temps réel"

2. Boucles de Feedback Courtes

Feedback rapide >> lent

✅ BIEN :
Code → Tests (2min) → CI (5min) → Deploy staging (10min) → Monitoring
Total : 17min feedback

Développeur sait en 17min si son code est OK
→ Correction immédiate si problème
→ Contexte frais en mémoire

❌ MAL :
Code → Dev (1 sem) → Tests manuels (2j) → Staging (1 sem) → Prod
Total : 2.5 semaines feedback

→ Contexte perdu
→ Fix difficile et long

Règle : Feedback < 1 jour pour décisions tactiques

3. Indicateurs Alignés par Niveau

COMEX ne regarde PAS les mêmes KPIs que les devs !

COMEX (Business outcomes) :
• ROI, VAN, Market share
• Time to market
• Customer satisfaction (NPS)

Management (Team performance) :
• Vélocité, Capacité
• Qualité, Dette technique
• Budget consommé

Équipes (Tech metrics) :
• Latency, Throughput
• Error rate, Uptime
• CPU, RAM, Disk

4. Transparence Totale

Dashboards accessibles à TOUS

✅ Culture transparence :
• Métriques publiques (toute l'entreprise via Grafana public)
• Pas de masquage problèmes ("ça va" ≠ réalité)
• Blameless post-mortems (focus système, pas personne)
• Vulnérabilité assumée (dire "je ne sais pas")

❌ Culture opaque :
• Métriques cachées (Excel privé)
• Problèmes minimisés ("c'est sous contrôle")
• Blame culture (chercher coupable)
• Storytelling positif biaisé

Exemple Amazon : "Disagree and commit"
→ Transparence discussions (débat ouvert)
→ Commitment après décision (exécution alignée)

5. Action sur Écarts (PDCA)

Plan-Do-Check-Act (Deming) :

1. PLAN : Objectif (ex: Vélocité 50 pts/sprint)
2. DO : Exécution sprint
3. CHECK : Mesure (vélocité réelle 40 pts) ❌ Écart -20%
4. ACT : Action corrective

Si écart :
• < 10% : Monitorer (variance normale)
• 10-20% : Analyser (rétrospective approfondie)
• > 20% : Action immédiate (escalade, plan action)

Délai réaction :
• Opérationnel : < 1h (automatique si possible)
• Tactique : < 1 jour (daily standup)
• Stratégique : < 1 semaine (comité mensuel avancé si critique)

Cas d'Échec : Projet Sans Pilotage

Cas réel : Refonte SI Banque 2019

📅 CONTEXTE
──────────
Banque régionale, 500 employés
Refonte core banking legacy (COBOL 1985 → Java)
Budget initial : 5M€
Délai initial : 24 mois
Équipe : 15 devs + 3 ops

❌ ERREURS PILOTAGE

Mois 1-6 : Opacité totale
─────────────────────────
• Pas de dashboard stratégique
• Reporting mensuel PowerPoint "Tout va bien" 🟢
• Pas de KPIs mesurables objectifs
• Pas de revue architecture (code jamais audité)
• Budget consommé : 40% (vs 25% attendu) → Caché au COMEX

Mois 7-12 : Signaux ignorés
────────────────────────────
• Quelques alertes équipe (vélocité baisse, bugs ↑)
• Réponse management : "On va rattraper" (wishful thinking)
• Budget consommé : 60% (vs 50% planning) → "Super, en avance !"
• Réalité : 60% budget, 30% avancement réel (masqué)
• Tests inexistants (pas le temps)

Mois 13-18 : Descente aux enfers
─────────────────────────────────
• Problèmes techniques s'accumulent (architecture pourrie)
• Équipe épuisée (burnout, turnover 40%)
• Reporting toujours "🟡 Under control" (mensonge)
• Direction rassurée (faussement)
• Bugs : 200+ ouverts (non traités)

🔴 MOIS 19 : RÉVÉLATION

Audit externe déclenché (soupçons DG suite fuite interne)

Conclusions audit :
• Avancement réel : 25% (vs 80% annoncé !) ❌
• Budget consommé : 4.2M€ (vs 3.8M€ prévu)
• Reste à faire : 18 mois + 8M€ additionnels
• Architecture technique bancale (refonte de la refonte nécessaire)
• Code qualité désastreuse (dette 80% coût dev)
• Équipe démoralisée (6 démissions imminentes)

DÉCISION COMEX :
→ Arrêt projet immédiat ❌
→ Licenciement DSI + Chef Projet
→ Write-off 4.2M€ (perte sèche comptable)
→ Maintien legacy (+2.5M€ maintenance sur 5 ans)
→ Appel consultant externe (audit +100K€)

TOTAL PERDU : 6.8M€ + 19 mois + Réputation

📚 LEÇONS (Post-Mortem)

1. Transparence : Dashboards temps réel OBLIGATOIRES
   → Décision : Grafana public, métriques automatiques

2. KPIs objectifs : Pas estimations, mesures automatiques
   → Décision : SonarQube, Coverage, Jira burndown

3. Go/No-Go : Jalons avec critères stricts
   → Décision : 6 jalons avec KPIs, stop si 2 KPIs rouges

4. Escalation : Alertes automatiques si écart > seuil
   → Décision : PagerDuty sur budget/vélocité/qualité

5. Audit : Revues externes trimestrielles
   → Décision : Consultant Q1, Q2, Q3, Q4 (coût 40K€/an)

Avec pilotage correct :
→ Arrêt Mois 6 (2M€ perdus vs 6.8M€) ✅
→ Ou correction trajectoire → Succès

Synthèse : Mindset Manager SI

┌───────────────────────────────────────────────────────┐
│                                                       │
│  🎯 PILOTAGE = CLÉ SUCCÈS (Take-aways)                │
│                                                       │
│  1. TECHNOLOGIE ≠ PROBLÈME                            │
│     • 80% échecs = mauvais pilotage/organisation      │
│     • 20% échecs = technique pur                      │
│     → Focus #1 = Pilotage                             │
│                                                       │
│  2. 3 NIVEAUX DASHBOARDS                              │
│     • Stratégique (COMEX) : ROI, VAN, Risques Top 3  │
│     • Tactique (Management) : Vélocité, Qualité       │
│     • Opérationnel (Équipes) : Perf, Errors, Costs   │
│     → Chaque niveau ses KPIs propres                  │
│                                                       │
│  3. MESURER OBJECTIVEMENT                             │
│     • Pas d'estimation subjective ("ça va")           │
│     • Métriques automatiques (SonarQube, Jira, APM)   │
│     • Dashboards temps réel accessibles à tous        │
│     → Transparence totale = confiance                 │
│                                                       │
│  4. BOUCLES FEEDBACK COURTES                          │
│     • Opérationnel : < 1h (CI/CD, alertes auto)       │
│     • Tactique : < 1 jour (daily standup)             │
│     • Stratégique : < 1 semaine (comité mensuel)      │
│     → Plus rapide le feedback, moins cher la correction
│                                                       │
│  5. ACTION SUR ÉCARTS                                 │
│     • KPI rouge → Plan d'action < 48h                 │
│     • Escalation si besoin (ne pas cacher)            │
│     • PDCA : Plan, Do, Check, Act                     │
│     → Pas de pilotage passif                          │
│                                                       │
│  💡 CITATION CLÉ                                      │
│  "Le rôle du Manager SI n'est pas de choisir la       │
│   meilleure technologie, mais de créer les conditions │
│   pour que l'équipe livre de la valeur durablement."  │
│                                                       │
└───────────────────────────────────────────────────────┘

KPIs à Mémoriser (par niveau)

Stratégique (COMEX)

  • VAN > 0 (création valeur)
  • Payback < 3 ans
  • Budget ± 10%
  • Planning ± 10%

Tactique (Management)

  • Vélocité stable (± 20%)
  • Bugs < 20 ouverts
  • Dette < 5% ratio
  • Coverage > 80%

Opérationnel (Équipes)

  • P95 latency < 200ms
  • Error rate < 0.5%
  • Uptime > 99.9%
  • CPU < 70%

FIN PARTIE MINDSET

Prochaine section : Stratégie (Frameworks décision, Modèles économiques, Dette technique, etc.)