Incident sur le traitement des paiements
Incident Report for Payplug
Postmortem

Service concerné

Paiement e-commerce (y compris moyens de paiement alternatifs).

Impact client

Dégradation progressive du service à partir de 10h45 jusqu'à 11h15 avant récupération progressive jusqu'à 11h42.

Synthèse de l’incident

10h45 : mise en production de fonctionnalités de monitoring et début de l’incident.

11h04 : détection de la dégradation du service paiement.

11h08 : ouverture de la cellule de crise technique.

11h13 : rollback pour enlever la fonctionnalité et reprise progressive du service.

11h42 : rollback terminé, reprise totale du service et fin de l’incident.

Root cause

Mise en production de fonctionnalités pour améliorer notre monitoring qui se sont avérées défaillantes. Les tests effectués n’avaient pas mis en évidence la défaillance des fonctionnalités.

Contexte

La mise en production d’une nouvelle fonctionnalité, tout comme le rollback pour l'enlever sont progressifs sur les différents serveurs, ce qui explique la dégradation et le retour progressifs du trafic.

Actions à entreprendre par Payplug

Symptôme Action
Tests qui n’ont pas mis en évidence la défaillance Investigation en cours sur la non détection en environnement de test. Actions à venir pour pallier le potentiel problème de manque de représentativité des tests.
Détection de l’incident perfectible (19 minutes après début de mise en production, en partie justifié par le déploiement progressif) Revue et rappel de formation des équipes sur le process de déploiement (notamment sur la partie monitoring post déploiement)
Rollback pour rétablir le service trop long Amélioration du process de rollback qui nécessite actuellement un redéploiement progressif sur tous les serveurs

==============VERSIONE ITALIANA==============

Servizio coinvolto

Pagamento e-commerce (compresi metodi alternativi di pagamento).

Impatto sul cliente

Dal 10:45 alle 11:15 si è verificato un degrado progressivo del servizio, seguito da un recupero graduale fino alle 11:42.

Sintesi dell'incidente

10:45: Introduzione in produzione di nuove funzionalità di monitoraggio, avvio dell'incidente.

11:04: Rilevamento del degrado nel servizio di pagamento.

11:08: Attivazione della cellula di crisi tecnica.

11:13: Rollback per eliminare le nuove funzionalità e ripristino graduale del servizio.

11:42: Completamento del rollback, ripristino del servizio, conclusione dell'incidente.

Causa principale

Introduzione di funzionalità difettose durante la messa in produzione, non rilevate durante i test.

Contesto

La messa in produzione e il rollback delle funzionalità sono progressivi su server diversi, spiegando il degrado e il recupero graduale del traffico.

Azioni da intraprendere

Symptôme Action
Test che non hanno individuato la falla Indagine sulla mancata rilevazione durante i test e azioni future per migliorare la rappresentatività dei test.
Rilevazione dell'incidente migliorabile Revisione e rinnovo della formazione dei team sul monitoraggio post-incidente.
Rollback troppo lungo Miglioramento del processo di rollback per ridurre il tempo necessario al ripristino.
Posted Mar 25, 2024 - 16:22 CET

Resolved
L'incident est entièrement résolu depuis 11h48.
Les paiements passent de nouveau normalement.
Nous continuons de monitorer activement la situation.
Nous vous présentons nos excuses pour la gêne occasionnée.


-----------
In Italiano:

L'incidente è completamente risolto dalle 11:48.
I pagamenti stanno di nuovo procedendo normalmente.
Continuiamo a monitorare attivamente la situazione.
Ci scusiamo per il disagio causato.
Posted Mar 21, 2024 - 11:51 CET
Update
We are continuing to work on a fix for this issue.
Posted Mar 21, 2024 - 11:38 CET
Identified
Bonjour,
Nous enregistrons actuellement un incident concernant le traitement des paiements.
Celui-ci a commencé à 10h45.
Le trafic est en train de revenir progressivement à la normale.

-----------
In italiano:
Buongiorno,
Stiamo attualmente registrando un incidente relativo all'elaborazione dei pagamenti.
Questo è iniziato alle 10:45.
Il traffico sta progressivamente tornando alla normalità.
Posted Mar 21, 2024 - 11:30 CET
This incident affected: API de Paiement | Payment API.