Référence incident
TSR-3421
Service concerné
Notifications de paiement.
Impact client
Les notifications de paiement n’étaient plus envoyées aux marchands.
Synthèse de l’incident
Root cause
Un volume anormalement élevé de notifications en échec, associé à des tentatives automatiques de réémission vers une URL indisponible, a saturé la file de traitement des notifications. Cette saturation a par conséquent bloqué l'envoi des notifications.
Actions à entreprendre par Payplug
| Symptômes | Actions |
|---|---|
| Absence d’alerting spécifique sur une file de traitement des notifications. | Ajout d’alerting spécifique pour détecter et anticiper proactivement toute saturation de la file de traitement. |
| Absence de limite d’envoi de requête de paiement par marchand. | Mise en place d'un limite par marchand pour limiter les flux de notifications et prévenir toute saturation de la file de traitement. |
| Gestion des timeouts inadaptés. | Révision des seuils de timeout pour prévenir la saturation des files de traitement des notifications. |
| Retard dans la prise en charge de l’incident. | Révision de la procédure d’incident en heures non ouvrées et communication à certaines équipes. |
==============ENGLISH VERSION==============
Incident reference
TSR-3421
Payment services affected by the incident
Payment notifications.
Client impact
Payment notifications were no longer sent to merchants.
Incident Overview
Root cause
An abnormally high volume of failed notifications, combined with automatic retry attempts to an unavailable URL, saturated the notification processing queue. As a result, the saturation prevented payment notifications from being sent.
Actions to be taken by Payplug
| Symptoms | Actions |
|---|---|
| No specific alerting was in place for the notification processing queue. | Specific alerting has been introduced to detect and proactively anticipate any saturation of the processing queue. |
| No per-merchant limit was in place for payment request submissions. | A per-merchant limit has been implemented to control notification traffic and prevent saturation of the processing queue. |
| Inappropriate timeout settings. | A review of the timeout thresholds is underway to prevent saturation of the notification processing queues. |
| Delay in incident response. | The out-of-hours incident management procedure is currently being reviewed and will be communicated to the relevant teams. |