Ошибки при загрузке журнала записи

Значительный инцидент Доступность платформы Журнал записи
2023-09-29 17:47 MSK · 5 минут

Хронология событий

Техническое описание ошибки и предпринятые действия

Резюме по инциденту

  • 17:40 МСК - запущен регулярный конвеер доставки функциональных изменений YCLIENTS.

  • 17:47 МСК - доставка функциональных изменений завершилась с ошибкой, автоматизированный мониторинг зафиксировал деградацию функций платформы YCLIENTS, объявлен инцидент с критичным приоритетом.

  • 17:48 МСК - дежурная группа реагирования подключилась к поиску причин, которые привели к ошибке.

  • 17:50 МСК - запущен сценарий аварийного возврата к предыдущей стабильной версии платформы YCLIENTS.

  • 17:52 МСК - аварийный возврат к предыдущей версии успешно выполнился, платформа YCLIENTS вернулась в штатный режим работы.

Что произошло

Ежедневно мы запускаем порядка 10 конвееров доставки изменений в платформе YCLIENTS, которые состоят из множества шагов, например: тестирование функциональных изменений, проверки безопасности, сборка клиентских (Front-End) и серверных (Back-End) компонентов платформы, последовательная доставка собранных артефактов на сервера YCLIENTS.

Наш конвеер поддерживает 3 режима доставки изменений:

  • Front-End — статический контент, например: изображения, логотипы, шрифты, HTML-страницы и компоненты браузерных JS-скриптов.

  • Back-End — функциональная логика платформы, предоставляющая API-интерфейс.

  • Mixed — смешанный режим для одновременной доставки артефактов Back-End и Front-End компонентов.

Как правило, ошибка в конвеере является крайне редким явлением, а в случае её возникновения происходит аварийная остановка конвеера и автоматизированный запуск возврата к предыдущей версии платформы YCLIENTS.

29 сентября в 17:47 в конвеере, запущенном в режиме Mixed, произошла непредвиденная ошибка, сценарий обработки которой не был учтён. Проверка состояния в конвеере, обнаружив ошибку, как и предполагалось, автоматически запустила обработчик, выполняющий возврат к предыдущей стабильной версии, однако, сценарий возврата выполнился только для Back-End части, при этом Front-End часть осталась на новой версии, из-за чего версии компонентов оказались в несогласованном состоянии.

В результате несогласованного состояния версий Back-End и Front-End компонентов платформы, пользователи YCLIENTS столкнулись с некорректной работой некоторых функций.

В 17:48 наша система мониторинга зафиксировала инцидент и оповестила дежурную группу реагирования, которая выполнила аварийный возврат к предыдущей стабильной версии для всех компонентов платформы. В 17:52, по завершению аварийного восстановления, работа платформы YCLIENTS стабилизировалась.

Что планируется сделать, чтобы инцидент не повторился в будущем

  • Исправить и протестировать в безопасной среде сценарий автоматического аварийного возврата к стабильной версии в Mixed режиме конвеера доставки изменений.

  • Провести дополнительное исследование возможных сценариев сбоя конвеера доставки изменений, по результатам которого исправить и протестировать их в безопасной среде.

октября 2, 2023 · 10:54 MSK
Мониторинг проблемы

В 17:52 работа журнала записи была восстановлена. Дежурная команда инженеров продолжает наблюдение за состоянием платформы.
Мы опубликуем детали произошедшего позднее.

сентября 29, 2023 · 17:53 MSK
Обнаружение проблемы

В 17:47 мы обнаружили рост ошибок при загрузке журнала записи. Наша дежурная команда уже занимается поиском решения.

сентября 29, 2023 · 17:49 MSK

← Назад