Ошибки при загрузке журнала записи
Хронология событий
Резюме по инциденту
-
17:40 МСК - запущен регулярный конвеер доставки функциональных изменений YCLIENTS.
-
17:47 МСК - доставка функциональных изменений завершилась с ошибкой, автоматизированный мониторинг зафиксировал деградацию функций платформы YCLIENTS, объявлен инцидент с критичным приоритетом.
-
17:48 МСК - дежурная группа реагирования подключилась к поиску причин, которые привели к ошибке.
-
17:50 МСК - запущен сценарий аварийного возврата к предыдущей стабильной версии платформы YCLIENTS.
-
17:52 МСК - аварийный возврат к предыдущей версии успешно выполнился, платформа YCLIENTS вернулась в штатный режим работы.
Что произошло
Ежедневно мы запускаем порядка 10 конвееров доставки изменений в платформе YCLIENTS, которые состоят из множества шагов, например: тестирование функциональных изменений, проверки безопасности, сборка клиентских (Front-End) и серверных (Back-End) компонентов платформы, последовательная доставка собранных артефактов на сервера YCLIENTS.
Наш конвеер поддерживает 3 режима доставки изменений:
-
Front-End — статический контент, например: изображения, логотипы, шрифты, HTML-страницы и компоненты браузерных JS-скриптов.
-
Back-End — функциональная логика платформы, предоставляющая API-интерфейс.
-
Mixed — смешанный режим для одновременной доставки артефактов Back-End и Front-End компонентов.
Как правило, ошибка в конвеере является крайне редким явлением, а в случае её возникновения происходит аварийная остановка конвеера и автоматизированный запуск возврата к предыдущей версии платформы YCLIENTS.
29 сентября в 17:47 в конвеере, запущенном в режиме Mixed, произошла непредвиденная ошибка, сценарий обработки которой не был учтён. Проверка состояния в конвеере, обнаружив ошибку, как и предполагалось, автоматически запустила обработчик, выполняющий возврат к предыдущей стабильной версии, однако, сценарий возврата выполнился только для Back-End части, при этом Front-End часть осталась на новой версии, из-за чего версии компонентов оказались в несогласованном состоянии.
В результате несогласованного состояния версий Back-End и Front-End компонентов платформы, пользователи YCLIENTS столкнулись с некорректной работой некоторых функций.
В 17:48 наша система мониторинга зафиксировала инцидент и оповестила дежурную группу реагирования, которая выполнила аварийный возврат к предыдущей стабильной версии для всех компонентов платформы. В 17:52, по завершению аварийного восстановления, работа платформы YCLIENTS стабилизировалась.
Что планируется сделать, чтобы инцидент не повторился в будущем
-
Исправить и протестировать в безопасной среде сценарий автоматического аварийного возврата к стабильной версии в Mixed режиме конвеера доставки изменений.
-
Провести дополнительное исследование возможных сценариев сбоя конвеера доставки изменений, по результатам которого исправить и протестировать их в безопасной среде.
В 17:52 работа журнала записи была восстановлена. Дежурная команда инженеров продолжает наблюдение за состоянием платформы.
Мы опубликуем детали произошедшего позднее.
В 17:47 мы обнаружили рост ошибок при загрузке журнала записи. Наша дежурная команда уже занимается поиском решения.
← Назад