Поскольку мы говорим об Azure Front Door (AFD), стоит упомянуть сбой, который произошёл 29 октября.
Для тех, кто не знаком с AFD: это глобальный балансировщик нагрузки уровня 7 (Layer 7). Он имеет множество точек присутствия (PoPs) по всему миру.
Как это работает:
Клиент подключается к ближайшей точке присутствия.
Используется Split TCP, который завершает TLS-сессию локально для более быстрой реакции.
AFD получает контент из здорового (работающего) бэкенда.
Поддерживает кэширование и интеграцию с Web Application Firewall (WAF).
Эта служба широко используется как сервисами Microsoft (например, Office 365, Xbox, Entra), так и сторонними поставщиками.
Причина сбоя и решение
Сбой был вызван изменением конфигурации тенанта, которое случайно создало некорректное состояние конфигурации, из-за чего большое количество узлов стало «нездоровыми».
В результате снизилась пропускная способность обработки запросов. Исправление заключалось в откате к последней корректной конфигурации, что заняло несколько часов.
Microsoft уже выявила и устранила ошибку в программном обеспечении, которая позволяла обойти защитные проверки при развертывании некорректной конфигурации.
Что могут сделать клиенты
С архитектурной точки зрения — как можно самостоятельно минимизировать риски?
Azure Front Door — это глобальный балансировщик нагрузки, но в качестве резервного варианта можно рассмотреть Azure Traffic Manager.
Однако следует учитывать:
Traffic Manager основан на DNS;
Он не поддерживает WAF, кэширование или Split TCP;
Не работает с приватными конечными точками или непубличными сервисами.
Таким образом, хотя это не полноценная альтернатива, Traffic Manager может служить «аварийным решением» в чрезвычайных ситуациях.
Microsoft серьёзно инвестирует в предотвращение подобных инцидентов, поскольку они влияют не только на клиентов, но и на собственные сервисы компании — M365, Minecraft и другие.