Rate this post

Поскольку мы говорим об Azure Front Door (AFD), стоит упомянуть сбой, который произошёл 29 октября.

Для тех, кто не знаком с AFD: это глобальный балансировщик нагрузки уровня 7 (Layer 7). Он имеет множество точек присутствия (PoPs) по всему миру.

Как это работает:

  • Клиент подключается к ближайшей точке присутствия.

  • Используется Split TCP, который завершает TLS-сессию локально для более быстрой реакции.

  • AFD получает контент из здорового (работающего) бэкенда.

  • Поддерживает кэширование и интеграцию с Web Application Firewall (WAF).

Эта служба широко используется как сервисами Microsoft (например, Office 365, Xbox, Entra), так и сторонними поставщиками.

Причина сбоя и решение

Сбой был вызван изменением конфигурации тенанта, которое случайно создало некорректное состояние конфигурации, из-за чего большое количество узлов стало «нездоровыми».

В результате снизилась пропускная способность обработки запросов. Исправление заключалось в откате к последней корректной конфигурации, что заняло несколько часов.

Microsoft уже выявила и устранила ошибку в программном обеспечении, которая позволяла обойти защитные проверки при развертывании некорректной конфигурации.

Что могут сделать клиенты

С архитектурной точки зрения — как можно самостоятельно минимизировать риски?

Azure Front Door — это глобальный балансировщик нагрузки, но в качестве резервного варианта можно рассмотреть Azure Traffic Manager.
Однако следует учитывать:

  • Traffic Manager основан на DNS;

  • Он не поддерживает WAF, кэширование или Split TCP;

  • Не работает с приватными конечными точками или непубличными сервисами.

Таким образом, хотя это не полноценная альтернатива, Traffic Manager может служить «аварийным решением» в чрезвычайных ситуациях.

Microsoft серьёзно инвестирует в предотвращение подобных инцидентов, поскольку они влияют не только на клиентов, но и на собственные сервисы компании — M365, Minecraft и другие.