Посмотрим как они это сделали???

1. Netflix использовал архитектуру службы без сохранения состояния. Это означает, что любой сервер может обслуживать любой запрос. Даже если один из узлов вышел из строя, можно легко запустить новый узел для обслуживания запросов.

2. Вместо того, чтобы зависеть от одной зоны и хранить данные только там, они хранили несколько копий в разных зонах. В случае неудачи можно попробовать любую новую зону для тех же данных.

3. Netflix использует технику плавной деградации, основанную на трех принципах: 1) Fail-fast-Aggressive timeouts, так что умирающие системы обнаруживаются раньше. является жестким кодированием для каждого сценария ошибки). 3) Если функция медленная и некритичная, она удаляется со страницы.

4. Netflix использует избыточность «n+1», что означает, что у них больше узлов, чем требуется для обслуживания трафика. Это помогает им обслуживать запросы и в часы пик.

5. Чтобы полностью использовать облако, они перестроили свою систему для использования новых технологий. Они активно использовали S3 в качестве источника данных. AWS S3 устойчив к сбоям в зонах и отличается высокой надежностью.

6. Даже после всего этого они по-прежнему сталкивались с некоторыми проблемами, такими как ручная передача трафика в другие зоны и обеспечение равномерного распределения трафика между другими зонами.

7. Нетфликс на этом не остановился. Они пытались сделать свою систему более устойчивой. Они создали службу под названием «Chaos Monkey», которая генерирует сбои и убивает другие службы. После этого они следят за тем, чтобы убитые сервисы могли восстанавливаться автоматически без ручного вмешательства.

8. Они автоматизировали распределение нагрузки в случае сбоя зоны, чтобы предотвратить ручное вмешательство.

Некоторые из этих вещей могут показаться очевидными сегодня, но это был 2011 год, и это, должно быть, было чрезвычайно сложно.

Их официальный блог: https://lnkd.in/e6drkRgx