Применение итерационного подхода

⇐ ПредыдущаяСтр 4 из 7Следующая ⇒

Завершение работы над планом восстановления не означает, что вся работа закончена. Формализация и стандартизация процесса – первый шаг.

Необходимо следовать правилу регулярной проверки своего плана аварийного восстановления вместе с группой сотрудников, чтобы убедиться, что план не устарел.

Эту возможность нужно использовать для проверки нельзя ли улучшить этот план. При этом необходимо отработать все изменения, например, с тех пор как в последний раз план корректировался (какие серверы удаляются/ставятся, меняется ПО, работают ли еще люди в включенные в списки эскалации).

Основные принципы эксплуатации:

1. Не надо стремиться к крупным изменениям или улучшениям. Целью должны стать небольшие изменения, т.е. не следует исправлять или изменять все сразу. Вместо этого необходимо уделить основное внимание какой-то одной области или процедуре и постараться немного ее улучшить.

2. Непрерывность. Т.е. необходимо постоянно искать способы улучшений с практической реализацией этих улучшений. Поскольку каждое улучшение является небольшим и дополняющим можно легко реализовать его и перейти к следующему элементу/пункту.

Каждую аварию следует рассматривать как итеративный опыт обучения. Ликвидировав аварию необходимо оперативно собрать всех сотрудников на совещание, то бы выяснить, что выполнено и не выполнено по выработанному плану и необходимо собрать со специалистов предложения о том, что можно улучшить в процессе восстановления и далее затем необходимо внести изменения в план и выполнить их тестирования.

Привлечение сотрудников к этому процессу и их активное участие в поисках решения ситуации, повышает не только уровень реагирования на данный тип катастроф, но также повышает уровень реагирования/реакции в целом.

Подготовка к катастрофе.

Неудача подготовки – это подготовка неудачи.

Несмотря на то, что с современных ОС имеется целый ряд режимов и средств восстановления, необходимо подготовиться к потенциальным проблемам.

Создание отказоустойчивой системы

Отказоустойчивая система сможет продолжить работу даже при отказах ключевых компонентов. Этот подход очень полезен для серверов, на которых работают критически важные приложения.

Ниже в таблице приводятся некоторые способы обеспечения отказоустойчивости системы.

№ п/п	Способы обеспечения отказоустойчивости
1	Для операционной системы и хранения данных нужно применять одну или несколько RAID-матриц (или массивов). Это защитит систему от отказа жёстких дисков. При отказе какого-либо жёсткого диска в RAID-массиве требуется замена только этого диска и никакие данные не будут потеряны. Можно использовать Windows Server для реализации программных RAID-массивов.
2	Необходимо использовать источники бесперебойного питания, которые позволяют отключать сервер штатным образом при отказе электропитания
3	Необходимо использовать несколько сетевых адаптеров, чтобы обеспечить избыточность на случай отказа одного из сетевых адаптеров.
4	Необходимо резервирование, т.е. необходимо использовать в нескольких экземплярах всё, включая оборудование и ПО, что может отказать, включая источники питания.
5	Целесообразно использовать кластеры для обеспечения избыточности в случае отказа одного из серверов.

Эксплуатация аппаратной части сетей ЭВМ.

Планирование отказоустойчивости и предотвращение неисправностей.

Каждый системный администратор стремится получить уровень (коэффициент) готовности 99, 99999%. Но не каждый готов преодолевать сопутствующие огромные трудности. Создание систем с очень высоким уровнем готовности – это сложная работа и фактически это построение системы, которая может простаивать не более 5 минут в год, потому требует не только огромных усилий, но и сопровождается большими материальными затратами. Создание систем с высоким уровнем готовности и отказоустойчивости требует дисциплинированности, постоянной работы и материально-денежных затрат. Чем выше необходимый уровень готовности, тем больше объём работы и финансирования. Необходимо хорошо понимать потребности организации и реально оценивать доступные ресурсы. Чтобы принимать правильные решения об уровне готовности, которую нужно обеспечивать. Планируя реализацию системы с высоким уровнем готовности и отказоустойчивости – нужно учесть все точки возможных отказов и работы над их устранением, при этом, необходимо применять такие стратегии как использование резервных источников электропитания, двойных контроллеров дисков, несколько сетевых адаптеров (с применением множества адресации) и массивов дисков RAID. Независимо от стратегии эксплуатации оборудования важным аспектом планирования отказоустойчивости является наличие чётких хорошо продуманных методик процедур, позволяющих избегать отказов, а также дисциплины соблюдения этих методик и процедур.

⇐ Предыдущая 1 2 345 6 7 Следующая ⇒

Последнее изменение этой страницы: 2019-06-19; Просмотров: 135; Нарушение авторского права страницы