Режим диагностики проверяет состояние оборудования сервера, автоматически вносит данные о нём в DCImanager, подготавливает сервер к новому использованию после его освобождения.

Обратите внимание!

Режим диагностики — единственный способ корректно добавить MAC-адрес сервера с двумя и более сетевыми картами в конфигурационный файл DHCP-сервера.

Подготовка сервера к диагностике


Для диагностики сервера:

  1. Укажите IP и MAC адреса сервера в DCImanager.
  2. Обеспечьте доступность сервера для диагностики с сервера, на котором установлен DCImanager.
  3. Настройте на сервере загрузку по сети.
  4. Настройте подключение сервера к распределителю питания либо к IPMI.
  5. Установите нужный шаблон диагностики в Настройки → Шаблоны ОС:
    1. Diag-x86_64 — если сервера загружаются по сети с помощью iPXE.
    2. Diag-x86_64-noipxe — если сервера загружаются по сети с помощью noiPXE.
  6. Укажите интерфейсы, на которых работает DHCP-сервер, в Настройки → Глобальные настройки → поле Интерфейсы.

Обратите внимание!

Жёсткие диски, подключённые к RAID-контроллеру, будут определены во время диагностики, только если они объединены в RAID.


Диагностика сервера


Ручной запуск

Нажмите Главное меню → СерверыОперации.

Укажите:

  • Тип операции — выберите "Провести диагностику";
  • Провести диагностику — шаблон диагностики;
  • Очистить диски — опция очистки жёстких дисков во время диагностики. Перезаписываются нулями первые 512 Байт жёсткого диска. Опция будет применена, только если шаблон диагностики её поддерживает;
  • Полная очистка — опция полной очистки жёстких дисков. Весь жёсткий диск перезаписывается нулями. Может занять несколько часов в зависимости от размера и скорости жёстких дисков. Опция доступна только при включении опции Очистить диски;
  • Уведомить об окончании — опция оповещения об окончании операции, если диагностика завершилась или была отменена пользователем.

Автоматический запуск

Диагностика запускается автоматически:

  • при поиске серверов. Подробнее см. в статье Поиск серверов;
  • при освобождении сервера, если включена опция Настройки → Глобальные настройки → Диагностика при освобождении. Также в Глобальные настройки см. опции автоматической диагностики: Очистить диски, Полная очистка, Шаблон диагностики. Подробнее см. в статье Глобальные настройки.

Принципы работы


Алгоритм диагностики сервера:

  1. Формируются значения параметров и макросов для шаблона диагностики. Подробнее см. в статье Макросы шаблонов ОС.
  2. В /usr/local/mgr5/var/operations/<идентификатор операции>.server_diag записываются данные об операции, включая сформированные макросы и параметры, данные для аутентификации и лог.
  3. Настраивается конфигурационный файл DHCP (по умолчанию /etc/dhcp/dhcpd.conf) в секции с MAC-адресом сервера. Для сервера разрешается загрузка по сети и настраиваются её опции.
  4. Сервер получает IP-адрес через DHCP.
  5. На сервер загружается шаблон диагностики.
  6. Запускается скрипт проверки сервера.
  7. На сервере устанавливается статус "Сервер имеет проблемы с оборудованием".
  8. Определяются:
    1. Модель процессора.
    2. Количество оперативной памяти.
    3. Наличие аппаратного RAID-контроллера.
    4. Наличие жёстких дисков (может работать некорректно, если на сервере аппаратный RAID-контроллер).
    5. Слоты жёстких дисков.
  9. Проверяется быстродействие:
    1. Скорость локального соединения.
    2. Скорость чтения и SMART-информация жёстких дисков.
  10. Если обнаружен IPMI, то он настраивается:
    1. Указываются сетевые настройки (IP-адрес, маска, шлюз).
    2. Добавляется пользователь и задаётся его пароль.
    3. Если включена опция Настройки → Глобальные настройки → Добавлять IPMI автоматически, то серверу добавляется подключение к IPMI.
  11. Полученные данные отправляются в DCImanager.
  12. Сервер выключается, если включена опция Настройки → Глобальные настройки → Отключать серверы после диагностики. Иначе сервер перезагружается в обычном режиме.
  13. DCImanager обрабатывает результаты диагностики:
    1. DCImanager проверяет соответствие платформы, указанной в DCImanager, и обнаруженного оборудования сервера:
      1. Количество процессоров должно быть больше нуля, но не больше, чем максимальное количество, указанное в типе платформы.
      2. Объём оперативной памяти должен быть больше нуля, но не больше, чем максимальный объём, указанный в типе платформы.
      3. Количество жёстких дисков должно быть больше нуля, но не больше, чем максимальное количество, указанное в типе платформы.
      4. При расхождениях DCImanager автоматически создаёт новую платформу и назначает её серверу.
    2. Из сервера в DCImanager извлекаются жёсткие диски. Если обнаружен аппаратный RAID-массив, то извлекаются только жёсткие диски, добавленные при предыдущей диагностике, а диски, указанные вручную, остаются. Как правило, если на сервере обнаружен аппаратный RAID-массив, то DCImanager не может получить корректную информацию по жёстким дискам.
    3. Для найденных жёстких дисков проверяются скорость чтения и параметры SMART. Параметры для проверки указываются в Типы оборудования → Жёсткие диски → Типы жёстких дисков.
    4. Проверяется скорость локального соединения.
    5. Если для процессора не указаны сокеты или масштабируемость в Типы оборудования → Процессоры, администратору будет предложено указать недостающие данные.
    6. Проверяется, нужно ли снять статус "Сервер имеет проблемы с оборудованием". Статус снимается, если выполняются все условия:
      1. Скорость локального соединения в пределах от <LocalSpeedThreshold*Скорость_Порта/100> до <Скорость_Порта>). LocalSpeedTreshold — параметр конфигурационного файла DCImanager (по умолчанию /usr/local/mgr5/etc/dcimgr.conf). Указывается в процентах. Если не указан, то используется значение "80%". Тогда, например, для 100Мб/с порта пороговое значение равно 80Мб/с. Скорость локального соединения в таком случае должна быть в диапазоне от 80 до 100 Мб/с.
      2. Отсутствует аппаратный RAID-массив.
      3. Параметры жёстких дисков (скорость чтения и SMART-показатели) в пределах нормы.

Для просмотра результатов последней диагностики сервера нажмите Главное меню → Серверы → Изменить и перейдите к блоку настроек Результаты диагностики.

Обратите внимание!

Если диагностика на сервере прерывается, то на нём остаётся статус "Сервер имеет проблемы с оборудованием".

Чтобы снять статус после диагностики нажмите Главное меню → Серверы → Изменить и укажите обязательные поля, которые не заполнены. Например, если в ходе диагностики тип платформы сервера не был определён, то при редактировании сервера в поле Тип платформы будет значение "без платформы" и предупреждение "Для сервера не выбран тип платформы".