Технология S.M.A.R.T

S.M.A.R.T. (Self-Monitoring Analysis and Reporting Technology) – это технология внутренней оценки состояния диска, и механизм предсказания возможного выхода из строя жесткого диска. S.M.A.R.T. производит наблюдение за основными параметрами накопителя. Эти параметры называются атрибутами.

Атрибуты S.M.A.R.T. – особые характеристики, которые используются при анализе состояния и запаса производительности накопителя. Каждый производитель имеет свой характерный набор атрибутов и может свободно вносить изменения в этот набор в соответствии со своими требованиями.

Одной из основных функций системы мониторинга является возможность самоконтроля состояния жесткого диска. Выполнение данной тестовой процедуры может быть осуществлено как самим накопителем, не занятым клиентским заданием, так и пользователем, осуществляющим проверку атрибутов S.M.A.R.T. посредством специализированного программного обеспечения. В любом случае, чтобы начать принудительный процесс проверки, следует подать интерфейсную команду Smart Execute Offline Immediate. По прошествии некоторого времени, требуемого для получения финального результата, накопитель сохраняет полученные данные в специализированных атрибутах и журналах. Результаты тестирования используются накопителем для сравнения с полученными ранее данными. Таким образом, можно наблюдать тенденцию изменения атрибутов, что позволит делать выводы о примерном выходе из строя жесткого диска в целом.

Каждый атрибут имеет свой уникальный идентификатор - ID. Он характеризует некоторую реальную величину, например количество изношенных секторов или общее время работы, на основании которой можно делать выводы о надежности конструкции в целом. Большинство жестких дисков, поддерживающих S.M.A.R.T., обычно имеют от 3 до 30 атрибутов.

Значения всех атрибутов надежности (value) обычно находятся в диапазоне от 1 до 253 включительно, но могут быть и в другом диапазоне. При производстве жесткого диска каждый атрибут получает максимальное значение. Постепенно, по мере износа накопителя, значения атрибутов надежности уменьшаются. Соответственно, высокое значение атрибутов говорит о низкой вероятности выхода жесткого диска из строя, и, наоборот, низкое значение атрибутов - о низкой его надежности и высокой вероятности скорого отказа.

Диапазон изменения атрибутов не стандартизирован. Каждый производитель вносит свою лепту в данную технологию. Так, например, для продуктов, произведенных компанией Hitachi Data Storage, максимальная величина каждого атрибута составляет 100 единиц. Для Samsung это число равно 253. Наибольшую путаницу внесли инженеры компании Western Digital, поскольку для своих продуктов они используют довольно странную методику измерений. Так, верхняя граница первого атрибута надежности составляет 200 единиц, а остальных - 100.

При работе накопителя ведутся журналы ошибок и значений атрибутов, в которых хранится информация о нескольких последних ошибках и худших значениях атрибутов с момента первого запуска жесткого диска.

Для каждого атрибута надежности разработчиками жестких дисков определяется пороговое значение, называемое Threshold, по достижении которого устройство можно считать небезопасным для хранения данных.

Помимо текущего значения, описывающего состояния атрибутов, имеются необработанные (raw) значения, которые несут определенный смысл для каждого атрибута. Например, необработанное значение атрибута Power-On Hours (Наработка в часах) является счетчиком единиц времени (часов, минут, секунд и т.п.), в течении которого жесткий диск находился в работающем состоянии.

Также каждый атрибут имеет флаги, указывающие на назначение атрибута; атрибут может иметь несколько флагов одновременно. Флаги атрибута:

Ø Жизненно-важный (LC) - атрибут, непосредственно описывающий надежность диска.

Ø Атрибут, отражающий производительность диска (PR).

Ø Атрибут, отражающий частоту появления ошибок (ER).

Ø Счетчик событий (EC) - означает, что атрибут используется как счетчик каких-либо событий.

Ø Самосохраняющийся атрибут (SP) - атрибут, значения которого автоматически сохраняются и восстанавливаются каждый раз, когда производятся тесты S.M.A.R.T.

Ø Коллекция реального времени (OC) - значения этого атрибута вычисляются во время проведения тестов реального времени.

Краткое описание основных атрибутов надежности S.M.A.R.T. приведено в табл. 7.1. Данная таблица включает не полный список всех атрибутов S.M.A.R.T., более полный список можно найти в рекомендуемой литературе.

Табл. 7.1 – Основные S.M.A.R.T. атрибуты накопителей

№№ Имя атрибута Описание
  Raw Read Error Rate уровень ошибок при чтении данных с диска, происхождение которых обусловлено аппаратной частью диска.
  Spin Up Time время раскрутки шпинделя диска из состояния покоя до рабочей скорости.
  Start/Stop Count полное число запусков/остановов шпинделя. У дисков некоторых производителей (Seagate, например) — счетчик включения режима энергосбережения. В поле raw value хранится общее количество запусков/остановок диска.
  Reallocated Sectors Count количество переназначенных секторов. Когда диск обнаруживает ошибку чтения/записи, он помечает сектор «переназначенным», и переносит данные в специально отведенную область. Чем меньше значение, тем хуже состояние поверхности дисков. Поле raw value содержит общее количество переназначенных секторов.
  Seek Error Rate частота ошибок при позиционировании блока головок. Чем их больше тем хуже состояние механики и/или поверхности жесткого диска.
  Power-On Hours число часов, проведённых во включённом состоянии. В качестве порогового значения для него выбирается паспортное время наработки на отказ.
  Spin-Up Retry Count число повторных попыток раскрутки дисков до рабочей скорости, в случае если первая попытка была неудачной. Ненулевое значение свидетельствует о проблемах в механической части накопителя.
  Device Power Cycle Count количество полных циклов включения-выключения диска.
194 (231) Temperature здесь хранятся показания встроенного термодатчика.
  Current Pending Sector Count число подозрительных или нестабильных секторов, являющихся кандидатами на замену. Они не были ещё определены как плохие, но считывание их отличается от чтения стабильного сектора. В случае успешного последующего прочтения сектора он исключается из числа кандидатов. В случае повторных ошибочных чтений накопитель пытается восстановить его и выполняет операцию переназначения.

Продолжение табл. 6.1

№№ Имя атрибута Описание
  Uncorrectable Sector Count число неисправимых ошибок при обращении к сектору. В случае увеличения числа ошибок велика вероятность критических дефектов поверхности и/или механики накопителя.
  UltraDMA CRC Error Count число ошибок, возникающих при передаче данных по внешнему интерфейсу.
  Write Error Rate / Multi-Zone Error Rate показывает общее количество ошибок, происходящих при записи сектора. Может служить показателем качества поверхности и механики накопителя.

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: