Уважаемые дамы и господа! Для вас сохранен старый форум по адресу http://forum.intersyst.ru

Страницы: 1 2 След.
RSS
Мониторинг температуры
 
Здравствуйте!

Сегодня в журнале инцидентов одной из станций обнаружил сообщения о превышении температуры CPU и HDD на обеих платах. Выяснилось, что повышение температуры было связано с отказом блока кондиционера.
Сразу возник вопрос, есть ли возможность проактивного мониторинга данной информации.
Проверил опрос станции по SNMP всей ветки .1.3.6.1  - к сожалению, ничего похожего на показания температуры не нашел. Следующая надежда - утилиты на самой станции, типа lm-sensors. Тоже ничего.

Подскажите пожалуйста:
1. Может быть есть ли какие-либо утилиты в составе ОС станции, позволяющие производить опрос сенсоров температуры?
2. Если изначально таковых утилит нет, нет ли опыта установки из rpm-пакетов указанного ПО? Насколько мне известно, ОС станции построена на базе Mandrake Linux. Утилита rpm в составе ОС имеется. Наверняка можно подобрать бинарный пакет того же lm-sensors, с помощью которого можно собирать много полезной информации.

Большое спасибо!
 
как на счет hdd в опросник
Изменено: error - 17.08.2015 23:40:17
Пути IP-пакета неисповедимы
 
Можно смотреть SMART жесткого диска. Там, обычно, температура есть.
 
нет, ну поглумить голову конечно можно, однако, имхо, есть путь гораздо легче - ставьте в шкаф абсолютно стандартный комплект датчиков (температура, влажность), можно с автоматом включения вентиляторов при превышении порогов (это кстати гораздо полезнее - ну допустим сообщит вам процессор о перегреве - ваши действия: бежать, включать кондиционер?). Хотите - можете мониторить это по SNMP удаленно. Датчик температуры можно завести аж внутрь АСТ.
У Дарта Вейдера в столе всякого навалено: карты разные галактик и портрет Гагарина.
 
SMART смотрел, но вроде не нашел показателей темературы. Проверю сегодня еще раз...

По поводу внешних датчиков, абсолютно согласен, уже давно начальству говорил о необходимости оборудования серверных такими датчиками. Но, к сожалению, у нас все упирается в организационно-финансовые моменты: "не по проекту", "нет денег по такой-то статье" и т.д. Так что приходится обходиться встроенными в оборудование датчиками.

А насчет hdd не совсем понял. Это что, утилита такая есть?
Изменено: Vladimir Shushkov - 18.08.2015 11:31:41
 
Проверил вывод smartctl, ничего связанного с температурой не нашел:

Код
[root@xa000000 mtcl]# smartctl -a /dev/hda
Device: Hitachi HTE543212L9A300  Supports ATA Version 8
Drive supports S.M.A.R.T. and is enabled
Check S.M.A.R.T. Passed

General Smart Values: 
Off-line data collection status: (0x00) Offline data collection activity was
 X never started

Self-test execution status:      (   0) The previous self-test routine completed
 X without error or no self-test has ever 
 X been run

Total time to complete off-line 
data collection:                 ( 645) Seconds

Offline data collection 
Capabilities:                    (0x5b) SMART EXECUTE OFF-LINE IMMEDIATE
 X Automatic timer ON/OFF support
 X Suspend Offline Collection upon new
 X command
 X Offline surface scan supported
 X Self-test supported

Smart Capablilities:           (0x0003) Saves SMART data before entering 
 X power-saving mode
 X Supports SMART auto save timer

Error logging capability:        (0x01) Error logging supported

Short self-test routine 
recommended polling time:        (   2) Minutes

Extended self-test routine 
recommended polling time:        (  52) Minutes

Vendor Specific SMART Attributes with Thresholds:
Revision Number: 16
Attribute                    Flag     Value Worst Threshold Raw Value
(  1)Raw Read Error Rate     0x000b   100   100   062       000000000000
(  2)Throughput Performance  0x0005   100   100   040       000000000000
(  3)Spin Up Time            0x0007   100   100   033       000400000000
(  4)Start Stop Count        0x0012   100   100   000       000000000007
(  5)Reallocated Sector Ct   0x0033   100   100   005       000000000000
(  7)Seek Error Rate         0x000b   100   100   067       000000000000
(  8)Seek Time Preformance   0x0005   100   100   040       000000000000
(  9)Power On Hours          0x0012   006   006   000       00000000a19c
( 10)Spin Retry Count        0x0013   100   100   060       000000000000
( 12)Power Cycle Count       0x0032   100   100   000       000000000007
(191)Unknown Attribute       0x000a   085   085   000       00000076005d
(192)Unknown Attribute       0x0032   100   100   000       000000000007
(193)Unknown Attribute       0x0012   100   100   000       0000000006bf
(194)Unknown Attribute       0x0002   141   141   000       003200130027
(196)Reallocated Event Count 0x0032   100   100   000       000000000000
(197)Current Pending Sector  0x0022   100   100   000       000000000000
(198)Offline Uncorrectable   0x0008   100   100   000       000000000000
(199)UDMA CRC Error Count    0x000a   200   200   000       000000000000
(223)Unknown Attribute       0x000a   100   100   000       000000000000
SMART Error Log:
SMART Error Logging Version: 1
No Errors Logged


На одной из станций почему-то smartctl выдает ругань:
Код
[root@ru_20 mtcl]# smartctl -a /dev/hda
Device: Hitachi HTE541660J9AT00  Supports ATA Version 7
Drive supports S.M.A.R.T. and is enabled
Smart Values Read failed: Input/output error
Smartctl: Smart Values Read Failed
[root@ru_20 mtcl]# 

Dmesg выдает
Код
hda: drive_cmd: status=0x51 { DriveReady SeekComplete Error }
hda: drive_cmd: error=0x04 { DriveStatusError }

В инцидентах ничего об ошибках HDD нет. Является ли это звонком о том, что HDD умирает?

Спасибо!
 
Температура - 194 параметр. Вроде 27 HEX = 39 градусов. Но у разных типов дисков - по-разному вычисляется.
Там, где не дает smart, сначала надо дать smartctl -e, а потом smartctl -a.
А ошибки DriveStatusError появляются и на совсем новых дисках, но большой ёмкости - от 160 и выше. Причем, зависит и от версии в станции. Отношения к здоровью диска напрямую не имеют, скорее, к взаимодействию драйвера в ОС и диска.
 
не думаю что параметр 194 измеряется в HEX
Цитата
Vladimir Shushkov пишет:
194)Unknown Attribute       0x0002   141   141   000       003200130027
0032 максимальная фиксация
0013 минимальное
0027 текущее

Цитата
Vladimir Shushkov пишет:
журнале инцидентов одной из станций обнаружил сообщения о превышении температуры CPU и HDD на обеих платах
интересно на инциндент посмотреть
Пути IP-пакета неисповедимы
 
:) любопытно, когда вы перейдете к установке недостающих пакетов в линукс
У Дарта Вейдера в столе всякого навалено: карты разные галактик и портрет Гагарина.
 
Цитата
error пишет:
не думаю что параметр 194 измеряется в HEX

Цитата
Vladimir Shushkov пишет:

194)Unknown Attribute       0x0002   141   141   000       003200130027

0032 максимальная фиксация

0013 минимальное

0027 текущее

интересно на инциндент посмотреть
Ну отчего же? Остальные значения в шестнадцатиричном виде, а это - нет?
32 = 50
13 = 19
27 = 39
Более реальные цифры.
Есть инцидент о понижении температуры:
12/03/13 13:41:08 000003M|---/--/-/---|=3:3076=Disk temperature 9 not allowed (min=10, max=55)
 
Ни разу не видел чтобы параметр 194 был в формате "чуч"(hex)
Пути IP-пакета неисповедимы
 
[URL=http://shop.nag.ru/catalog/00007.Avtomatizatsiya-i-monitoring/05629.ERD-Kontrollery/07975.SNR-ERD-23-termo-out#!prettyPhoto[catalog_item_image_list]дешево и сердито[/URL]
Изменено: fedoseevka - 19.08.2015 22:35:06
 
Цитата
error пишет:
Ни разу не видел чтобы параметр 194 был в формате "чуч"(hex)
Для неверящих:
(194)Unknown Attribute       0x0022   120   105   000       00000000001b
Device: WDC WD3200BEVE-00A0HT0  Supports ATA Version 8
 
я рад за вас что нашли "чуч" в 194-ом у которого одно единственное значение вместо 3-х
Пути IP-пакета неисповедимы
 
Вообще идея темы мне кажется не правильной. Средствами УПАТС наверное можно мониторить окружающую среду - но зачем? Это напоминает - если велогонщикам - дать еще по сумке - пусть письма из города в город возят, чего просто ездить.
По теме мониторинга - зависит от ваших условий.
В серверной - по идее не должны стоять бытовые кондиционеры. Профессиональные - должны обладать средствами мониторинга.
Вопрос второй - кто и как должен увидеть о проблемах. Один из самых простых способов - берете термодатчик (ставятся например в шкафах, для принудительного включения вентиляции), устанавливаете температуру повыше обычной, на контакты включаете звонок/лампу. Как повысится температура - будет вам аларм. И способ понятный и сработает - даже если станция выключена.  :D
Страницы: 1 2 След.
Читают тему