Форум. ООО «ИНТЕРСИСТ-Сервис».

Уважаемые дамы и господа! Для вас сохранен старый форум по адресу http://forum.intersyst.ru

Мониторинг температуры

User

Сообщений: 189 Баллов: 151 Регистрация: 12.05.2011

17.08.2015 21:31:27

Здравствуйте!

Сегодня в журнале инцидентов одной из станций обнаружил сообщения о превышении температуры CPU и HDD на обеих платах. Выяснилось, что повышение температуры было связано с отказом блока кондиционера.
Сразу возник вопрос, есть ли возможность проактивного мониторинга данной информации.
Проверил опрос станции по SNMP всей ветки .1.3.6.1 - к сожалению, ничего похожего на показания температуры не нашел. Следующая надежда - утилиты на самой станции, типа lm-sensors. Тоже ничего.

Подскажите пожалуйста:
1. Может быть есть ли какие-либо утилиты в составе ОС станции, позволяющие производить опрос сенсоров температуры?
2. Если изначально таковых утилит нет, нет ли опыта установки из rpm-пакетов указанного ПО? Насколько мне известно, ОС станции построена на базе Mandrake Linux. Утилита rpm в составе ОС имеется. Наверняка можно подобрать бинарный пакет того же lm-sensors, с помощью которого можно собирать много полезной информации.

Большое спасибо!

error User Сообщений: 1876 Баллов: 3000 Регистрация: 01.12.2009	#2 17.08.2015 23:39:38 как на счет hdd в опросник Изменено: error - 17.08.2015 23:40:17 Пути IP-пакета неисповедимы

etc Editor Сообщений: 1475 Баллов: 2359 Регистрация: 26.11.2009	#3 18.08.2015 07:23:05 Можно смотреть SMART жесткого диска. Там, обычно, температура есть.

Dmitry Ryzhakov

Editor

Сообщений: 1086 Баллов: 1736 Регистрация: 30.11.2009

18.08.2015 07:27:10

нет, ну поглумить голову конечно можно, однако, имхо, есть путь гораздо легче - ставьте в шкаф абсолютно стандартный комплект датчиков (температура, влажность), можно с автоматом включения вентиляторов при превышении порогов (это кстати гораздо полезнее - ну допустим сообщит вам процессор о перегреве - ваши действия: бежать, включать кондиционер?). Хотите - можете мониторить это по SNMP удаленно. Датчик температуры можно завести аж внутрь АСТ.

У Дарта Вейдера в столе всякого навалено: карты разные галактик и портрет Гагарина.

Vladimir Shushkov

User

Сообщений: 189 Баллов: 151 Регистрация: 12.05.2011

18.08.2015 11:31:04

SMART смотрел, но вроде не нашел показателей темературы. Проверю сегодня еще раз...

По поводу внешних датчиков, абсолютно согласен, уже давно начальству говорил о необходимости оборудования серверных такими датчиками. Но, к сожалению, у нас все упирается в организационно-финансовые моменты: "не по проекту", "нет денег по такой-то статье" и т.д. Так что приходится обходиться встроенными в оборудование датчиками.

А насчет hdd не совсем понял. Это что, утилита такая есть?

Изменено: Vladimir Shushkov - 18.08.2015 11:31:41

Vladimir Shushkov

User

Сообщений: 189 Баллов: 151 Регистрация: 12.05.2011

18.08.2015 21:19:54

Проверил вывод smartctl, ничего связанного с температурой не нашел:

Код

[root@xa000000 mtcl]# smartctl -a /dev/hda
Device: Hitachi HTE543212L9A300  Supports ATA Version 8
Drive supports S.M.A.R.T. and is enabled
Check S.M.A.R.T. Passed

General Smart Values: 
Off-line data collection status: (0x00) Offline data collection activity was
 X never started

Self-test execution status:      (   0) The previous self-test routine completed
 X without error or no self-test has ever 
 X been run

Total time to complete off-line 
data collection:                 ( 645) Seconds

Offline data collection 
Capabilities:                    (0x5b) SMART EXECUTE OFF-LINE IMMEDIATE
 X Automatic timer ON/OFF support
 X Suspend Offline Collection upon new
 X command
 X Offline surface scan supported
 X Self-test supported

Smart Capablilities:           (0x0003) Saves SMART data before entering 
 X power-saving mode
 X Supports SMART auto save timer

Error logging capability:        (0x01) Error logging supported

Short self-test routine 
recommended polling time:        (   2) Minutes

Extended self-test routine 
recommended polling time:        (  52) Minutes

Vendor Specific SMART Attributes with Thresholds:
Revision Number: 16
Attribute                    Flag     Value Worst Threshold Raw Value
(  1)Raw Read Error Rate     0x000b   100   100   062       000000000000
(  2)Throughput Performance  0x0005   100   100   040       000000000000
(  3)Spin Up Time            0x0007   100   100   033       000400000000
(  4)Start Stop Count        0x0012   100   100   000       000000000007
(  5)Reallocated Sector Ct   0x0033   100   100   005       000000000000
(  7)Seek Error Rate         0x000b   100   100   067       000000000000
(  8)Seek Time Preformance   0x0005   100   100   040       000000000000
(  9)Power On Hours          0x0012   006   006   000       00000000a19c
( 10)Spin Retry Count        0x0013   100   100   060       000000000000
( 12)Power Cycle Count       0x0032   100   100   000       000000000007
(191)Unknown Attribute       0x000a   085   085   000       00000076005d
(192)Unknown Attribute       0x0032   100   100   000       000000000007
(193)Unknown Attribute       0x0012   100   100   000       0000000006bf
(194)Unknown Attribute       0x0002   141   141   000       003200130027
(196)Reallocated Event Count 0x0032   100   100   000       000000000000
(197)Current Pending Sector  0x0022   100   100   000       000000000000
(198)Offline Uncorrectable   0x0008   100   100   000       000000000000
(199)UDMA CRC Error Count    0x000a   200   200   000       000000000000
(223)Unknown Attribute       0x000a   100   100   000       000000000000
SMART Error Log:
SMART Error Logging Version: 1
No Errors Logged

На одной из станций почему-то smartctl выдает ругань:

Код

[root@ru_20 mtcl]# smartctl -a /dev/hda
Device: Hitachi HTE541660J9AT00  Supports ATA Version 7
Drive supports S.M.A.R.T. and is enabled
Smart Values Read failed: Input/output error
Smartctl: Smart Values Read Failed
[root@ru_20 mtcl]#

Dmesg выдает

Код
hda: drive_cmd: status=0x51 { DriveReady SeekComplete Error } hda: drive_cmd: error=0x04 { DriveStatusError }

В инцидентах ничего об ошибках HDD нет. Является ли это звонком о том, что HDD умирает?

Спасибо!

etc

Editor

Сообщений: 1475 Баллов: 2359 Регистрация: 26.11.2009

19.08.2015 08:31:37

Температура - 194 параметр. Вроде 27 HEX = 39 градусов. Но у разных типов дисков - по-разному вычисляется.
Там, где не дает smart, сначала надо дать smartctl -e, а потом smartctl -a.
А ошибки DriveStatusError появляются и на совсем новых дисках, но большой ёмкости - от 160 и выше. Причем, зависит и от версии в станции. Отношения к здоровью диска напрямую не имеют, скорее, к взаимодействию драйвера в ОС и диска.

error

User

Сообщений: 1876 Баллов: 3000 Регистрация: 01.12.2009

19.08.2015 08:41:25

не думаю что параметр 194 измеряется в HEX

Цитата
Vladimir Shushkov пишет: 194)Unknown Attribute 0x0002 141 141 000 003200130027

0032 максимальная фиксация
0013 минимальное
0027 текущее

Цитата
Vladimir Shushkov пишет: журнале инцидентов одной из станций обнаружил сообщения о превышении температуры CPU и HDD на обеих платах

интересно на инциндент посмотреть

Пути IP-пакета неисповедимы

Dmitry Ryzhakov Editor Сообщений: 1086 Баллов: 1736 Регистрация: 30.11.2009	#9 19.08.2015 08:47:31 любопытно, когда вы перейдете к установке недостающих пакетов в линукс У Дарта Вейдера в столе всякого навалено: карты разные галактик и портрет Гагарина.

etc

Editor

Сообщений: 1475 Баллов: 2359 Регистрация: 26.11.2009

#10

19.08.2015 11:06:28

Цитата

error пишет:
не думаю что параметр 194 измеряется в HEX

Цитата
Vladimir Shushkov пишет: 194)Unknown Attribute 0x0002 141 141 000 003200130027

0032 максимальная фиксация

0013 минимальное

0027 текущее

интересно на инциндент посмотреть

Ну отчего же? Остальные значения в шестнадцатиричном виде, а это - нет?
32 = 50
13 = 19
27 = 39
Более реальные цифры.
Есть инцидент о понижении температуры:
12/03/13 13:41:08 000003M|---/--/-/---|=3:3076=Disk temperature 9 not allowed (min=10, max=55)

error User Сообщений: 1876 Баллов: 3000 Регистрация: 01.12.2009	#11 19.08.2015 21:09:48 Ни разу не видел чтобы параметр 194 был в формате "чуч"(hex) Пути IP-пакета неисповедимы

fedoseevka User Сообщений: 535 Баллов: 855 Регистрация: 01.12.2009	#12 19.08.2015 22:34:30 [URL=http://shop.nag.ru/catalog/00007.Avtomatizatsiya-i-monitoring/05629.ERD-Kontrollery/07975.SNR-ERD-23-termo-out#!prettyPhoto[catalog_item_image_list]дешево и сердито[/URL] Изменено: fedoseevka - 19.08.2015 22:35:06

etc

Editor

Сообщений: 1475 Баллов: 2359 Регистрация: 26.11.2009

#13

08.09.2015 07:23:00

Цитата
error пишет: Ни разу не видел чтобы параметр 194 был в формате "чуч"(hex)

Для неверящих:
(194)Unknown Attribute 0x0022 120 105 000 00000000001b
Device: WDC WD3200BEVE-00A0HT0 Supports ATA Version 8

error User Сообщений: 1876 Баллов: 3000 Регистрация: 01.12.2009	#14 08.09.2015 17:25:38 я рад за вас что нашли "чуч" в 194-ом у которого одно единственное значение вместо 3-х Пути IP-пакета неисповедимы

vad Editor Сообщений: 4686 Баллов: 7496 Регистрация: 27.11.2009	#15 09.09.2015 06:55:47 Вообще идея темы мне кажется не правильной. Средствами УПАТС наверное можно мониторить окружающую среду - но зачем? Это напоминает - если велогонщикам - дать еще по сумке - пусть письма из города в город возят, чего просто ездить. По теме мониторинга - зависит от ваших условий. В серверной - по идее не должны стоять бытовые кондиционеры. Профессиональные - должны обладать средствами мониторинга. Вопрос второй - кто и как должен увидеть о проблемах. Один из самых простых способов - берете термодатчик (ставятся например в шкафах, для принудительного включения вентиляции), устанавливаете температуру повыше обычной, на контакты включаете звонок/лампу. Как повысится температура - будет вам аларм. И способ понятный и сработает - даже если станция выключена.

Читают тему