Форум. ООО «ИНТЕРСИСТ-Сервис».

Уважаемые дамы и господа! Для вас сохранен старый форум по адресу http://forum.intersyst.ru

Инциденты после установки патча, Инциденты 2686, 1603, 1607

User

Сообщений: 189 Баллов: 151 Регистрация: 12.05.2011

13.04.2014 12:55:02

Здравствуйте!

После обновления ПО на станции OXE (11-релиз) с 25 патча до 33 на станции стали появляться новые инциденты:
11/04/14 09:41:43 000003S|---/--/-/---|=0:1603=IO1 driver error, wrong telephone msg received, line 1533, position (0,28,131)
11/04/14 09:41:43 000003S|---/--/-/---|=3:1607=01.15.3b.00.0f.0f.00.1c.08.83.54.01.5a.db.ce
11/04/14 09:41:43 000003S|---/--/-/---|=0:1603=IO1 driver error, wrong telephone msg received, line 6329, position (0,28,131)
11/04/14 09:41:43 000003S|---/--/-/---|=3:1607=01.15.3b.00.0f.0f.00.1c.08.83.54.01.5a.db.ce
По Incinfo не сильно что-то понял. Смущает также параметр 1603-го инцидента (0,28,131). Судя по описанию число 28 должно соответствовать номеру платы (cpl), но у нас 28-слотовый кабинет, и платы нумеруются с 0 до 27-го.

Кроме того до обновления патча периодически проскакивал инцидент
11/04/14 15:28:02 000003S|---/--/-/---|=2:2686=MAO err on stand-by CPU: err 4100 Ope ope 111 Obj TSC_IP Inst : 3 17783

Надеялся, что после установки обновления (выполнял с выравниванием баз путем клонирования database MAO без Linux) инциденты 2686 более не будут проявляться, но ошибся, установка патча и выравнивание не помогли.

Подскажите пожалуйста, что это за инциденты такие и как с ними бороться.

Спасибо!

etc

Editor

Сообщений: 1472 Баллов: 2354 Регистрация: 26.11.2009

14.04.2014 15:28:27

IO1 находится на процессоре и считается как виртуальная 28 плата.
Инцидент 2686, обычно, говорит, что базы данных на процессорах не выровнены. Как вы выполняли клонирование? Через swinst/ Expert/ Cloning & duplicate operations/ CPU cloning на процессоре стендбай с остановленной телефонией?

Андрей User Сообщений: 296 Баллов: 236 Регистрация: 13.03.2013	#3 14.04.2014 15:38:14 При старте телефонии инцидентов, связанных с PARA_MAO, нет ? Изменено: Андрей - 14.04.2014 15:38:27

Vladimir Shushkov

User

Сообщений: 189 Баллов: 151 Регистрация: 12.05.2011

14.04.2014 22:02:22

Клонирование выполнял так как Вы предположили:
через swinst/ Expert/ Cloning & duplicate operations/ CPU cloning на процессоре стендбай с остановленной телефонией, но только database как уже сказал выше.

Инцидентов PARA_MAO не видел. Вот инциденты возникшие после загрузки стендбая:

Код

10/04/14 19:26:14
10/04/14 19:26:32 000003I|---/--/-/---|=4:2199=A4400 Version : R11.0-k1.400-33-ru-c7s2
10/04/14 19:26:32 000003I|---/--/-/---|=2:1006=DPNSS Prefix Missing, No DPNSS prefix added.
10/04/14 19:26:32 000003I|---/--/-/---|=2:4351=Incoherent dat a: appli INITREM table ADRFICT cause existeCrystalHybrid info 0 65 -1
10/04/14 19:26:32 000003I|---/--/-/---|=2:4351=Incoherent dat a: appli INITREM table ADRFICT cause existeCrystalHybrid info 0 42 -1
10/04/14 19:26:32 000003I|---/--/-/---|=2:4351=Incoherent dat a: appli INITREM table POSTE cause 1434 info -1 -1 -1
10/04/14 19:26:32 000003I|---/--/-/---|=2:2660=No more NEQT resource: appli INITREM info3 27
10/04/14 19:26:32 000003I|---/--/-/---|=2:4351=Incoherent dat a: appli INITREM table POSTE cause 1581 info -1 -1 -1
10/04/14 19:26:32 000003I|---/--/-/---|=2:2660=No more NEQT resource: appli INITREM info3 27
10/04/14 19:27:59 000003I|---/--/-/---|=4:0260=Beginning of downloading binloaderio1n
10/04/14 19:27:59 000003I|---/--/-/---|=5:0261=End of downloading binloaderio1n
10/04/14 19:28:41 000003I|000/28/-/---|=4:0260=Beginning of downloading tonesnv
10/04/14 19:28:41 000003I|000/28/-/---|=5:0261=End of downloading tonesnv
10/04/14 19:28:48 000003S|---/--/-/---|=5:2009=Initialisation  CPU role STAND BY

vad Editor Сообщений: 4686 Баллов: 7496 Регистрация: 27.11.2009	#5 15.04.2014 08:52:43 дайте команду checkdb, у вас похоже проблемы с базой

Vladimir Shushkov

User

Сообщений: 189 Баллов: 151 Регистрация: 12.05.2011

15.04.2014 23:03:22

Действительно какие-то проблемы

Код

/...........ERROR 1006 : DPNSS Prefix Missing. No DPNSS prefix added.
.ERROR 4351 : DATA INCONSISTENCY, Table ADRFICT, function=existeCrystalHybridIPPhone Crystal=0 nulog=65
ERROR 4351 : DATA INCONSISTENCY, Table ADRFICT, function=existeCrystalHybridIPPhone Crystal=0 nulog=42
ERROR 4351 : DATA INCONSISTENCY, Table POSTE, station=1434 tab_eqt_fict
ERROR 2660 : NO MORE RESSOURCE AVAILABLE 0 0 27
ERROR 4351 : DATA INCONSISTENCY, Table POSTE, station=1581 tab_eqt_fict
ERROR 2660 : NO MORE RESSOURCE AVAILABLE 0 0 27
........................ ./

Проверил ради интереса на двух других станциях и выяснил что тоже какие-то неполадки есть

Код
/..............ERROR 4351 : DATA INCONSISTENCY, Table SETGPBX, station=1290 pbx_number=0 range_gpbx=1 ERROR 4351 : DATA INCONSISTENCY, Table SETGPBX, pbx_nbr=0 pbx=1 ..................... ./

Код

/................ERROR 4351 : DATA INCONSISTENCY, Table ENTITY, entity=0 invalid cdt
ERROR 4351 : DATA INCONSISTENCY, Table ENTITY, entity=4 invalid cdt
ERROR 4351 : DATA INCONSISTENCY, Table ENTITY, entity=9 invalid cdt
................... ./

Что делать?

error User Сообщений: 1876 Баллов: 3000 Регистрация: 01.12.2009	#7 16.04.2014 00:39:19 до кучи посмотрите нет чего интересного в smartctl (это на тот случай если был апгрейд до 11 без замены hdd) Пути IP-пакета неисповедимы

Vladimir Shushkov User Сообщений: 189 Баллов: 151 Регистрация: 12.05.2011	#8 16.04.2014 01:28:56 понял, буду завтра на работе - обязательно посмотрю. апгрейд действительно выполнялся, и как раз без замены hdd. а что, есть какие-то нюансы в этом плане?

Vladimir Shushkov

User

Сообщений: 189 Баллов: 151 Регистрация: 12.05.2011

17.04.2014 00:09:03

Посмотрел вывод smartctl.

На основной станции, которая подвержена проблеме синхронизации базы

Код

[root@xa000000 mtcl]# smartctl -a /dev/hda
Device: Hitachi HTE543212L9A300  Supports ATA Version 8
Drive supports S.M.A.R.T. and is enabled
Check S.M.A.R.T. Passed

General Smart Values:
Off-line data collection status: (0x00) Offline data collection activity was
 X never started

Self-test execution status:      (   0) The previous self-test routine completed
 X without error or no self-test has ever
 X been run

Total time to complete off-line
data collection:                 ( 645) Seconds

Offline data collection
Capabilities:                    (0x5b) SMART EXECUTE OFF-LINE IMMEDIATE
 X Automatic timer ON/OFF support
 X Suspend Offline Collection upon new
 X command
 X Offline surface scan supported
 X Self-test supported

Smart Capablilities:           (0x0003) Saves SMART data before entering
 X power-saving mode
 X Supports SMART auto save timer

Error logging capability:        (0x01) Error logging supported

Short self-test routine
recommended polling time:        (   2) Minutes

Extended self-test routine
recommended polling time:        (  52) Minutes

Vendor Specific SMART Attributes with Thresholds:
Revision Number: 16
Attribute                    Flag     Value Worst Threshold Raw Value
(  1)Raw Read Error Rate     0x000b   100   100   062       000000000000
(  2)Throughput Performance  0x0005   100   100   040       000000000000
(  3)Spin Up Time            0x0007   100   100   033       000400000000
(  4)Start Stop Count        0x0012   100   100   000       000000000007
(  5)Reallocated Sector Ct   0x0033   100   100   005       000000000000
(  7)Seek Error Rate         0x000b   100   100   067       000000000000
(  8)Seek Time Preformance   0x0005   100   100   040       000000000000
(  9)Power On Hours          0x0012   033   033   000       0000000073b5
( 10)Spin Retry Count        0x0013   100   100   060       000000000000
( 12)Power Cycle Count       0x0032   100   100   000       000000000007
(191)Unknown Attribute       0x000a   086   086   000       000000540055
(192)Unknown Attribute       0x0032   100   100   000       000000000007
(193)Unknown Attribute       0x0012   100   100   000       0000000004d7
(194)Unknown Attribute       0x0002   134   134   000       003200130029
(196)Reallocated Event Count 0x0032   100   100   000       000000000000
(197)Current Pending Sector  0x0022   100   100   000       000000000000
(198)Offline Uncorrectable   0x0008   100   100   000       000000000000
(199)UDMA CRC Error Count    0x000a   200   200   000       000000000000
(223)Unknown Attribute       0x000a   100   100   000       000000000000
SMART Error Log:
SMART Error Logging Version: 1
No Errors Logged
[root@xa000000 mtcl]# smartctl -l /dev/hda
SMART Error Log:
SMART Error Logging Version: 1
No Errors Logged

На двух других, что поменьше и вывод checkdb с которых я также прикладывал

Код

[root@gu_06 mtcl]# smartctl -a /dev/hda
Device: HTE541040G9AT00  Supports ATA Version 6
Drive supports S.M.A.R.T. and is enabled
Smart Values Read failed: Input/output error
Smartctl: Smart Values Read Failed
[root@gu_06 mtcl]# smartctl -l /dev/hda
Smart Values Read failed: Input/output error
Smartctl: Smart Values Read Failed
[root@gu_06 mtcl]#

[root@gufl_06 mtcl]# smartctl -a /dev/hda
Device: Hitachi HTE541660J9AT00  Supports ATA Version 7
Drive supports S.M.A.R.T. and is enabled
Smart Values Read failed: Input/output error
Smartctl: Smart Values Read Failed
[root@gufl_06 mtcl]# smartctl -l /dev/hda
Smart Values Read failed: Input/output error
Smartctl: Smart Values Read Failed

Я так понимаю с диском первой станции все нормально? А вот на остальных двух какие-то проблемы...
ПОлучается проблема с базой не связана с диском и причина в чем-то другом?

error User Сообщений: 1876 Баллов: 3000 Регистрация: 01.12.2009	#10 17.04.2014 10:01:03 надо включить сначала smartctl -e /dev/hda потом smartctl -a /dev/hda Пути IP-пакета неисповедимы

vad

Editor

Сообщений: 4686 Баллов: 7496 Регистрация: 27.11.2009

#11

17.04.2014 10:29:43

У вас - OPS файлы соответствуют станции - по количеству абонентов, транков и пр.?
Нумерация шелфов - в реальности и в OPS файлах - совпадают (в частности фиктивные - для межсетевых линков и IP аппаратов)?
Hunt group сетевые были (если удаляли сетевую группу, когда не работали линки - могут быть проблемы, исправляются аудитом по HG)?

Vladimir Shushkov

User

Сообщений: 189 Баллов: 151 Регистрация: 12.05.2011

#12

17.04.2014 12:07:04

Error:
Понял, спасибо! Включу.

Vad:
Станционное хозяйство принял as-is (как есть) от предыдущего админа, причем эти проблемы уже имели место быть. Честно говоря, пока еще не набрался достаточно опыта, поэтому некоторые рекомендации вызывают у меня затруднения.

Цитата
У вас - OPS файлы соответствуют станции - по количеству абонентов, транков и пр.? Нумерация шелфов - в реальности и в OPS файлах - совпадают (в частности фиктивные - для межсетевых линков и IP аппаратов)?

Как это можно узнать? Просмотреть текущее состояние лицензий и блокировок в spadmin на предмет превышения? Например, если будет указано 10/8?

Код
ERROR 2660 : NO MORE RESSOURCE AVAILABLE 0 0 27

Насколько я понял из параметров сообщения 27 скорее всего соответствует номеру платы. У нас это NDDI2, которые практически не используется. Может имеет смысл попробовать его отключить/удалить/пересоздать?

Про нумерацию шелфов не очень понял. Если можно, пожалуйста, расскажите в двух словах как это узнать. Насколько я понял речь идет об ошибке

Код
ERROR 4351 : DATA INCONSISTENCY, Table ADRFICT, function=existeCrystalHybridIPPhone Crystal=0 nulog=42

Можно ли "зацепиться" за параметр nulog=42, чтобы было понятно от чего плясать? Т.е. например, этот параметр указывает на номер шелфа, который имеет смысл проверить.

Код
ERROR 4351 : DATA INCONSISTENCY, Table POSTE, station=1581 tab_eqt_fict

Эта ошибка тоже связана с фиктивными линками или же просто что-то не то со списочным номером 1581? Если все-таки проблема с номером, может имеет смысл просто его пересоздать?

Аналогично с Entity:

Код

/................ERROR 4351 : DATA INCONSISTENCY, Table ENTITY, entity=0 invalid cdt 
ERROR 4351 : DATA INCONSISTENCY, Table ENTITY, entity=4 invalid cdt 
ERROR 4351 : DATA INCONSISTENCY, Table ENTITY, entity=9 invalid cdt 
................... ./

Насколько я помню, у нас Entity 4,9 не используются. Исчезнет ли проблема если их просто удалить? С Entity 0 наверное все сложнее. Не помню чтобы он у нас явно используется, но думается мне, что он нужен для каких-нибудь системных нужд и удалять его нельзя. Так ли это?

Код
ERROR 1006 : DPNSS Prefix Missing. No DPNSS prefix added

Часто видел в логах упоминание про DPNSS. Что это? Его настройка необходима?

Цитата
Hunt group сетевые были (если удаляли сетевую группу, когда не работали линки - могут быть проблемы, исправляются аудитом по HG)?

А без аудита можно (аудит еще в процессе освоения - не хочется по неопытности завалить станцию)? Т.е. путем простого удаления неиспользуемых HG? Опять же в ошибке фиксируется номер station=1290. Он как-то связан с номером HG?

Большое спасибо!

P.S. Коллеги, а что собой представляет эта самая база OXE? Это классическая реляционная БД? Что в ее основе: MySQL, Postgres? Есть ли способ взаимодействия с ней, например, в части SQL-запросов? И самое главное, описана ли где-то схема данной БД: таблицы, их назначения, связи, столбцы и т.д.? Может некоторые ошибки можно исправить путем простых UPDATE-ов?

vad

Editor

Сообщений: 4686 Баллов: 7496 Регистрация: 27.11.2009

#13

17.04.2014 12:42:47

Соответствие OPS файлов станции - самый простой способ - это посмотреть что написано в файле hardware.mao - это текстовый файл, в котором достаточно просто идентифицировать номера шелфов, места установки плат. Всегда лучше - когда реальное расположение оборудования совпадает с тем что написано в OPS файлах.
насчет ошибки ERROR 4351 : DATA INCONSISTENCY, Table ENTITY, entity=4 invalid cdt - забейте, это просто сообщение о том, что у вас в ентити не написано - куда отправить вызов, если его надо куда-то отправить (раздел Call distribution в Entity).
Префикс DPNSS - в сети настоятельно рекомендуется создать (Local feature - PCX address in DPNSS) - на всех станциях свой, например А0001, А0002 - используется для оптимизации ресурсов, может присутствовать при VPN overflow звонках.

vad Editor Сообщений: 4686 Баллов: 7496 Регистрация: 27.11.2009	#14 17.04.2014 12:44:37 С базами работать можно (через команду cuser), но вешь деликатная.

Vladimir Shushkov User Сообщений: 189 Баллов: 151 Регистрация: 12.05.2011	#15 18.04.2014 02:51:56 Проверил соответствие OPS-файлов реальному положению вещей с платами. В файле hardware.mao имеются данные о платах 3. ez32 8. INTOF2C-MO 27. INTOF2C-MO По факту данных плат нет. И наоборот. Согласно файлу 13-й слот должен быть пустым, но по факту установлена плата NDDI. Т.е. несоответствия имеются. Наверное, важно еще отметить следующую историю. Незадолго до своего ухода предыдущий администратор совместно с подрядной организацией занимались апгрейдом. Дело в том, что у нас скоро открывается еще один филиал, в этой связи был приобретен вынос, связывающийся с данной станцией через INTOF. Сам вынос пока еще не подключен (лежит на складе), но, возможно, попытки его подключения были. По крайней мере, точно знаю, что производилась установка новых лицензий на основной узел для обеспечения возможности подключения выноса. Также были установлены платы IO2N и обновлен софт с 10 до 11 версии. Является ли текущее положение дел с платами причиной возникающих инцидентов? Даже если принять, что инцидент 2686 может быть связан с данным несоответствием (он имел место до установки патча 33), то инциденты 1603,1607 ранее не появлялись и были спровоцированы последним патчем. В чем их причина - неясно? Спасибо!

Читают тему