2swan

장애 유형별 조치 본문

AIX

장애 유형별 조치

2swan 2024. 5. 16. 16:44

시스템 운영 중 장애(서비스 가능상태)

○ 장치 디바이스 장애

장애유형 조치사항
Processor, Memory fault lsdev -Cc processor, lsdev -Cc memory를 실행시켜 Defined 상태임이 확인되었을때 장애로 판단
Internal Disk Error errpt 명령으로 Disk Operation Error를 확인 할 수 있으며 지속적인 에러는 Disk 장애임을 말해준다. 또한 lsvg -l rootvg 명령을 이용하여 LV STATUS 부분에 open/syncd가 아닌 open/staled가 확인된다면 디스크 장애가 발생했다고 판단할 수 있다.
(만일을 위해 OS 백업을 수행한다)
External Disk Error errpt 명령의 Disk Operation Error를 통해 장애를 확인 할 수 있다. hos_A system의 경우 Fiber Channel을 통한 SAN Network Storage를 사용하므로 "datapath query adapter" 명령의 Link Error 통계를 확인하여 SAN 문제를 감지할 수 있으며 SSA를 사용하는 host_B System의 경우 ssarid -Izl ssa0 (ssa0는 Adapter 명)명령을 사용하여 RAID Disk의 장애 유무를 파악할 수 있다.
(Disk 및 Volume 들이 사용 가능한 상태인지 #lsvg - | datavg와 같은 명령으로 모든 LV들이 정상 Sync 되어 있고 mount 되어 있는지 검사한다.)
Power Fault Redundancy Power로 구성된 System에서 Power Error는 errpt에 Display 안 되는 경우가 종종 있기 때문에 root 메일을 살펴보는 것으로 점검 하거나, 직접 System을 육안으로 살펴 전면부의 I/O Power 및 후면부의 CES Power Supply LED lamp를 확인하여 판별할 수 있다.
Network 장애 errpt를 통해 Network Adapter 관련 Error를 살펴 보고 tracert 명령을 통해 어느 부분에서 Network 문제가 있는지 파악한다. Local 문제인 것으로 판단되었다면 후면부의 Adapter Link Act Lamp를 살펴 Adapter 문제 또는 Cable 이나 router 이상인지를 판별할 수 있다.
(점검 결과에 따라 Cable을 교체하거나 router를 살피는 작업 또는 Adapter 교체작업이 수행되어야 하며 Adapter를 rmdev 명령을 통해 삭제 한 후 재구성하여 Hardware적인 문제가 발견되는지를 확인한다.)

 

 

○ 설정 또는 성능상의 장애

장애유형 조치사항
CDE Login 장애 Login 창의 Option에서 Command Interface Mode로 로그인한다. 확인 사항은 다음과 같다.
*/etc/hosts 파일 네트워크 파일을 검사한다. 퍼미션 문제이거나 파일에 잘못된 IP가 셋팅 되어 있을 경우가 많다.
*DNS 등의 Network 구성을 점검한다.
*/home 디렉토리가 Full인지 확인한다.
*X11, DT관련 파일셋에 이상이 있는지 확인한다.
Telnet 접속 장애 * ping TEST 및 Gateway, router 장비 점검

* lssrc -a 로 inetd 데몬의 실행여부 확인

* /etc/inetd.conf 파일에서 telnetd 확인

* /etc/services 파일에서 telnet 서비스 확인

* /etc/resolv.conf 파일에서 DNS 정의 확인

* paging space 80%이상 사용시 Memory를 과다 점유하는 Process를 Kill 및 restart.

* telnetd 파일의 퍼미션이 바뀌었는지 확인
Keyboard 입력 안됨 Keyboard lock Key를 눌러 keyboard 이상유무를 파악하고 System hang up 을 판단하기 위해 remote 접속을 시도해본다. hang up 판단 시에는 reset key를 3~5초간 눌러 dump 및 재부팅을 수행
CDE 화면 이상 Remote 접속을 시도하여 X11, DT 관련 Process를 stop 시키고 dtlogin을 재시작한다.
그 외 Network 장애 netstat -v 명령을 사용하여 해당 Adapter에서 collision이 많이 발생하는지 여부와 CRC 에러 또는 packet Drop이 발생하는지 여부를 확인한다.
명령 실행 에러 명령 실행 시 Not enough memory 혹은 Fork function Failed 메시지 출력paging space 부족이 원인이 되므로 lsps -a 명령으로 사용량 확인 후 size를 늘리거나 메모리를 과다 점유한 Process를 Stop 시킨다.
조치 불가능한 상황이라면 rebooting 하거나, 프로세스가 메모리를 반환할 때 까지 기다려야 한다.
File 이상 입출력이 많은 파일시스템에서는 불특정 디렉토리 내의 파일들이 보이지 않거나 이상현상을 보이는 경우가 있는데 이는 File system의 super block이나 inode map등에 이상이 있는 경우에 발생한다. 이때에는 File system을 unmount 하고 fsck -y 를 수행하여 복구하여야 한다.

 

 

○ 서비스 불가능 장애

장애유형 조치사항
File System access 불가 File System의 corruption으로 인해 file system access 불가한 상태에서는 unmount 후 fsck -y 명령으로 복구 및 수정한 후 mount 하여 사용한다. 데이터 손실이 있을 수 있음을 인지
Hang up System Service 및 접근이 전혀 되지 않는 경우 서비스 재 가동을 위해서 Reset button을 3~5초간 눌러 Dump를 진행하고 dump 완료 후 자동 재부팅을 기다린다. service 재가동이 우선시 된다면 Power button을 눌러 종료 후 다시 부팅 시켜 dump 진행을 Skip 할 수도 있다.
Dump System Front Panel에 0c9 또는 0c0 등의 dump code가 발견되었다면 덤프가 진행중 이거나 완료된 상황이므로 자동 재부팅 되기를 기다리고 엔지니어에게 통보
Booting 중 에러 시스템 부팅 중에 4-digit Error 8-digit Code에서 진행이 멈추었을 때에는 Code에 따른 장애 내용을 확인해야 하므로 메모 후 담당 엔지니어에게 통보
OS File System corruption OS CD 혹은 mksysb image backup Media를 이용하여 Service 부팅을 시도한 후 fsck 명령을 수행하여 파일시스템을 복구 하거나 경우에 따라서는 image backup 으로부터 restore를 수행한다.
Booting image corruption OS CD 혹은 mksysb image backup Media로부터 Service 부팅을 시도하여 maintenance mode에서 bosboot 명령과 bootlist 명령을 사용하여 복구한 후 재부팅
Power 장애 시스템이 전혀 가동하지 않는다면 전원 코드의 접속상태를 확인하고 Power Supply의 LED lamp를 확인하여 점등 여부를 파악 하고 엔지니어에게 통보

'AIX' 카테고리의 다른 글

AIX Edition  (0) 2024.05.20
System Administration(시스템 관리) - Memory  (1) 2024.05.17
HACMP 운영  (0) 2024.05.16
네트워크 관리  (0) 2024.05.16
백업 관리  (0) 2024.05.14