2swan
장애 유형별 조치 본문
시스템 운영 중 장애(서비스 가능상태)
○ 장치 디바이스 장애
장애유형 | 조치사항 |
Processor, Memory fault | lsdev -Cc processor, lsdev -Cc memory를 실행시켜 Defined 상태임이 확인되었을때 장애로 판단 |
Internal Disk Error | errpt 명령으로 Disk Operation Error를 확인 할 수 있으며 지속적인 에러는 Disk 장애임을 말해준다. 또한 lsvg -l rootvg 명령을 이용하여 LV STATUS 부분에 open/syncd가 아닌 open/staled가 확인된다면 디스크 장애가 발생했다고 판단할 수 있다. (만일을 위해 OS 백업을 수행한다) |
External Disk Error | errpt 명령의 Disk Operation Error를 통해 장애를 확인 할 수 있다. hos_A system의 경우 Fiber Channel을 통한 SAN Network Storage를 사용하므로 "datapath query adapter" 명령의 Link Error 통계를 확인하여 SAN 문제를 감지할 수 있으며 SSA를 사용하는 host_B System의 경우 ssarid -Izl ssa0 (ssa0는 Adapter 명)명령을 사용하여 RAID Disk의 장애 유무를 파악할 수 있다. (Disk 및 Volume 들이 사용 가능한 상태인지 #lsvg - | datavg와 같은 명령으로 모든 LV들이 정상 Sync 되어 있고 mount 되어 있는지 검사한다.) |
Power Fault | Redundancy Power로 구성된 System에서 Power Error는 errpt에 Display 안 되는 경우가 종종 있기 때문에 root 메일을 살펴보는 것으로 점검 하거나, 직접 System을 육안으로 살펴 전면부의 I/O Power 및 후면부의 CES Power Supply LED lamp를 확인하여 판별할 수 있다. |
Network 장애 | errpt를 통해 Network Adapter 관련 Error를 살펴 보고 tracert 명령을 통해 어느 부분에서 Network 문제가 있는지 파악한다. Local 문제인 것으로 판단되었다면 후면부의 Adapter Link 및 Act Lamp를 살펴 Adapter 문제 또는 Cable 이나 router 이상인지를 판별할 수 있다. (점검 결과에 따라 Cable을 교체하거나 router를 살피는 작업 또는 Adapter 교체작업이 수행되어야 하며 Adapter를 rmdev 명령을 통해 삭제 한 후 재구성하여 Hardware적인 문제가 발견되는지를 확인한다.) |
○ 설정 또는 성능상의 장애
장애유형 | 조치사항 |
CDE Login 장애 | Login 창의 Option에서 Command Interface Mode로 로그인한다. 확인 사항은 다음과 같다. */etc/hosts 파일 네트워크 파일을 검사한다. 퍼미션 문제이거나 파일에 잘못된 IP가 셋팅 되어 있을 경우가 많다. *DNS 등의 Network 구성을 점검한다. */home 디렉토리가 Full인지 확인한다. *X11, DT관련 파일셋에 이상이 있는지 확인한다. |
Telnet 접속 장애 | * ping TEST 및 Gateway, router 장비 점검 * lssrc -a 로 inetd 데몬의 실행여부 확인 * /etc/inetd.conf 파일에서 telnetd 확인 * /etc/services 파일에서 telnet 서비스 확인 * /etc/resolv.conf 파일에서 DNS 정의 확인 * paging space 80%이상 사용시 Memory를 과다 점유하는 Process를 Kill 및 restart. * telnetd 파일의 퍼미션이 바뀌었는지 확인 |
Keyboard 입력 안됨 | Keyboard lock Key를 눌러 keyboard 이상유무를 파악하고 System hang up 을 판단하기 위해 remote 접속을 시도해본다. hang up 판단 시에는 reset key를 3~5초간 눌러 dump 및 재부팅을 수행 |
CDE 화면 이상 | Remote 접속을 시도하여 X11, DT 관련 Process를 stop 시키고 dtlogin을 재시작한다. |
그 외 Network 장애 | netstat -v 명령을 사용하여 해당 Adapter에서 collision이 많이 발생하는지 여부와 CRC 에러 또는 packet Drop이 발생하는지 여부를 확인한다. |
명령 실행 에러 | 명령 실행 시 Not enough memory 혹은 Fork function Failed 메시지 출력 시 paging space 부족이 원인이 되므로 lsps -a 명령으로 사용량 확인 후 size를 늘리거나 메모리를 과다 점유한 Process를 Stop 시킨다. 조치 불가능한 상황이라면 rebooting 하거나, 프로세스가 메모리를 반환할 때 까지 기다려야 한다. |
File 이상 | 입출력이 많은 파일시스템에서는 불특정 디렉토리 내의 파일들이 보이지 않거나 이상현상을 보이는 경우가 있는데 이는 File system의 super block이나 inode map등에 이상이 있는 경우에 발생한다. 이때에는 File system을 unmount 하고 fsck -y 를 수행하여 복구하여야 한다. |
○ 서비스 불가능 장애
장애유형 | 조치사항 |
File System access 불가 | File System의 corruption으로 인해 file system access 불가한 상태에서는 unmount 후 fsck -y 명령으로 복구 및 수정한 후 mount 하여 사용한다. 데이터 손실이 있을 수 있음을 인지 |
Hang up | System Service 및 접근이 전혀 되지 않는 경우 서비스 재 가동을 위해서 Reset button을 3~5초간 눌러 Dump를 진행하고 dump 완료 후 자동 재부팅을 기다린다. service 재가동이 우선시 된다면 Power button을 눌러 종료 후 다시 부팅 시켜 dump 진행을 Skip 할 수도 있다. |
Dump | System Front Panel에 0c9 또는 0c0 등의 dump code가 발견되었다면 덤프가 진행중 이거나 완료된 상황이므로 자동 재부팅 되기를 기다리고 엔지니어에게 통보 |
Booting 중 에러 | 시스템 부팅 중에 4-digit Error 나 8-digit Code에서 진행이 멈추었을 때에는 Code에 따른 장애 내용을 확인해야 하므로 메모 후 담당 엔지니어에게 통보 |
OS File System corruption | OS CD 혹은 mksysb image backup Media를 이용하여 Service 부팅을 시도한 후 fsck 명령을 수행하여 파일시스템을 복구 하거나 경우에 따라서는 image backup 으로부터 restore를 수행한다. |
Booting image corruption | OS CD 혹은 mksysb image backup Media로부터 Service 부팅을 시도하여 maintenance mode에서 bosboot 명령과 bootlist 명령을 사용하여 복구한 후 재부팅 |
Power 장애 | 시스템이 전혀 가동하지 않는다면 전원 코드의 접속상태를 확인하고 Power Supply의 LED lamp를 확인하여 점등 여부를 파악 하고 엔지니어에게 통보 |
'AIX' 카테고리의 다른 글
AIX Edition (0) | 2024.05.20 |
---|---|
System Administration(시스템 관리) - Memory (1) | 2024.05.17 |
HACMP 운영 (0) | 2024.05.16 |
네트워크 관리 (0) | 2024.05.16 |
백업 관리 (0) | 2024.05.14 |