전원이중화, UPS 이중화

2019.09.04 07:00




조금만 걸어도 땀이 쏟아지는 여름에는 조금 더 일찍 출근한다. 


어렸을 적 "물먹는 땀띠 곰"이라는 별명을 가질 정도로 땀이 많은 나는 덜 뜨거울 때, 지하철에 사람도 적을 때 일찌감치 출근하는게 여름에 살아남기 위한 방법이다. (아침 이른 시간의 지하철은 사람이 적기 때문에 상대적으로 더 시원할 뿐더러 앉아서 출근할 확률도 높다. ^^)


그리고 선풍기 밑에서 커피 한 잔 하면서 평소 못 읽는 업무 관련 책이라도 뒤적이면 이것도 나름 괜찮다. 


폭염주의보가 난리를 치던 어느 날. 


출근해서 PC 부팅되는 동안 커피를 한 잔 타고 모니터에는 WAS 모니터링용 웹사이트(제니퍼)를 열어두려고 접속했더니.. 




엥? 이게 뭐시냐?


어떻게 이렇게 다 죽었지???







잠깐 잠깐 뭐부터 확인해야 하나... 이거 제니퍼는 화면에 나왔으니까 네트워크가 완전히 죽은건 아니네. 


다른 모니터링툴을 화면에 띄웠더니 그건 정상적이다. 


그렇다는건 서버 한 두 대 문제도 아니고, 다른 쪽 네트워크는 괜찮은데 그룹웨어쪽 네트워크에 문제가 있는 모양이다. 


(저 제니퍼 모니터링 화면이 그룹웨어 서버들을 모니터링하는 화면이다) 



-  뭐가 문제지??? 


- 그룹웨어는 괜찮은데 제니퍼 모니터링 서버가 혼자 문제 생긴건 아닌가?? 


- 백본 스위치 장애? 


- 그룹웨어 시스템 앞쪽에 놓인 L3 스위치?? 


- 혹시라도 그룹웨어랑 연결된 전용회선??? 



몇가지로 장애현상의 원인이 될법한 장비나 분야로 빠르게 추려본다. 


이때가 월요일 아침 7시반. 


아직 본격적 출근 전이다. 빨리 조치해야 한다. 



의심되는 분야의 해당 담당자들에게 최대한 빠른 출근과 점검을 지시하고, 윗분들에게 문자로 장애상황을 알렸다. 


뭐가 범인일지 알 수 없기 때문에 이런 상황에서는 연관된 모든 장비들을 전부 점검해봐야 한다. 


이런 큰 규모의 장애상황을 몇 번 경험해보니 제일 의심가는 것이 있다 하더라도 그것부터 순차적으로 접근하다가는 장애시간만 길어질 수 있기 때문에 일단 연관된 것들은 모두 장애를 의심해보고 확인 후 하나씩 혐의를 벗겨주는게 낫다. 



머리속을 스쳐간 범인(?)들 중에서 확률이 제일 낮은건 전용회선이었지만 혹시나 싶은 마음에 KT에 전용회선 점검을 부탁했다. 



슬슬 전화기가 불이나기 시작한다. 


그룹웨어가 안된다고 문의하는 직원 전화와 각 장비들을 점검하고 점검결과들을 공유하는 엔지니어들, 인프라 담당 직원들의 전화가 정신없이 쏟아진다. 


무슨 영화처럼  한쪽 어깨에는 사무실 전화기 수화기를 걸고, 스마트폰은 스피커폰 모드로 두고 여러장비들을 접속하면서 점검, 확인해본다. 



시간이 8시를 넘어갈 무렵 백본과 연결된 전용회선쪽에서 신호가 들어오지 않는다는 보고를 받는다 


- 그럼 뭐야? 진짜 전용회선이 문제야?? 


KT 전용회선 담당에게 전화를 걸려고 스마트폰 연락처를 뒤지고 있는데 마침 KT 영업 담당에게 전화가 걸려온다. 


"차장님. 저희쪽 전용회선 앞 단 L3 장비가 UPS 장애 때문에 Shutdown 된 상태라는걸 확인했습니다.  바로 응급 조치하고 다시 연락드리겠습니다" 


헐헐헐... 


자세하게 묻지는 않았다. 


저쪽 담당자도 바쁘게 움직이고 있을터이고 세부적인 장애원인 같은건 일단 회선이 복구된 후 알아봐도 될테니. 



우리쪽 각 담당에게 해당 내용을 공유하면서 혹시 다른 쪽 장애는 없는지 확인해달라고 부탁하고 KT 전화를 기다린다. 



그룹웨어 안된다고 사방에서 전화가 울리고, 몇몇 마음 급한 사람은 사무실로 뛰어와서 왜 그룹웨어가 안되는지 묻는다. 


입술은 바짝바짝 타들어가는데 내가 뭘 어떻게 할 수 있는 것도 없다. 



그 순간 제니퍼 모니터링 화면이 쭈르륵~ 살아나면서 서비스가 정상으로 돌아온 걸 보여준다. 



이제 되는구나. 



웹브라우저를 열고 그룹웨어 접속되는 것까지 직접 확인하고 큰 소리를 외친다. 


"이제 그룹웨어 됩니다~~~~" 



다른 직원들도 각자 전화기를 들고 여기저기에 서비스가 정상으로 돌와왔음을 알린다. 


나도 비서실과 부서장에게 서비스 복귀를 보고하고 의자에 널부러진다. 



눈을 감고 의자에 기대 있는데 가볍고 높은 목소리가 들린다. 


"차장님 안녕하세요? 주말 잘 쉬셨어요??? 산에 다녀오셨어요?? 피곤해보이시는데요??" 


"으....." 



내 옆자리 최과장이 이제 출근한다. 집이 멀어서 출근시간이 이른 편은 아니다.  


그럼 아직 9시는 넘지 않았다는 뜻이군. 


이제 근무시간이 시작되려 하는데 내 몸은 하루 근무 풀로 하고 야근까지 뛴 느낌이다. 






뒷 이야기.


오후에 KT 영업담당 직원과 전용선 담당 엔지니어가 사무실로 장애 문제에 대한 리포트를 제출하러 방문했다. 


전용선이 서초국사(나는 서초 전화국이라고 알고 있었는데 이름이 서초국사라고 한다) L3를 거쳐서 우리 사무실로 들어오는데 이 장비가 물린 UPS에 장애가 발생해서 L3 두 대 모두 죽었다는거다. 


- 설마...  


얼마전의 장애 경험을 떠올려보면 L3 두 대가 Active - Slave 모드로 운영중일 때 하나의 장비에 문제가 생겼지만 hang처럼 완전히 죽은 것도 아니고 기능을 하는 것도 아닌 상태에 빠질 경우 Slave모드로 주도권이 넘어가지 않아서 결과적으로 두 대 모두 통신 불능 상태에 빠진 적이 있다((이 장애는 Acive 모드인 L3의 GBIC에 문제가 생겨서 그랬다)


이런 장애가 발생한건가 싶었는데 UPS 장애라고?


"L3 스위치가 두 대인데 둘 다 죽었어요?" 


"네. 스위치가 물려있는 UPS가 죽은거라서요" 


"스위치 두 대가 UPS 한 대에 물려있다구요? UPS 이중화된거 아니에요?" 


"UPS가 따로 이중화되어 있지는 않습니다. UPS로 들어오는 전기는 2중화되어 있습니다만 이번 장애는 UPS 보드에 장애가 생기면서 자동으로 절체되지 않았습니다. " 


- 헐.헐.헐... 


 


일반적으로 전산실에서 사용하는 장비는 안정화를 위해서 전원공급장치(파워서플라이)가 이중화되어 설치되어 있어서, 혹시 파워서플라이 장애가 발생하더라도 시스템에는 영향을 주지 않도록 되어있고 심지어 운영중인 상태에서 장애가 생긴 파워서플라이 모듈을 교체하는 것도 가능하다. 



(간략하게 그린 인프라 구성도. 해당 그림들은 인터넷 여기저기서 줏어왔음. ^^;;)



시스템의 파워서플라이는 서버랙의 전원분배장치(PDU : Power Distribution Unit)에 연결할 때도 PDU 장애에 대비해서 서로 다른 PDU에 각각의 파워서플라이를 연결하고 PDU의 전원은 이중화된 UPS에서 공급받도록 하는게 정석으로 시스템을 구성하는 방법이다. 


UPS 이중화가 안되어 있다면 전원부 한쪽은 UPS에, 다른 한쪽은 상용전기에 연결해서 정전등이 발생하면 UPS에서 전기를 공급하도록 구성하기도 한다. 


그런데 이번 장애 원인은 모든 전원을 하나의 UPS에 연결해두었다는거다. 


이런 식으로 운영하니 KT 아현지사 화재 때 KT 서비스가 불통이될 수 밖에 없었을듯 싶다. 


 


이번 장애가 다시 생기지 않도록 해결방안을 마련해서 가져오라고 했는데 어떤 해결책을 가져올지... 에휴... 


또루아빠 뒤죽박죽 SM 돌파기 , , , ,