KT 통신 장애 대란에 대한 나의 생각
25일
한 11시쯤이었나
내 맞은편에 앉은 차장은 직원들에게 KT 쓰시는 분? 하는 것이었다.
전산실 직원들은 대부분 SKT를 사용하였다.
알고 보니 그의 스마트폰이 먹통이 되었다는 것이다.
그래서 나는 KT를 쓰는 내 절친에게 카톡을 보내서
"니 폰 잘 됨?"
"통신 먹통이라서 와이뽜이 잡음"
이런 답변을 받았다.
그리고 속보 기사가 떴다.
KT 디도스 공격으로 망 장애 발생
점심을 먹고 다시 포털 뉴스를 봤더니 작업자 과실이라고 정정 발표를 하였다.
대란 이후 4일이 지난 오늘 원인 분석 결과를 발표하는 뉴스를 보았다.
exit 글자를 보자마자 "미친 X ㅋㅋㅋ" 어이가 털린 웃음이 나왔다.
필자의 뇌피셜이지만 이번 KT 사태에 대해서 2가지 뻥카가 보인다.
기사 원문
https://news.naver.com/main/read.naver?mode=LSD&mid=shm&sid1=105&oid=293&aid=0000036792
첫 번째. EXIT 명령어 누락?
기사를 읽어보면 IS-IS(intermediate system to intermediate x2) 명령어를 입력을 하였고 exit를 안 치고 바로 BGP 명령어를 집어넣어서 문제가 발생을 하였다고 한다.
장비의 벤더는 노키아라고 했다.
노키아는 내가 알기론 알카텔 루슨트 TIMOS체계를 사용하는 걸로 알고 있다.
(대표적으로 7750 시리즈)
BGP야 CISCO 인증 시험 단골 문제이니깐 잘 아는 라우팅이고
is-is는 OSPF랑 비슷한 LSA방식의 다이나믹 라우팅 프로토콜로 알고는 있었다.
필자는 IS-IS를 그냥 책으로 한번 읽어본 정도다.
즉 Inter network에서는 접할 일이 거의 없는 라우팅 프로토콜이다.
일단 집고 넘어가야는 게 is-is는 앞에 설명했듯 LSA 방식이고 다이크스트라(Dijkstra) 알고리즘을 사용하여 라우팅 경로를 계산한다.
그냥 OSPF랑 비슷하면서 뭔가 다른 체계라고 보면 된다.
Cisco 기준으로 BGP와 IS-IS 명령어가 다르다.
대충 Confiugre를 적자면
ISIS
Router(config)# router isis
Router(config-router)# net 12.0001.1234.1234.1234.00
Router(config-router)# int lo0
Router(config-if)# ip router isis
Router(config-if)# int gi0/0/0
BGP
Router(config)# router bpg 1234
Router(config-router)# bgp router-id 1.1.1.1
Router(config-router)# neighbor 1.1.1.2 remote-as 1234
Router(config-router)# neighbor 1.1.1.3 remote-as 1234
Router(config-router)# neighbor 1.1.1.3 ebgp-multihop 2
Router(config-router)# net 1.1.1.4 mask 255.255.255.0
그냥 네트워크의 ㄴ자도 모르는 사람이 보아도 명령어 체계가 다르다.
그리고 is-is 설정 모드에서 BGP 명령어를 넣어도 명령어가 먹히지 않는다.
(router bgp AS번호를 넣어줘야 BGP 설정 명령어를 입력할 수 있다.)
그리고 보통 네트워크 장비 제조사들 보면 IS-IS 설정 작업을 하다가 exit를 넣지 않고 바로 BGP 명령어를 입력하여도
설정 모드가 IS-IS에서 BGP로 자동으로 넘어간다.
자동으로 넘어가는 기능이 지원이 되지 않아는 다고 해도 명령어가 유효하지 않는다는 메시지가 출력이 된다.
차라리 exit를 누락을 해서 장애가 터졌다고 하기보단 작업 후 write memory(메모리에 작업된 명령어 자장)
안 하고 이중화 테스트를 위해 재부팅해서 장애 났다는 말이 더 신빙성이 있어 보인다.
그리고 Exit는 장비설정 모드를 끝내겠다는 뜻의 명령어이자 장비의 접속 Log out 명령어다.
Exit 명렁어 안 했다고 장애 터지지 않는다.
엔지니어 생활하면서 정말 Exit 때문에 장애 난적 한 번도 없다. 있었으면 필자는 로또 복권에 당첨이 되었을 거다,
기본적으로 장비를 설정할 때 특정 시간이 지나면 보안을 위해 자동으로 세션(session)이 끈기 게 설정을 한다.
즉 그냥 시스템의 기밀성을 위해 쓰는 명령어지 기능에 지장을 주는 명령어는 아니다.
두 번째 뻥카. 대 낮에 국사 장비 작업???
네트워크 엔지니어 생활을 하다 보면 악어와 악어새처럼 통신사 엔지니어들과 같이 일을 하는 경우가 많다.
국사 상주 직원만큼은 아니지만 대충은 어떻다는 것을 알고는 있다.
통신사 국사 직원들은 낮에는 주로 장애처리나 신규 개통 작업을 한다.
고객이 특별히 주간에 요청하지 않는 이상 장비 교체, Configure 작업이나 기존 케이블 절체 작업은 주로 야간에 한다.
빨리하면 19시, 보통은 자정에 시작해서 새벽 6시까지 한다.
이건 통신사, 내부 네트워크든 30초 이상 통신 단절이 발생이 되는 작업이면 무조건 야간이다.
그래서 네트워크 엔지니어들이 야간에 작업을 많이 하는 것이다.
그리고 지역 관문 라우터를 작업을 하는데 더더욱 대낮에 작업을 한다는 건 말이 안 된다.
아니 대낮에 할 수 있다. 장비를 추가 설치를 하는 경우 대낮에 할 수 있다.
신규 설치된 장비에 명령어도 입력을 할 수 있다. 하지만 케이블 연결은 밤에 한다.
서비스 확인까지 늦어도 1분 ~ 3분이면 가능하다.
장애가 발생되었다면 원복 하는 시간은 늦어도 10분 이내다.
그럼 장애가 90분까지 발생이 되는 것이 아니라
오래 걸려도 15분 안으로 원복이 되었어야 한다는 것이다.
정말 정신이 미쳤거나, 대 낮에 술을 필름을 끈길 때까지 마시고 국사에 와서 작업하지 않는 이상 불가능하다는 것이다.
결론
뻥카다.
BGP 설정 잘못하면 국가 전체 네트워크를 아작을 낼 수 있다는 건 네떡 쟁이들은 다 아는 사실이다.
통신사별로 할 당된 AS 번호가 있고 이 AS번호를 따라 전 세계가 네트워크를 할 수 있다.
(AS를 기반으로 서로 라우팅 정보를 주고 받기 때문이다.)
기사를 읽어보니
장애의 원인은 IS-IS 작업 후 exit를 입력 안 하고
바로 BGP 명령어를 집어넣어서 IS-IS 프로토콜을 통해서 BGP를 타고 패킷이 밖으로 나가야 는데
패킷이 라우팅 루프를 일으켜서 전국을 먹통을 만들었다는 것이다.
일단 이게 말이 안 되는 거고
그다음에는 분명 미치지 않는 이상 BGP 작업을 하는데 바로 원상복구 Configure를 준비를 안 했다는 게 말이 안 된다.
그리고 나온 정부의 대책이 정말 골 때린다.
기사 원문
https://news.naver.com/main/read.naver?mode=LSD&mid=sec&sid1=105&oid=421&aid=0005689876
그냥 전국을 정적 라우팅으로 설정하겠다는 건가?
다이나믹 라우팅을 왜 쓰는지 이유조차 알고 저런 발표를 하는 건가?
진짜 탁상행정의 끝판을 보여주는 사례다.
오히려 수백 줄, 수천 줄의 스태틱 라우팅이 얼마나 무서운지 모르는다는 것이다.
국사 to 고객의 구간은 스태틱으로 구성을 한다.
하지만 국사 to 센터는 다이나믹으로 가는 것이 맞고 SKT와 LG U+, 해외 통신사와 연동을 하려면 BGP를 써야 한다.
그렇게 안하고 업데이트 경로 제한 걸어버리고 스태틱으로 도배를 하면 정말 더 큰 대란을 일어날 수 있다.
네트워크 오류 사전에 진단하는 시뮬레이션 이야기를 하는데
이미 우리에게 많이 알려진 GNS3와 EVE-NG가 있다.
필자도 중요한 작업, 부담이 많이 가는 작업이 있으면 두 시뮬레이션으로 연습의 연습을 하고 진행을 한다.
시뮬레이션의 한계 때문에 테스트가 안되면 놀고 있는 유휴장비로도 한다.
결론은 시뮬레이션 할 수 있는 방법은 이미 있다.
네트워크 엔지니어로 밥 먹고 사는 필자의 뇌피셜은 KT의 관리 소흘로 발생한 인재가 아니다!
기술적인 과실 문제가 아니라 다른 문제라는 것이다.
원래 북한이 공격한 DDOS가 맞았는데 정치적인 문제로 KT 잘못으로 위장을 한 것인지
아니면 다른 스캔들이 터졌는데 급조로 KT 장애로 덮은 건지
이 사고, 대란의 진실은 정부, KT 당사자들만 알고 있을 것이다.
https://news.naver.com/main/read.naver?mode=LSD&mid=sec&sid1=100&oid=119&aid=0002541384
https://news.naver.com/main/read.naver?mode=LSD&mid=sec&sid1=100&oid=003&aid=0010791088
위의 기사는 KT 통신 대란이 일어난 당일에 보도된 기사다.
나는 거짓말을 할 수 있지만 기계는 거짓말하지 않는다.
※ 조사부 소개
- 정보통신, 미래IT공학(인공지능) 전공
- 現 중앙 정부부처 네트워크 운영 관리
- 다수 유지보수 및 SI 프로젝트 참여
출처 있는 포스팅 무단배포 사랑합니다!
구독과 좋아요는 사랑입니다. ㅠㅠ
네트워크 강의 / 야간, 주말 기술 지원 / 네트워크 컨설팅 / 네트워크 설계
서적, 장비, 강의 리뷰 / PPL등등
조사부의 손길이 필요하시면 아래의 연락처로 연락 주세요.
▽▼▽▼▽▼▽▼▽▼▽▼▽▼▽▼
이메일 : josaboo@kakao.com
카카오톡 ID : dr.josaboo
여기로 문의주시면 감사하겠습니다.
IT 취업 / 프리랜서 구인/구직/
님버스테크 손병희 상무이사
M. 010 7657 6215
E-MAIL. s1024323@nimbustech.co.kr
네트워크 추천 서적