행안부, 행정전산망 장애 원인 발표 "네트워크 장비 불량"으로 결론..해킹징후는 없어

기자정보, 기사등록일
장윤정 기자
입력 2023-11-25 15:07
    도구모음
  • 글자크기 설정
  • L4 장비의 OS 업데이트 있었지만 장애원인은 L4장비보다 라우터에서의 90% 이상 패킷 유실로 추정돼

  • 노후장비 전수조사 착수, 장애조치 매뉴얼 보강 등으로 향후 근본적 대책 마련에 힘쓸 것

사진행안부
[사진=행안부]
정부가 초유의 행정전산망 마비 사건에 대한 사고 원인을 '라우터 장비 불량'으로 결론지었다.

사고가 일어난 17일 전날 L4 장비의 OS 업데이트가 수행됐고 L4 장비에서 비정상 상태로 전환되는 로그가 다수 반복되는 것이 확인되어 L4 스위치가 원인인 것으로 지목되었지만 조사 결과 라우터 장비의 패킷 유실이 90% 이상 발견돼 '네트워크(라우터) 장비 불량'인 것으로 결론지었다. 

네트워크 장비에서의 장애 가능성 놓고 다각도로 조사 

25일 행정안전부는 '지방행정전산서비스 개편 TF'를 통해 조사한 내용에 대해 발표했다. 원인분석반은 총 29명으로 구성되었고 LG CNS, 네이버 클라우드, 소울시스템즈 등 외부전문가 16명과 국가정보자원관리원 통신·운영·보안 부서 소속 인력 13명으로 구성됐다. 

TF에 참가한 숭실대학교 송상효 교수에 따르면 "먼저 장애 당시 남겨진 로그를 분석한 결과, 장애의 원인은 네트워크 영역에서 발생했을 확률이 높은 것으로 추정했다"라며 "왜냐하면 비정상 상태가 통합검증서버의 네트워크 세션에서 확인되고, 네트워크 장비 중 하나인 L4 장비의 OS 업데이트가 전일 있었으며, L4 장비에서 비정상 상태로 전환되는 로그가 다수 반복되는 것이 확인되었기 때문"이라고 밝혔다. 

 송 교수는 "네트워크 영역에서 문제가 나타났다 하더라도 앞뒤로 연결된 장비나 시스템이 영향을 미쳤을 수도 있다. 그렇기 때문에 원인분석반은 네트워크 장비뿐만 아니라 서버 로그까지 분석 대상에 포함시켜 충분한 검토와 테스트를 진행했다"고 설명했다. 그는 "네트워크 장비를 대상으로 하는 성능 측면 점검의 경우에는, 구간을 나누어 반복적인 부하 테스트를 진행하고 장애 및 접속 지연이 발생한 영역을 확인하며 장애 유발 원인을 좁혀 나가는 방식을 사용했다"며 "이와 같은 분석을 반복하여 수행한 결과, 네트워크 장비인 라우터에서 패킷을 전송할 때 용량이 큰 패킷이 유실되는 현상이 관찰되었는데, 특히 1500byte 이상의 패킷은 약 90%가 유실됐다"고 밝혔다.

이 현상의 원인은 라우터 장비의 케이블을 연결하는 모듈에 있는 포트 중 일부가 이상이 있었기 때문이라는 설명이다. 즉 이렇게 패킷이 유실됨으로써 통합검증서버는 라우터로부터 서비스 제공에 필요한 패킷을 정상적으로 수신할 수 없게 되었고, 지연이 중첩되어 작업을 정상적으로 수행할 수 없는 상황에 이르게 된 것이라는 설명이다.

송 교수는 "이는 로그에서도 확인할 수 있었다"며  "국가정보자원관리원은 11월 18일 오전 4시에 정상 작동하지 않던 L4 장비를 고성능 장비로 교체했고, 교체한 상태에서 기능 및 부하 테스트를 통해 안전성을 점검한 후 정부24 서비스를 오전 9시 재개했다. 그러나 트래픽이 많지 않은 주말이라 서비스는 정상 작동하였지만 일부 기능에 지연 현상이 발견됐다"고 말했다. 

이어 "지연이 발생한 기능들은 모두 광주센터와 연관된 것임을 확인하고 광주센터와 대전센터를 연결하는 라우터를 상세 분석한 결과 해당 포트의 불량이 발견되어 11월 19일 오전 7시에 다른 포트로 연결을 전환함으로써 해당 지연 현상을 해소했다"고 과정을 밝혔다. 

대책반은 위와 같은 작업에도 불구하고 위 불량 외에 다른 오류가 있었을 가능성도 배제할 수 없어, 서버에서 발생한 로그를 분석하고 다양한 네트워크 구간에서 장비의 이상을 검증하고 테스트하는 과정을 거쳤다.

송 교수는 "통합인증서버가 존재하는 존(zone)에 함께 운영되는 서버는 물리서버 150여대, 소프트웨어는 각각 웹서버 19식, WAS서버 50식, DBMS 56식이 있다. 특히 통합인증서버는 다수의 장비와 연계되어 서비스되고 있는 상황이라 검증 대상이 많았다. 통합인증서버가 경유하는 네트워크 장비의 경우 같은 존 내에만 라우터 장비 2대 및 L4 장비 4대, 국가정보통신망 영역 라우터 장비 8대가 있다. 각 구간에서 이상 유무를 확인하기 위해 각 장비에서 장애 발생 시점의 로그를 수집하여 분석했다"고 설명했다.

그는 "또한 앞서 설명드린 장애 및 접속 지연이 발생한 영역을 확인하며 장애 유발 원인을 좁혀 나가기 위해 수행한 네트워크 부하 테스트의 경우 3차에 걸쳐 총 8회(1차 4회, 2차 2회, 3차 2회) 수행했다"고 말했다.

원인 분석을 위해 수행한 부하 테스트의 시나리오는 다음과 같다.

통합인증서버로의 트래픽 유입량을 변경하는 경우, L4 장비를 경유하지 않는 경우, 패킷 크기를 변경하는 경우, 서비스 이용자의 수를 500명 또는 1500명 등 다양하게 변경하는 경우, L4 장비를 경유하는 네트워크 대역폭을 변경하는 경우 등 다양한 시나리오 상황에서 네트워크 영역에서의 접속 지연 및 이상 유무를 확인했다.

송 교수는 "이와 같은 확인 과정을 거쳤으나, 앞서 말씀드린 라우터 장비의 불량 외에는 다른 이상 현상을 발견할 수 없었다"라며 "라우터 장비의 패킷 유실"로 인해 장애가 발생한 것으로 추측했다. 이어 "당초 장애의 원인으로 지목되었던 L4 장비 및 라우터를 이용해 장애 당시와 유사한 환경을 구현하여 검증한 결과 검증환경에서도 동일하게 라우터에서의 패킷 유실, 즉 장애를 유발할 수 있는 현상이 재현됐다. 이로써 라우터에서의 패킷 유실로 인한 장애발생이 원인이라고 지목 가능하다"고 다시 한번 설명했다. 

한편 해킹에 대해서도 모든 가능성을 열어놓고 외부에서의 공격, 내부에 심어놓은 스파이웨어 등 다양한 상황을 가정해 보안당국과 함께 확인했지만 현재까지는 해킹 징후가 보이지 않았다고 밝혔다.

종합대책 수립으로 재발 방지···'범정부 디지털정부 위기대응체계' 확립할 것

고기동 차관은 "이번 장애를 반면교사 삼아 다시는 이런 일이 재발하지 않도록 문제점을 하나하나 들여다보면서 근본적이고 실효성 있는 보완 대책을 마련하겠다"며 "이번과 유사한 포트 불량이 있을 수 있는 오래된 장비들에 대해 오늘부터 전수 점검에 착수했다"고 밝혔다.

정부는 이번 장애와 관련해 국민에게 장애 상황을 빨리 알려 드리지 못한 문제를 해결하기 위해 장애 발생 시의 처리 매뉴얼을 보완토록 하겠다고 밝혔다 또한 다양한 수단을 활용하여 장애로 인한 서비스 복구 상황을 신속히 알려 국민불편을 최소화하겠다고 강조했다. 

고 차관은 "전산장애가 발생했을 때 신속한 복구조치가 가능한 체계를 마련하겠다. 장애 조치 시간을 단축하기 위해 장애 징후를 빨리 포착할 수 있도록 중요 서비스 시스템과 연관 장비들에 대한 통합 모니터링 체계를 구축하고, 상설 장애대응반을 구성, 중요 장애에 투입함으로써 조기에 문제를 해결할 수 있도록 하겠다"며 "이런 부분은 장애조치매뉴얼에 더욱 보완하는 한편 핵심 디지털정부 서비스가 중단되는 상황에서도 행정서비스가 제공될 수 있도록 행정조치 방안을 마련하고 대응매뉴얼을 수립하겠다"고 밝혔다. 

고 차관은 "이를 반영해 국가전산망 마비를 재난 및 사고 유형으로 명시해 예방부터 복구까지 체계적으로 관리해나가도록 하겠다. 한편 디지털정부를 안정적 운영하기 위해 중장기적인 제도 개선방안도 마련하겠다"고 말했다. 

이를 위해 정부는 '범정부 디지털정부 위기대응체계'를 확립하겠다고 선언했다. 
 
개별 정보시스템의 장애·복구를 넘어 다수 정보시스템이 연계된 디지털정부 환경에 걸맞은 위기대응체계를 구축하고, 이를 총괄하는 범정부 장애예방·대응 컨트롤타워를 보다 강화하겠다는 것. 다음으로 공공정보화사업 추진방식을 개선하고 투자계획을 마련할 것이라고 밝혔다. 

공공정보화사업의 추진절차와 사업관리체계 등을 개선해 나가고, 내용연수가 지나 잠재적 위험성이 높은HW와 SW의 신속한 교체와 기술력 높은 기업 참여를 위한 공공정보화사업의 사업대가 현실화 등도 추진해 나가겠다고 밝혔다. 

고 차관은 "디지털정부의 핵심 업무인 정보시스템 개발·운영을 외주용역에 의존하는 기존 체계를 개선하고, 디지털 분야 우수 인재가 정부에 유입되어 역량을 발휘할 수 있도록 하겠다. 나아가 국가정보자원관리원의 운영방식을 전면 재검토하겠다. 국가정보자원관리원에 입주한 시스템에 대한 이중화, 재해복구시스템, 네트워크 구성 등의 기술구조를 전면 검토하고, 조직진단을 통해 조직구성과 인사운영 등 개선방안을 마련할 것"이라고 설명했다. 

그는 "다시는 유사한 문제로 국민이 불편을 겪지 않도록 어떠한 상황에서도 중단 없는 안정적인 디지털정부를 만들어 나가겠다. 이를 위해 많은 민간전문가와 관계기관의 참여를 통해 확실한 종합대책을 수립하고 그 결과를 국민께 충실히 설명하겠다. 앞으로 세계적 수준의 디지털정부 명성에 걸맞은 편리하면서도 보다 안정성 높은 서비스를 제공할 수 있도록 최선을 다하겠다"고 다짐했다. 

©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지

컴패션_PC
0개의 댓글
0 / 300

로그인 후 댓글작성이 가능합니다.
로그인 하시겠습니까?

닫기

댓글을 삭제 하시겠습니까?

닫기

이미 참여하셨습니다.

닫기

이미 신고 접수한 게시물입니다.

닫기
신고사유
0 / 100
닫기

신고접수가 완료되었습니다. 담당자가 확인후 신속히 처리하도록 하겠습니다.

닫기

차단해제 하시겠습니까?

닫기

사용자 차단 시 현재 사용자의 게시물을 보실 수 없습니다.

닫기
실시간 인기
기사 이미지 확대 보기
닫기