새벽 2시, 갑자기 슬랙 알림이 시끄럽게 울립니다. “긴급! 메인 서버 접속 불가!”
바로 ‘프로덕션 장애’ 상황입니다. 개발자와 시스템 엔지니어들이 원인을 찾기 위해 분주하게 움직이는 동안, QA는 무엇을 해야 할까요? 문제가 해결될 때까지 가만히 지켜만 봐야 할까요?
결코 그렇지 않습니다. 현대적인 ‘장애 관리’ 프로세스에서 QA는 상황을 안정시키고, 더 큰 피해를 막으며, 재발을 방지하는 데 매우 중요한 역할을 수행합니다.

Q. ‘장애 관리(Incident Management)’란 정확히 무엇인가요?
‘장애 관리’는 실제 운영 환경에서 예기치 않은 서비스 중단이나 심각한 문제(‘장애’)가 발생했을 때, 이를 최대한 빨리 정상 상태로 ‘복구’하고, 비즈니스에 미치는 영향을 최소화하기 위한 체계적인 ‘장애 대응’ 프로세스입니다.
Q. 긴급한 ‘장애 대응’ 상황에서 QA의 역할은 무엇인가요?
이때 QA의 역할은 최전선에서 불을 끄는 소방관(개발자, 엔지니어)을 돕는 ‘현장 지원팀’과 같습니다.
- 1. 신속한 현상 재현 및 정보 제공:
- 개발자가 원인을 파악하는 동안, QA는 보고된 ‘프로덕션 장애’ 현상을 다양한 환경에서 재현해 봅니다.
- “이 문제는 특정 OS나 브라우저에서만 발생한다”, “로그인한 사용자에게만 발생한다” 와 같이, 장애가 발생하는 정확한 조건을 빠르게 파악하여 개발팀에 공유합니다. 이는 원인 분석의 범위를 좁히는 데 결정적인 단서가 됩니다.
- 2. 긴급 수정(Hotfix) 검증:
- 개발자가 ‘장애’를 해결하기 위해 급하게 만든 수정 코드(핫픽스)가 나왔을 때, QA는 이 코드를 운영 환경에 배포하기 전에 최종 검증합니다.
- “이 수정이 정말로 문제를 해결하는가?”
- “이 수정이 또 다른 심각한 부작용을 낳지는 않는가?”
- 이 두 가지를 누구보다 빠르고 정확하게 판단하여, 섣부른 수정으로 인한 2차 ‘장애’를 막는 문지기 역할을 합니다.
- 3. 고객 및 내부 커뮤니케이션 지원:
- ‘장애’의 정확한 현상과 현재 사용자에게 미치는 영향을 고객지원팀이나 PM에게 명확하게 전달합니다. 이는 외부 고객 공지나 내부 상황 공유가 정확하게 이루어지도록 돕습니다.
Q. ‘장애’가 해결된 후, 가장 중요한 것은 무엇인가요?
바로 ‘장애 회고(Post-mortem)’입니다. ‘장애 회고’는 단순히 “해결했다, 끝!”이 아니라, “다시는 똑같은 실수를 반복하지 않겠다”는 목표 아래, ‘장애’의 근본 원인을 찾고 개선책을 마련하는 매우 중요한 문화적 활동입니다.
- QA의 ‘장애 회고’ 참여:
- ‘근본 원인 분석(RCA, Root Cause Analysis)’ 참여: QA는 “이 버그가 왜 테스트 단계에서 걸러지지 못했을까?”라는 관점에서 분석에 기여합니다. 테스트 케이스가 부족했는지, 테스트 환경에 문제가 있었는지 등을 되짚어봅니다.
- 재발 방지 테스트 케이스 추가: 발견된 근본 원인을 바탕으로, 동일한 유형의 ‘장애’가 다시는 발생하지 않도록 이를 검증하는 ‘회귀 테스트 케이스’를 추가하고 자동화합니다.
결론: 장애를 통해 성장하는 팀의 핵심
‘장애 관리’ 프로세스에서 QA는 단순히 지켜보는 관찰자가 아닙니다.
긴급한 ‘장애 대응’ 시에는 신속한 검증으로 피해 확산을 막고, ‘장애 회고’를 통해서는 그 경험을 팀의 자산으로 만들어 장기적인 품질 개선을 이끄는 핵심적인 역할을 수행합니다. ‘프로덕션 장애’를 겪으며 성장하는 팀의 중심에는, 항상 그 경험을 통해 더 튼튼한 품질 시스템을 만들어가는 전문 QA가 있습니다.