우리는 보통 버그가 ‘발생한 후’에 그것을 찾고, 수정하고, 재발 방지를 고민합니다.
하지만 만약, 버그가 ‘발생하기 전’에, 어떤 고장이 일어날지, 그 영향은 어떨지 미리 예측하고 예방할 수 있다면 어떨까요?
이처럼 체계적인 ‘사전 위험 평가’를 수행하는 강력한 방법론이 바로 FMEA(Failure Mode and Effects Analysis, 고장 형태 및 영향 분석)입니다.

이 글에서 다루는 것
- FMEA의 개념과 QA에게 중요한 이유
- FMEA의 핵심 프로세스 (RPN 계산법)
- 금융 앱 ‘송금’ 기능 FMEA 실전 예시
- 현직 QA의 FMEA 활용 경험담
FMEA(고장 형태 및 영향 분석)란?
FMEA는 제품이나 프로세스에서 발생할 수 있는 모든 잠재적인 고장 형태(Failure Modes)를 미리 식별하고, 각 고장이 발생했을 때 어떤 영향(Effects)을 미칠지 분석하여, 위험도에 따라 우선순위를 정하고 예방 조치를 취하는 체계적인 리스크 분석 기법입니다.
- 비유:
- 자동차를 설계할 때, “만약 브레이크 파이프가 터진다면?(고장 형태)”, “어떤 일이 벌어질까?(영향)”, “왜 그런 일이 발생할까?(원인)”를 미리 분석합니다.
- 그리고 그 위험을 줄이기 위해, 파이프를 이중으로 만들거나 경고등을 추가하는 등의 예방 조치를 취하는 것과 같습니다.
FMEA는 어떻게 진행되나요? (RPN 계산법)
FMEA의 핵심은 각 잠재적 고장의 위험도를 ‘RPN(Risk Priority Number, 위험 우선 순위 번호)’이라는 숫자로 객관화하는 것입니다.
RPN = 심각도(Severity) x 발생도(Occurrence) x 검출도(Detection)
| 요소 | 의미 | 점수 (예시: 1-10점) |
| 심각도(S) | 이 고장이 발생했을 때 고객/비즈니스에 미치는 영향의 심각성 | 10점(치명적) ~ 1점(사소함) |
| 발생도(O) | 이 고장이 발생할 실제 가능성, 빈도 | 10점(거의 확실) ~ 1점(매우 희박) |
| 검출도(D) | 현재의 테스트 프로세스로 이 고장을 사전에 ‘검출’할 수 있는 능력 | 10점(검출 거의 불가능) ~ 1점(거의 확실히 검출) |
이 세 가지 점수를 곱한 RPN 값이 높을수록, 우리가 가장 먼저 해결해야 할 최우선 순위의 위험임을 의미합니다.
[실전 예시] 금융 앱 ‘송금’ 기능 FMEA 분석
- 1. 고장 형태 (Failure Mode):
- 네트워크 지연으로 인해, 사용자가 송금 버튼을 여러 번 클릭하여 ‘중복 송금’이 발생한다.
- 2. 영향 (Effects):
- 고객의 자산이 의도치 않게 이중으로 출금된다. 고객 신뢰도에 치명적이다.
- 심각도(S) 점수: 10 (가장 심각)
- 3. 원인 (Causes):
- 프론트엔드에서 송금 버튼을 누른 후, 즉시 비활성화하는 로직이 없다.
- 4. 현재 검출 방법 (Current Controls):
- 별도의 자동화 테스트가 없어, 수동 테스트 시나리오에 의존한다.
- 검출도(D) 점수:5 (운이 좋으면 발견하지만, 놓칠 수도 있음)
- 참고: 검출도 점수는 ‘검출하기 어려울수록’ 높아집니다.
- 5. 발생 가능성 (Occurrence):
- 네트워크 지연은 통신 환경에 따라 흔하게 발생할 수 있다.
- 발생도(O) 점수: 6 (상당히 자주 발생 가능)
- 6. RPN 계산 및 조치:
- RPN = 10 (심각도) x 6 (발생도) x 5 (검출도) = 300
- “이 RPN 점수를 바탕으로, 우리는 ‘중복 송금 방지 로직’ 개발의 우선순위를 높이고, 이를 검증하는 자동화 테스트를 추가해야 한다고 팀에 강력하게 제안할 수 있습니다.”
현직 QA의 FMEA 활용 경험담
과거 한 차세대 프로젝트에서, QA팀이 주도하여 FMEA를 진행했습니다.
당시 ‘고객 정보 암호화’ 모듈의 검출도 점수가 매우 높게 나왔습니다. 이는 ‘암호화가 잘 되었는지 검증하는 테스트가 매우 어렵고 불완전하다’는 의미였습니다.
이 분석 결과를 근거로, 저희는 별도의 ‘보안 테스트 전문가’를 단기 계약하여 해당 모듈만 집중적으로 검증하는 것을 경영진에 제안했고, 승인받았습니다.
FMEA는 QA가 감이 아닌, 데이터 기반의 리스크 분석을 통해 필요한 리소스나 공수를 설득력 있게 요청할 수 있는 강력한 도구임을 깨달았습니다.
결론: 최고의 QA는 미래의 버그를 예방한다
FMEA는 QA의 역할을 ‘발생한 버그를 찾는 사람’에서 ‘발생할 버그를 예방하는 사람’으로 한 단계 격상시키는 강력한 방법론입니다.
QA가 주도하는 FMEA 활동은 팀 전체가 잠재적인 위험에 대해 함께 고민하게 하고, 제품의 품질을 개발 초기 단계에서부터 튼튼하게 만드는 ‘Shift Left’ 철학의 가장 구체적인 실천 방법입니다.
부록: FMEA 수행 미니 체크리스트 ✅
- 분석하려는 기능의 모든 잠재적인 ‘고장 형태’를 빠짐없이 나열했는가?
- 각 고장의 ‘영향’을 사용자, 비즈니스, 시스템 관점에서 모두 분석했는가?
- 심각도, 발생도, 검출도 점수를 팀원들과 함께 객관적인 기준에 따라 산정했는가?
- RPN이 높게 나온 최우선 리스크에 대한 개선 조치(Action Item)가 정의되었는가?
- 개선 조치 후, RPN 점수가 실제로 낮아졌는지 다시 측정하고 추적하고 있는가?
참고 자료 (References)
- ASQ (American Society for Quality) – What Is Failure Mode and Effects Analysis (FMEA)? (품질 관리에 대한 글로벌 기관의 FMEA 설명)
- 현대자동차그룹 – 개발 단계의 잠재적 문제를 예방하는 FMEA (제조업의 FMEA 적용 사례)