Incident, Defect tracking

장애 대응

created: 2022.07.13

updated: 2022.07.13

의견 남기기

infra

Incident

Incident

재발 방지 대책

시스템에 장애가 발생하면, 장애 보고서를 작성하게 된다. 그 후, 장애를 해결하고, 재발을 방지하기 위한 과정을 거치게 된다.

장애는 재현이 가능해야 한다
문제를 해결하기 위해 어떤 과정을 거쳤고, 어떤 테스트를 진행했는지를 문서화로 남기자.

장애 발생 빈도를 낮추는 방법

장애 없는 서비스는 없다.

운영 DB 를 로컬에서 직접 다루는 일은 가급적 피하자
- 혹시나, truncate 나 delete 문을 다뤄야 하는 경우는 더욱 조심해야 한다.
테스트 코드를 작성한다
- 코드를 작성하고 자체적으로 E2E 테스트를 진행하고 코드리뷰를 거친다 하더라도 놓친 부분이 있을 수 있다.
다양한 케이스에 대한 테스트를 진행하자.

장애 복구를 빠르게 하는 방법

서비스 중단 시간을 최소화 해야 한다.
- 무중단 배포
장애 발생 시, System Engineer, Developer 로 부터 인입이 되도록 해야 한다.
- 유저로부터 장애 인입이 들어오게되면 서비스의 신뢰도가 떨어질 것이다.
- Slack Alarm

Links