지난 시간이라 하기엔 꽤 오랜 시간이 지났는데요. 과거 다뤄본 ‘마르코프 체인에 관하여’ 글에 이어서 이번에는 ‘은닉 마르코프 체인’에 대해 같이 공부하는 시간을 가져보려 합니다.

은닉 마르코프 체인이란

마르코프 체인은 ‘특정 상태의 확률은 오직 과거의 상태에 의존한다’라고 설명하였습니다. 그래서 한 상태(state)에서 다른 상태(state)로 전이(transition) 되기까지 장시간의 과거 내역이 필요하지 않고 바로 직전 상태의 전이로 추정 가능하다는 것이 핵심이었습니다. 이에 반해 ‘은닉 마르코프 체인’은 기본적으로는 마르코프 체인을 따르되 상태가 은닉(hidden) 되어 있다고 가정하는 것이 핵심입니다.

그림 1 : CSS 188 Hidden Markov Models

마르코프 체인과 은닉 마르코프 체인의 차이점

그래서 기존 마르코프 체인이 오늘의 날씨가 ‘맑음’일 때 내일의 날씨가 ‘XX’할 확률을 표현하고 계산하는 것이었다면 은닉 마르코프 체인은 ‘상태’들은 관측할 수 없고, ‘상태’에 따라 도출된 결과값만을 볼 수 있다는 점에서 기존 마르코프 체인과 차이점을 보입니다. 아래 그림2에 간략하게 모델 비교도를 만들어 봤습니다.

그림 2 : 마르코프 체인과 은닉 마르코프 체인의 간단한 비교

‘그림2’ 기준으로 쉽게 말해 우리는 실내에 있어서 밖에 비가 오는지 안 오는지는 모르겠지만 실내에 들어오는 사람들이 우비를 썼는지, 우산을 쓰는지, 맨몸으로 오는지를 보고 밖에 비가 오는지 안 오는지 예측해야 하는 상황입니다.

따라서 은닉 마르코프 체인의 예시와 같이 은닉 상태(Hidden state)인 강수확률에 대한 정보를 관측할 수 없습니다. 다만 기존 마르코프 체인 정보인 전이 확률(Transition probability) 정보만 가지고 있고, 우산 판매상이 등장할 확률(Emission probability)을 관측하여 가지고 있습니다. 이 점이 마르코프 체인과 은닉 마르코프 체인의 차이점입니다. 그리고 이는 조건부 확률로 표현됩니다.

은닉 마르코프 체인을 통해 확률 예측 순서

은닉 마르코프 체인을 통해 확률을 예측하는 순서는 대략 아래와 같습니다.

1. 어제, 오늘, 내일 간 우비, 우산, 맨몸인 결과값을 관측

2. 전이 확률(마르코프 체인 기준 강수확률)과 출력 확률(우비, 우산, 맨몸 등장 확률) 정보를 사용하여 어제, 오늘, 내일 동안 발생할 수 있는 모든 확률 계산

3. 모든 경우의 수를 계산하여 은닉 상태에서 발생할 수 있는 최대한의 높은 확률의 경로를 도출하여 모델화, 그리고 미래 확률에도 적용

프로세스 마이닝에서의 활용

프로세스 마이닝에서의 활용은 기존 마르코프 체인에서의 활용과 유사합니다. 다만 프로세스를 포함하여 세상의 확률들은 전이 확률로만 표현되는 마르코프 체인을 사용하기엔 한계가 있고, 훨씬 복잡합니다. 그래서 은닉 마르코프 체인을 사용할 경우 좀 더 정교한 프로세스 확률 예측이 가능해진다는 장점이 있고, 여러 방면에서 시도되고 있습니다.

본 글에서는 모델을 수식으로 표현하고 계산하는 내용은 포함하지 않았습니다. 보다 자세한 정보를 확인하고 싶으시면 아래 참고 자료를 확인하시기 바랍니다.

감사합니다.


참고 자료(링크)

https://ratsgo.github.io/machine%20learning/2017/03/18/HMMs/
https://brunch.co.kr/@geumjaelee/2
https://bioinformaticsandme.tistory.com/53
https://sanghyu.tistory.com/17
https://www.youtube.com/watch?v=0u80UvCAKVo
https://t-lab.tistory.com/20?category=611995
https://brunch.co.kr/@geumjaelee/2
https://modern-manual.tistory.com/48
https://m.blog.naver.com/dilector/222015744115