데이터 분석의 한계를 극복해 나아가기 위해

   김광섭 | 5분 읽기 

현대과학의 발전으로 소셜 네트워크, 이메일, 전화 등 다양한 방법으로 데이터들이 얻어지고 있으며, 그 양은 기하급수적으로 늘어가고 있습니다. 많은 데이터들이 축적되면서 기업들은 보다 효과적인 분석을 위한 방법으로 데이터 마이닝의 필요성을 인식하고 사회 전반에 걸쳐 많은 분야에서 관심을 가지고 활발한 연구가 진행되고 있습니다. 프로세스 마이닝 또한 독일, 네덜란드, 이탈리아 등 여러 국가에서 관심을 가지고 연구가 진행되고 있습니다.

프로세스 마이닝과 데이터 마이닝에서 공통으로 사용되고 있는 ‘마이닝’은 지하에 묻힌 광물을 찾아내는 ‘채광’의 의미를 갖고 있습니다. 즉, 두 방법 모두 데이터에서 정보를 추출함으로써 숨겨진 가치를 찾아냄을 목적으로 하고 있습니다.

두 방법론 사이에는 다음과 같은 분명한 차이도 존재합니다. 먼저 데이터 마이닝은 대용량 데이터 내에 존재하는 관계, 패턴 및 규칙 등을 탐색하고 찾아내어 우리가 필요로 하는 유용한 지식을 추출하는 과정을 말합니다. 반면, 프로세스 마이닝은 ‘자동화된 비즈니스 프로세스 발견’ 방법론이라고 볼 수 있으며, 시스템에 기록된 이벤트 로그를 분석하여 실제 기록으로부터 유추할 수 있는 패턴 및 프로세스를 발견하고 분석하는데 주안점을 두고 있습니다.

조금 더 쉽게 설명하면 데이터 마이닝은 다양한 데이터들을 통해 어떤 결과가 일어났는지를 특징 시점을 기준으로 분석하는데 반해, 프로세스 마이닝은 주어진 데이터를 프로세스 관점에서 분석하고 시각화하여 최적의 프로세스를 발견하거나, 프로세스를 개선/발전시킬 수 있는 방법을 찾는 일에 집중합니다.

빅데이터 시대가 들어서면서 데이터 마이닝은 국내에서도 이미 다양한 분야에 적용되고 있는 반면 프로세스 마이닝은 다른 나라에 비해 국내에서 비교적 생소한 방법론입니다. 하지만 이런 인식의 차이가 두 방법론의 우열을 의미하는 것은 아닙니다. 앞서 설명한 바와 같이 프로세스 마이닝과 데이터 마이닝은 데이터를 분석하는데 있어서 서로 다른 관점을 제시합니다.

본 글에서는 기존의 데이터 마이닝만으로 풀기 어려웠던 문제에 프로세스 마이닝 관점을 적용했을 때 얻을 수 있는 이점과 두 방법론이 상보적 관계로 발전되었을 때 얻을 수 있는 이점에 대해 이야기해보고자 합니다.

첫째, 고객 세분화를 통해 타겟 고객을 정하여 유사고객에게 동일한 서비스를 제공하는 것입니다.

데이터 마이닝 기법 중 하나인 “군집분석” 방법은 각 그룹의 중심을 선정하여 거리계산을 통해 여러 그룹으로 세분화하는 방법입니다. 그러나 실제로 타겟 고객의 평균치에 만족하는 고객은 현실에 존재하지 않습니다. 따라서, 기업은 방대한 데이터를 분석하기 보다 각각의 고객을 대상으로 니즈에 집중하는 것이 더 효과적이라는 분석 결과가 있습니다.

프로세스 마이닝은 고객에 대한 전체 프로세스를 분석하며 각각의 고객 성향 및 패턴을 더 상세하게 알아볼 수 있습니다. 또한 최근에 프로세스 마이닝 전문 솔루션인 “ProDiscovery”에서 새롭게 개발된 “Pattern Based Map” 퍼즐을 활용한다면 보다 쉽게 같은 패턴의 고객을 세분화할 수 있습니다. 이를 활용한다면 세분화된 고객들의 병목구간을 발견하여 최적의 루트를 제공할 수 있으며, 보다 쉽게 고객의 니즈에 집중하여 효과적인 마케팅 결과를 얻을 수 있습니다.

둘째, 고객은 자신이 무엇을 원하는지 잘 모르는 경우가 많습니다.

여러 분야에서 데이터 마이닝은 고객의 소리 등을 통해 고객의 불만이나 요구사항들을 분석하여 제품 또는 서비스 일부를 개선할 수 있습니다. 하지만 특정 이벤트를 통해 분석하기 때문에 시대의 트랜드에 맞게 전략을 세우기에 다소 부족한 면이 존재합니다. 프로세스 마이닝은 프로세스 자체를 분석하는 것이기 때문에 시간의 흐름에 따라 고객의 어떤 행동을 취했는지, 어떤 것을 검색했는지 등 다양한 이벤트 로그 데이터를 분석합니다. 즉, 시간의 흐름에 따라 변화하는 고객들의 특성을 종합하여 고객이 실제로 원하는 것이 무엇인지 상세히 알 수 있고 트랜드를 빠르게 파악하여 마케팅 전략을 세워 신제품을 기획하는데 있어 더 좋은 효과를 보일 수 있습니다.

셋째, 데이터 분석을 통해 프로세스를 개선하는데 한계가 존재합니다.

이는 프로세스 마이닝과 데이터 마이닝 모두 동일하게 일어나는 문제입니다. 데이터 마이닝은 대체적으로 데이터에서 어떤 변수들이 유의한지, 유의한 변수들로 모델을 구축했을 때 어떤 결과가 나오는지 예측하게 됩니다. 반면 프로세스 마이닝은 전체 프로세스를 분석하여 효율성을 극대화하기 위해 개선 및 발전을 목표로 가지고 있습니다.

데이터 마이닝은 예측에 강한 성질을 가지고 있지만 각 변수 속에 포함되어 있는 값들의 생성 과정 혹은 의미를 정확히 판별하는데 어려움이 있어 프로세스를 개선하는데 한계가 존재합니다. 반면 프로세스 마이닝은 변수들의 패턴이나 과정을 상세하게 파악할 수 있지만 특정 패턴을 가진 고객이 어떤 결과를 초래할지 예측하는데 다소 어려움이 존재합니다.

이를 해결하기 위한 방안으로 예를 통해 설명 드리겠습니다. 서비스 업종에서 데이터를 통해 고객의 탈퇴여부를 분석하는 것은 탈퇴 원인을 파악하기 위함도 있지만 궁극적인 목표는 탈퇴하려는 고객의 마음을 사로잡아 다시 정상적으로 활동하도록 관리하기 위함입니다. 데이터 마이닝 기법을 활용하여 서비스 업종에서 고객의 탈퇴여부에 대해 분석 및 예측했지만 탈퇴 고객들의 상세 패턴을 통해 원인을 파악하기는 어렵습니다. 이 경우 프로세스 마이닝을 이용한다면 프로세스 맵 등 시각적으로 고객들의 상세한 행동 패턴을 분석할 수 있으며, 또한 정상적인 고객과 탈퇴고객을 다소 쉽게 비교 분석이 가능합니다. 즉, 이처럼 프로세스 마이닝과 데이터 마이닝을 상보적 관계로 활용한다면 부족한 결과에 밑거름을 통한 양질의 결과로 프로세스를 개선 및 발전시켜 나갈 수 있다는 것입니다.

결과적으로, 프로세스 마이닝과 데이터 마이닝은 서로가 가지는 문제들을 보완/해결하기위해 상보적인 관계로 나아간다면 지금까지 연구에서 다소 부족했던 결과를 개선 및 성장시킬 수 있을 것입니다.

이 글에서 데이터 분석을 하는데 있어 해결하기 어려웠던 문제점에 대해 살펴보았고 이에 대한 해결 방안으로 프로세스 마이닝을 소개하였습니다. 글만 보았을 때 데이터 마이닝에 비해 프로세스 마이닝이 더 뛰어나다고 생각할 수 있지만 프로세스 마이닝만으로 해결하기 힘든 많은 문제점들이 존재합니다. 이 글을 읽는 사람들의 오해가 없길 바라며, 이 글은 다소 주관적인 경험과 생각이 담겨있음을 주의하시길 바랍니다. 또한, 데이터 마이닝과 프로세스 마이닝 외에도 여러 방법론들이 존재하며 이들 또한 완벽하지 않고 완벽할 수도 없습니다. 데이터 분석가로서 우리는 여러 문제점들을 직면하고 이런 문제들을 해결하기 위해 끊임없이 노력해야 합니다. 비록 주관적으로 프로세스 마이닝을 앞세웠지만 소개 드린 것뿐만 아니라 다양한 문제들에 대한 의견과 토론을 통해 보완 방법 혹은 해결 방법을 제시할 수 있는 토론의 장이 되길 바랍니다.


[참고자료]

1. https://www.coursera.org/learn/process-mining Process Mining: Data Science in Action

2. http://www.2e.co.kr/hp/pages/share/ShareView.php?modsrl=621&docsrl=6788 데이터 마이닝 한계를 알아본다.