베이지안을 활용한 2018년 6월 13일 선거 예측
Purpose
- “여론조사를 통한 선거예측은 신뢰할 수 있을까?”
- Bayesian을 활용한 2018 지방선거 예측모델
Reference materials
- Nate Silver(2013), The Signal and the Noise.
- 뉴스타파의 ‘여론조사 정확성 평가’기사(https://newstapa.org/39527)
- ‘2014 6.4 서울 시장 선거 결과예측’ 선행 분석 블로그(http://freesearch.pe.kr/archives/4086)
Method
- R의 MCMCpack 함수(MCmultinomdirichlet) 사용
Analysis Process
- Test Analysis: 2014 서울시장 선거, 2014 부산시장 선거
- Application Analysis: 2018 경기도지사 선거, 2018 경남지사 선거
- Analysis Result
Test Analysis
2014 서울시장 선거(박원순 vs 정몽준)
- 분석 자료: ‘2014 6.4 서울 시장 선거 결과예측’ 선행 분석 깃허브
- 여론조사 기간: 2014년 3월 24일부터 5월 28일까지 총 31건의 여론조사 결과
- Prior: 선거 여론조사 시작 전 정당지지도, 2014년 5월 1주차 정당지지도(여당 39%, 제1야당 23%, 기타 3%, 없음 33%)
- Weight: 선거일 기준 ‘7/(선거일 – 현재일수)’ 계산, 선거일을 1로 하고, 앞서 실시된 여론조사의 가중치는 7/10, 7/12 등의 형식

- 빨간색 선은 각 실시된 여론조사의 결과로 계산된 지지율 차이
- 파란색 선은 여론조사 결과 데이터를 바탕으로 베이지안을 활용한 지지율 차이
- 검정색 선은 박원순 시장과 정몽준 후보의 지지율 차이 13%p 의미
- 선거일이 다가올수록 베이지안을 이용한 파란색 점들이 빨간색 점들에 비해 더 검정색에 근접하다는 것을 확인가능
2014 부산시장 선거(서병수 vs 오거돈)
- 분석자료: 중앙선거여론조사위원회 등록된 여론조사결과 수집
- 여론조사 기간: 2014년 5월 17일부터 5월 28일까지 총 22건의 여론조사 결과
- Prior: 선거 유세 시작 전 정당지지도 2014년 5월 1주차 정당지지도(여당 39%, 제1야당 23%, 기타 3%, 없음 33%)
- Weight: 선거일 기준 ‘7/(선거일 – 현재일수)’ 계산

- 2014년 당시 오거돈 후보의 경우 표면적으로 무소속 후보이기 때문에 정당이 없다고 고려해 Prior 고려하지 않음
- 검정색 선은 서병수 시장과 오거돈 후보의 지지율 차이 6%p 의미
- 베이지안을 의미하는 파란색 점들이 여론조사 결과인 빨간색 선들보다 실제 지지율 차이에 근접한다는 사실 확인
Application Analysis
- 가장 최근 발표된 6월 6일 여론조사 결과는 분석에서 제외
2018 경기도지사 지방선거(남경필 vs 이재명)
- 분석자료: 중앙선거여론조사위원회 등록된 여론조사결과 수집, 각 여론조사 내용은 중앙선거여론조사심의위원회 홈페이지 참조
- 여론조사 기간: 공천확정 전인 2018년 3월 30일부터 6월 2일까지 총 18건의 여론조사
- Prior: 2018년 5월 1주차 정당지지도(더불어민주당 49%, 자유한국당 13%, 바른미래당 8%, 정의당 6%, 민주평화당 0.3%, 기타0%, 모름 25%)
- Weight: 선거일 기준 ‘7/(선거일 – 현재일수)’ 계산
- 빨간색 선은 각 실시된 여론조사의 지지율 차이로 시간이 지나면서 이재명 후보와 남경필 후보의 지지율 격차가 좁혀지고 있다는 것을 확인
- 파란색 선은 여론조사 정보를 반영하는 베이지안의 지지율 차이 결과로 시간이 지나면서 완만한 기울기를 보임
2018 경남지사 지방선거(김경수 vs 김태호)
- 분석자료: 중앙선거여론조사위원회 등록된 여론조사결과 수집, 각 여론조사 내용은 중앙선거여론조사심의위원회 홈페이지 참조
- 기간: 2018.04.13~2018.06.04
- 여론조사 수: 총 27건
- R 프로그램 및 MCMCpack의 함수(MCmultinomdirichlet) 사용
- Prior: 2018년 5월 1주차 정당지지도(더불어민주당 49%, 자유한국당 13%, 바른미래당 8%, 정의당 6%, 민주평화당 0.3%, 기타0%, 모름 25%)
- Weight: 선거일 기준 ‘7/(선거일 – 현재일수)’ 계산

- 여론조사가 실시되기 전 여론조사 결과의 격차는 크지 않았지만, 시간이 흐를수록 두 후보자의 여론조사 지지율 격차는 커지고 있음
- 빨간색 선은 여론조사 지지율 격차를 보여주는 빨간색 선과 베이지안의 지지율 격차를 보여주는 파란색 선의 추이는 비슷한 형태를 보임
- 흥미로운 지점은 6월 4일 조사한 여론조사 결과. 조원씨앤아이가 조사한 여론조사 결과에서는 두 후보자의 지지율 격차는 8.4%p로 그 차이가 많이 좁혀 졌으나, 베이지안은 두 후보자의 지지율 격차가 과거 여론조사 지지율 격차와 큰 차이가 없음을 설명하고 있음
Analysis Result
- 2018 지방선거 결과을 바탕으로 예측 모델의 정확도 확인
- 선거예측 모델 가운데 only wieght 모델과 실제 선거 결과 비교
2018 경기도지사 지방선거 결과

- 2018 경기도지사 지방선거에서는 이재명 후보가 56.40%, 남경필 후보가 35.51%의 지지를 받았으며, 지지율 격차는 파란색 점선으로 표시 아 로 파란색 점선으로 표시
- 실제 지지율 격차를 설명하는 파란색 점선에 여론조사 결과가 베이지안보다 근소하게 비슷한 것을 확인할 수 있음
- weight만을 준 베이지안 선거예측 모델의 확률은 5%(0.3033918), 95%(0.3524825)였으나, 두 후보자의 실제 선거 지지율 격차는 20.89%p로 나타나 약간의 차이 보임
2018 경남지사 지방선거 결과

- 2018 경남지사 지방선거에서는 김경수 후보가 52.81%, 김태호 후보가 42.95%의 지지를 받아 김경수 후보가 당선되었으며, 지지율 격차는 파란색 점선으로 표시
- 경남지사 선거 결과에서는 베이지안보다 여론조사 결과가 더 실제 결과에 근접
- weight만을 준 베이지안 선거예측 모델의 확률은 5%(0.1734036), 95%(0.21532491)이지만, 두 후보자의 실제 선거 지지율 격차는 0.099%p로 큰 차이를 보임
Conclusion
-
분석을 종합적으로 살펴보면, Bayesian을 활용한 2018 지방선거 예측모델이 여론조사 결과보다 실제 선거 결과와 차이를 보인다는 것을 확인할 수 있음. 이러한 차이를 보인 이유로는 우선 여론조사를 공표할 수 없는 선거 기간 동안 후보자들을 둘러싼 다양한 사건들이 발생되었기 때문이라고 예상해볼 수 있음. 선거 일주일 전부터 더욱 강화된 다양한 스캔들로 후보자들에 대한 지지율이 큰 변동을 한 것을 생각해 볼 수 있음. 또한 베이지안은 smoothing + 사전 정보 종합의 결과인데, 이번 2018년 경기도지사와 경남지사 선거에서는 2014년 선거에 비해 smoothing하는 효과가 적었던 것으로 판단됨.
- 이번 예측모델 분석을 통해 다음의 생각을 함
- 하나의 선거 예측 모델이 가능한가? prior과 weight에 따라 예측 결과가 조금씩 차이를 보이기 때문에 한 가지의 선거 예측 모델만을 사용하는 것은 위험하다는 결론
- prior을 어떻게 얼마나 줄 것인가? 우리는 선거 전 모델에서는 prior을 정당 지지율로 적용했지만, 그 정도를 하나의 여론조사 결과처럼 해석할 수 있는지에 대한 물음표가 생김. 우선 최종 분석 모델에서는 prior이 확실하지 않으면 사용하지 않는 것이 좋다고 판단해 무정보로 모델을 설정했으나 관련 내용에 대한 연구를 통해 prior의 역할을 정교화할 필요성을 느낌.
- weight을 어떻게 취급할 것인가? 우리의 예측 모델에서는 선거일과 가까울수록 높은 weight을 주었다. weight를 주지 않고 각 여론조사 결과들을 하나의 완전한 여론조사 결과로 취급해야 하는지 이번 분석모델처럼 맨 마지막에 공표된 여론조사 결과만을 동일한 효과로 취급해야 하는지에 대한 부분에 대해서도 관련 사전 정보 습득이 필요해보임
-
이번 선거 예측 분석을 통해 우리는 베이지안(Bayesian)이 여론조사들의 정보들을 종합적으로 반영한다는 것을 알게됨.베이지안 방법론을 적용하면 개별 여론조사 결과뿐 아니라 앞서 실시된 여론조사들을 누적해 실시 간으로 종합된 여론조사 결과를 파악할 수 있다는 것임. 이러한 여론조사 결과를 하나하나 독립 된 것으로 보지 않고 여러 가지 여론조사의 결과들을 반영해서 업데이트를 하는 베이지안의 특성은 현재 논란이 되고 있는 ‘여론조사’들의 편향성 문제를 완화시키는 효과가 있을 것으로 보임.
- 실제 분석 결과에서는 2014년 예측모델에 비해서 차이를 보였지만, 우리가 오늘 할 수 있는 최선의 예측을 했다는 측면에서 의의가 있음.