베이지안을 활용한 2018년 6월 13일 선거 예측

Purpose

  • “여론조사를 통한 선거예측은 신뢰할 수 있을까?”
  • Bayesian을 활용한 2018 지방선거 예측모델

Reference materials

  • Nate Silver(2013), The Signal and the Noise.
  • 뉴스타파의 ‘여론조사 정확성 평가’기사(https://newstapa.org/39527)
  • ‘2014 6.4 서울 시장 선거 결과예측’ 선행 분석 블로그(http://freesearch.pe.kr/archives/4086)

Method

  • R의 MCMCpack 함수(MCmultinomdirichlet) 사용

Analysis Process

  • Test Analysis: 2014 서울시장 선거, 2014 부산시장 선거
  • Application Analysis: 2018 경기도지사 선거, 2018 경남지사 선거
  • Analysis Result

Test Analysis

2014 서울시장 선거(박원순 vs 정몽준)
  • 분석 자료: ‘2014 6.4 서울 시장 선거 결과예측’ 선행 분석 깃허브
  • 여론조사 기간: 2014년 3월 24일부터 5월 28일까지 총 31건의 여론조사 결과
  • Prior: 선거 여론조사 시작 전 정당지지도, 2014년 5월 1주차 정당지지도(여당 39%, 제1야당 23%, 기타 3%, 없음 33%)
  • Weight: 선거일 기준 ‘7/(선거일 – 현재일수)’ 계산, 선거일을 1로 하고, 앞서 실시된 여론조사의 가중치는 7/10, 7/12 등의 형식

2014 Seoul

  • 빨간색 선은 각 실시된 여론조사의 결과로 계산된 지지율 차이
  • 파란색 선은 여론조사 결과 데이터를 바탕으로 베이지안을 활용한 지지율 차이
  • 검정색 선은 박원순 시장과 정몽준 후보의 지지율 차이 13%p 의미
  • 선거일이 다가올수록 베이지안을 이용한 파란색 점들이 빨간색 점들에 비해 더 검정색에 근접하다는 것을 확인가능

2014 부산시장 선거(서병수 vs 오거돈)

  • 분석자료: 중앙선거여론조사위원회 등록된 여론조사결과 수집
  • 여론조사 기간: 2014년 5월 17일부터 5월 28일까지 총 22건의 여론조사 결과
  • Prior: 선거 유세 시작 전 정당지지도 2014년 5월 1주차 정당지지도(여당 39%, 제1야당 23%, 기타 3%, 없음 33%)
  • Weight: 선거일 기준 ‘7/(선거일 – 현재일수)’ 계산

2014 Busan

  • 2014년 당시 오거돈 후보의 경우 표면적으로 무소속 후보이기 때문에 정당이 없다고 고려해 Prior 고려하지 않음
  • 검정색 선은 서병수 시장과 오거돈 후보의 지지율 차이 6%p 의미
  • 베이지안을 의미하는 파란색 점들이 여론조사 결과인 빨간색 선들보다 실제 지지율 차이에 근접한다는 사실 확인

Application Analysis

  • 가장 최근 발표된 6월 6일 여론조사 결과는 분석에서 제외

2018 경기도지사 지방선거(남경필 vs 이재명)

  • 분석자료: 중앙선거여론조사위원회 등록된 여론조사결과 수집, 각 여론조사 내용은 중앙선거여론조사심의위원회 홈페이지 참조
  • 여론조사 기간: 공천확정 전인 2018년 3월 30일부터 6월 2일까지 총 18건의 여론조사
  • Prior: 2018년 5월 1주차 정당지지도(더불어민주당 49%, 자유한국당 13%, 바른미래당 8%, 정의당 6%, 민주평화당 0.3%, 기타0%, 모름 25%)
  • Weight: 선거일 기준 ‘7/(선거일 – 현재일수)’ 계산

2018 Gyeonggi 1

2018 Gyeonggi 2

2018 Gyeonggi 3

  • 빨간색 선은 각 실시된 여론조사의 지지율 차이로 시간이 지나면서 이재명 후보와 남경필 후보의 지지율 격차가 좁혀지고 있다는 것을 확인
  • 파란색 선은 여론조사 정보를 반영하는 베이지안의 지지율 차이 결과로 시간이 지나면서 완만한 기울기를 보임

2018 경남지사 지방선거(김경수 vs 김태호)

  • 분석자료: 중앙선거여론조사위원회 등록된 여론조사결과 수집, 각 여론조사 내용은 중앙선거여론조사심의위원회 홈페이지 참조
  • 기간: 2018.04.13~2018.06.04
  • 여론조사 수: 총 27건
  • R 프로그램 및 MCMCpack의 함수(MCmultinomdirichlet) 사용
  • Prior: 2018년 5월 1주차 정당지지도(더불어민주당 49%, 자유한국당 13%, 바른미래당 8%, 정의당 6%, 민주평화당 0.3%, 기타0%, 모름 25%)
  • Weight: 선거일 기준 ‘7/(선거일 – 현재일수)’ 계산

2018 Gyeongnam 1
2018 Gyeongnam 2
2018 Gyeongnam 3


  • 여론조사가 실시되기 전 여론조사 결과의 격차는 크지 않았지만, 시간이 흐를수록 두 후보자의 여론조사 지지율 격차는 커지고 있음
  • 빨간색 선은 여론조사 지지율 격차를 보여주는 빨간색 선과 베이지안의 지지율 격차를 보여주는 파란색 선의 추이는 비슷한 형태를 보임
  • 흥미로운 지점은 6월 4일 조사한 여론조사 결과. 조원씨앤아이가 조사한 여론조사 결과에서는 두 후보자의 지지율 격차는 8.4%p로 그 차이가 많이 좁혀 졌으나, 베이지안은 두 후보자의 지지율 격차가 과거 여론조사 지지율 격차와 큰 차이가 없음을 설명하고 있음

Analysis Result

  • 2018 지방선거 결과을 바탕으로 예측 모델의 정확도 확인
  • 선거예측 모델 가운데 only wieght 모델과 실제 선거 결과 비교

2018 경기도지사 지방선거 결과

2018 Gyeonggi 4 2018 Gyeonggi 4

  • 2018 경기도지사 지방선거에서는 이재명 후보가 56.40%, 남경필 후보가 35.51%의 지지를 받았으며, 지지율 격차는 파란색 점선으로 표시 아 로 파란색 점선으로 표시
  • 실제 지지율 격차를 설명하는 파란색 점선에 여론조사 결과가 베이지안보다 근소하게 비슷한 것을 확인할 수 있음
  • weight만을 준 베이지안 선거예측 모델의 확률은 5%(0.3033918), 95%(0.3524825)였으나, 두 후보자의 실제 선거 지지율 격차는 20.89%p로 나타나 약간의 차이 보임

2018 경남지사 지방선거 결과

2018 Gyeongnam 4 2018 Gyeonggi 4

  • 2018 경남지사 지방선거에서는 김경수 후보가 52.81%, 김태호 후보가 42.95%의 지지를 받아 김경수 후보가 당선되었으며, 지지율 격차는 파란색 점선으로 표시
  • 경남지사 선거 결과에서는 베이지안보다 여론조사 결과가 더 실제 결과에 근접
  • weight만을 준 베이지안 선거예측 모델의 확률은 5%(0.1734036), 95%(0.21532491)이지만, 두 후보자의 실제 선거 지지율 격차는 0.099%p로 큰 차이를 보임

Conclusion

  • 분석을 종합적으로 살펴보면, Bayesian을 활용한 2018 지방선거 예측모델이 여론조사 결과보다 실제 선거 결과와 차이를 보인다는 것을 확인할 수 있음. 이러한 차이를 보인 이유로는 우선 여론조사를 공표할 수 없는 선거 기간 동안 후보자들을 둘러싼 다양한 사건들이 발생되었기 때문이라고 예상해볼 수 있음. 선거 일주일 전부터 더욱 강화된 다양한 스캔들로 후보자들에 대한 지지율이 큰 변동을 한 것을 생각해 볼 수 있음. 또한 베이지안은 smoothing + 사전 정보 종합의 결과인데, 이번 2018년 경기도지사와 경남지사 선거에서는 2014년 선거에 비해 smoothing하는 효과가 적었던 것으로 판단됨.

  • 이번 예측모델 분석을 통해 다음의 생각을 함
    1. 하나의 선거 예측 모델이 가능한가? prior과 weight에 따라 예측 결과가 조금씩 차이를 보이기 때문에 한 가지의 선거 예측 모델만을 사용하는 것은 위험하다는 결론
    2. prior을 어떻게 얼마나 줄 것인가? 우리는 선거 전 모델에서는 prior을 정당 지지율로 적용했지만, 그 정도를 하나의 여론조사 결과처럼 해석할 수 있는지에 대한 물음표가 생김. 우선 최종 분석 모델에서는 prior이 확실하지 않으면 사용하지 않는 것이 좋다고 판단해 무정보로 모델을 설정했으나 관련 내용에 대한 연구를 통해 prior의 역할을 정교화할 필요성을 느낌.
    3. weight을 어떻게 취급할 것인가? 우리의 예측 모델에서는 선거일과 가까울수록 높은 weight을 주었다. weight를 주지 않고 각 여론조사 결과들을 하나의 완전한 여론조사 결과로 취급해야 하는지 이번 분석모델처럼 맨 마지막에 공표된 여론조사 결과만을 동일한 효과로 취급해야 하는지에 대한 부분에 대해서도 관련 사전 정보 습득이 필요해보임
  • 이번 선거 예측 분석을 통해 우리는 베이지안(Bayesian)이 여론조사들의 정보들을 종합적으로 반영한다는 것을 알게됨.베이지안 방법론을 적용하면 개별 여론조사 결과뿐 아니라 앞서 실시된 여론조사들을 누적해 실시 간으로 종합된 여론조사 결과를 파악할 수 있다는 것임. 이러한 여론조사 결과를 하나하나 독립 된 것으로 보지 않고 여러 가지 여론조사의 결과들을 반영해서 업데이트를 하는 베이지안의 특성은 현재 논란이 되고 있는 ‘여론조사’들의 편향성 문제를 완화시키는 효과가 있을 것으로 보임.

  • 실제 분석 결과에서는 2014년 예측모델에 비해서 차이를 보였지만, 우리가 오늘 할 수 있는 최선의 예측을 했다는 측면에서 의의가 있음.