사이드바 영역으로 건너뛰기

230만명 vs 1500명, 더 정확한 조사는? [제 743 호/2008-04-09]

오늘은 제18대 국회의원선거 투표 날이다. 독자의 지역에는 어떤 후보가 당선될까. 한두 달 전부터 텔레비전과 신문 등에서 발표한 여론조사 결과에서 가장 앞섰던 후보가 당선됐을까, 아니면 2위나 3위였던 후보가 역전했을까. 과연 여론조사는 믿을만한 것일까.

1936년 미국 대통령선거 당시 인기잡지인 ‘리터러리 다이제스트’는 미국의 전화가입자와 자동차 소유자 1천만 명에게 우편엽서를 발송해, 236만 명에게서 답변을 받는 지상투표식 조사를 시행했다. 이를 통해 리터러리 다이제스트는 랜던 57%, 루스벨트 43%로 랜던의 우위를 예측했다. 반면 갤럽은 미국 전역의 유권자 중 할당추출법으로 1,500명을 추출해 이들을 대상으로 면접조사를 시행했다. 이를 토대로 갤럽은 랜던 44%, 루스벨트 56%를 예측했다. 개표 결과는 38% 대 62%로 루스벨트가 당선됐다.

‘리터러리 다이제스트’는 236만 명으로 표본 수는 많았지만 표본이 모집단과 비슷해야 하는 표본의 대표성을 갖추지 못했고, 갤럽은 1500명으로 표본 수는 적었지만 상대적으로 표본의 대표성이 뛰어났던 셈이다. 이후 여론조사는 학문, 산업, 정치 등 안 쓰이는 분야가 없을 정도로 널리 사용되고 있다.

10만명의 유권자(모집단)가 있는 가상의 선거구에서 500명을 대상으로 여론조사를 시행해보자. 먼저 질문지를 작성한다. ‘다음 중 지지하는 후보는 누구입니까? ①홍길동 ②이산 ③김철수’ 다음으로 여론조사 기관이 보유한 해당 지역 5만명의 전화번호부를 활용해 전화조사에 들어간다. 10만명에 대한 전화번호가 있으면 가장 이상적이나 전화가 없는 사람, 있으나 번호 공개를 거부한 사람 등 여러 가지 이유로 제한된 일부만 등록돼 있다. 이때 5만명 모두에게 전화를 하려면 비용이 많이 드는 등의 한계가 있으므로 이 중에 지역의 성별, 나이, 직업 등의 분포도와 근사한 3000명 정도를 비례할당 방법으로 추출한다.

이제 수십명의 조사담당자들에게 이것을 나눠준 뒤 한 명당 수십명의 응답을 받도록 한다. 조사 대상이 전화를 받지 않으면 부재에, 전화를 받았으나 응답을 거부하면 거부에 표시한다. 이렇게 진행해 500명까지는 꼭 답변을 받는다.

조사를 통해 다음과 같은 결과가 나왔다. ‘①홍길동 35%, 이산 28%, 김철수 10%, 무응답 또는 모름 27% ②유권자 500명 전화조사, 응답률 20% ③95% 신뢰수준에 표본오차 ±4.4%p.’ 최근 신문을 보면 여론조사 결과에 이와 비슷한 내용이 제시된다. 복잡하기만 한 이 숫자에는 통계적으로 여론조사 결과의 적절성을 알 수 있는 내용이 담겨있다.

①은 후보자별 득표율이다. ②에서 ‘응답률 20%’는 2500명에게 전화를 걸어 이 중 20%인 500명에게서 답변을 받았다는 뜻이다. ③에서 ‘95% 신뢰수준’은 이 조사를 100번 시도했을 때 95번은 비슷한 결과가 나오며, ‘표본오차 ±4.4%p’는 후보자 간 득표율 차이가 8.8%포인트 정도는 넘어야 둘 사이에 차이가 있다고 볼 수 있다는 의미다.

여기서 홍길동과 이산 후보는 둘 간의 차이가 7%포인트로 우열 관계가 성립되지 않는다. 즉 통계적으로 오차안의 범위에 있기 때문에 홍길동이 앞서고 있다거나 이산이 뒤지고 있다고 볼 수 없다. 다시 조사하면 달라질 수 있기 때문이다. 표본오차는 이처럼 다시 시행했을 때 달라질 수 있는 범위를 의미한다고 보면 된다. 이때 표본의 수를 늘려 표본오차 범위를 ±3.2%로 줄였는데도 같은 비율이 나왔다면 두 후보 간에 우열이 성립된다고 말할 수 있다.

우리나라의 여론조사는 종종 신뢰를 떨어뜨리는 예측 결과를 내놨다. 1988년 제1야당 예측 실패, 1996년 여당의 과반수 붕괴 예측 실패, 2004년 국회의원선거 출구조사 예측 실패 등이 대표적인 사례다. 왜 우리나라 여론조사 기관은 예측에 실패했을까.

여론조사는 전수조사를 하지 않는 이상 표본의 수보다는 표본을 어떻게 추출하느냐가 더 중요하다. 미국 등의 여론조사 기관에서는 무작위로 표본을 추출해 조사한 다음 전체 모집단과 비교해 지역과 성, 연령 등의 비율을 맞춰 조정하는 방식을 사용한다. 하지만, 무작위 추출을 하려면 사용되는 조사에 사용되는 표본의 분포가 모집단의 분포와 비슷해야 한다.

그런데 여론조사 관계자에 따르면 주로 가정집 전화로 조사를 진행하는 우리나라는 20대 남성 등 젊은 층의 전화가입자가 적거나 통화가 쉽지 않아 무작위 추출 방법으로는 모집단과 비슷하게 조사하는 것 자체가 불가능에 가깝다고 한다. 그래서 많은 여론조사 기관은 모집단이 가지는 지역과 성, 연령별 비율을 고려한 비례할당 추출 방법을 이용한다. 이 방법은 비용과 시간 등을 고려할 때 가장 효과적이긴 하지만 전문가들은 학문적인 관점에서 표본 추출시 어느 한쪽에 치우칠 수 있다는 이유 등으로 선호하지 않는 방법이다.

특히 국내에서 시도하는 가정집 전화 할당추출방식은 ①전체에서 57%만 전화를 걸 때 사용하는 표본이 되는 전화번호부에 등재돼 있고 ②끝까지 답변하는 응답률이 20% 내외로 낮으며 ③응답하지 않는 약 80% 중 절반은 전화를 받긴 했으나 답변을 거절한 사람일 정도로 많으며 ④ 끝까지 답변한 사람 중 주부가 30%를 차지할 정도로 주부의 비율이 높다는 한계를 가지고 있다. 선진국에서는 응답률이 30%이하면 조사 결과를 버리는데 우리는 10%대의 값도 사용한다.

그러나 이런 문제만 있는 것은 아니다. 표본이 모집단을 완벽하게 대변할 수 없어서 여론조사에서는 다양한 변수를 사용한다. 특히 선거 관련 조사에서는 출신지역, 성별, 학력, 투표율 등을 주요한 변수로 활용한다. 여론조사는 표본뿐 아니라 질문 문구와 시기 등 여러 가지 변수가 예측과 신뢰성에 영향을 준다. 여론조사가 한계 표본 내에서 정확한 예측을 하려면 다양한 변수를 충분히 고려해 정확하게 설계돼야 한다.

독자 모두가 나라와 지역 발전에 진정 도움이 되는 후보를 선택했길 바라며, 또한 그 후보가 당선됐으면 하는 바람을 가진다. 또 개표 방송을 볼 때 여론조사와 비교해보길 권한다.(글:박응서 과학칼럼니스트)
진보블로그 공감 버튼트위터로 리트윗하기페이스북에 공유하기딜리셔스에 북마크