앉은 자리에서 세상을 알려주는 통쾌한 통계

안녕하십니까? 경북대신문에서는 통계에 대한 기본적인 지식과 기법을 소개해 학생들에게 도움이 되고자 아래와 같이 간단한 기사를 실었사오니 꼼꼼히 읽어보시고 마음껏 활용해주시기 바랍니다. 본 기사는 통계에 대한 안내 이외의 목적으로는 사용되지 않습니다.

통계 속의 변인

통계는 어떤 현상에 대해 자료를 수집하고 분석, 정리, 해석하여 의미를 도출해 내는 과정이다. 여기서 말하는 현상은 주로 변인과 변인 간의 관계로 구성된다. 예를 들어 ‘날씨가 고백의 성공에 미치는 영향’은 ‘날씨’라는 변인과 ‘고백의 성공’이라는 변인의 관계로 구성돼있다. 여기서 변인은 상호배타적인 속성들의 집합이라고 정의할 수 있다. ‘날씨’는 맑은 날, 비오는 날, 흐린 날, 눈 오는 날 등의 서로 다른 속성들이 모인 집합이다. 이러한 변인은 변인 간의 관계에 따라 독립변인, 종속변인, 중개변인, 가외변인으로 구분된다. 여름이는 이달이 가기 전에 태하에게 고백하려 한다. 그런데 여름이는 과거 경험을 통해 고백이 성공하는 데는 그날의 날씨가 결정적인 역할을 할 것이라 믿고 있다. 이때 여름이에게 날씨는 고백의 성공을 결정짓는 독립변인이 되고 고백이 받아들여질지는 종속변인이 된다. 그런데 친구 준호가 여름이에게 날씨가 좋으면 태하의 기분이 좋아서 고백을 받아주는 거라고 귀뜸 해줬다. 그러자 솔이도 여름이에게 날씨 좋은 날 이쁘게 화장을 하고 가면 고백이 더 성공할 것이라며 알려줬다. 하지만 날씨가 좋아도 민낯으로 고백하면 힘겹게 성공할 것이라고 했다. 그래도 비오는 날은 화장을 아무리 이쁘게 해도 고백에 성공하지 못 할 거라며 당부했다. 여기서 준호가 알려준 ‘태하의 기분’은 매개변인이고 솔이가 알려준 ‘화장’은 조절변인이 된다. 여름이가 처음 계획했던 대로 날씨 좋은날 고백하는 것 보다 준호와 솔이의 말대로 날씨 좋은 날 이쁜 화장을 하고 태하를 즐겁게 해준 뒤 고백하는 것이 더 효과적일 것이다. 중개변인이 더해져 고백에 성공하는 방법을 폭넓게 알 수 있었다. 하지만 안타깝게도 여름이는 태하에게 거절당했다. 여름이가 태하의 컨디션을 고려하지 못하고 짜증이 난 태하에게 고백해 버린 것이다. 그렇게 여름이는 앞으로는 컨디션과 같은 가외변인을 관리해야겠다며 다음 기회를 다짐했다. 하지만 여름이가 주변에 있는 많은 남자에게 날씨 좋은 날 고백한다면 성공할 확률이 아주 높다. 연구 대상을 무작위로 선정하면 가외변인의 영향력이 줄어들기 때문이다.

변인을 재자, 측정

변인 간의 관계를 파악하기 위해서는 변인을 수치화하여 측정해야 한다. 예컨대 ‘날씨와 고백 성공률’의 상관관계를 찾기 위해서는 우선 ‘날씨’와 ‘고백 성공률’을 객관적 수치로 변환해야 한다. 측정은 우선적으로 변인에 대한 개념적 정의를 내리고, 그 개념에 대한 조작적 정의를 한다. 그 후 측정 척도를 마련하여 측정하는 일련의 과정으로 이어진다. 여기서 변인에 대한 ‘개념적 정의’란 변인의 특징을 다양한 개념들로 구체적으로 묘사하는 것을 의미한다. 예를 들어, ‘고백 성공률’에 대한 개념적 정의는 ‘좋아하는 상대에게 마음을 고백하였을 때 상대가 받아들여 두 사람의 관계가 연인관계로 발전할 가능성’으로 정의 내릴 수 있다. ‘고백 성공률’에 대한 개념적 이해가 이루어졌다면, 이제 이 추상적인 개념을 측정가능한 데이터로 전환시켜야 한다. 이때 ‘어떻게 측정할 것’인지 객관적 판단 지표를 설정하는 것을 ‘조작적 정의’라 한다. ‘고백 성공률’을 조작적으로 정의해 보자. 고백을 받은 사람에게 ‘고백을 받은 후 상대에 대한 호감도’를 물어 ‘호감이다(3점)’, ‘그저 그렇다(2점)’, ‘비호감이다(1점)’의 항목으로 답을 듣는 것으로 조작적으로 정의할 수 있다. 하지만 이러한 조작적 정의는 정의하는 사람에 따라 결과에 차이가 있어 신뢰도에 대한 검토가 필요하다.

조작적 정의는 측정 척도에 따라 다르게 측정된다. 측정 척도는 변인을 측정하는 도구로 명목척도, 서열척도, 등간척도, 비율척도가 있다.

특히 사회과학에서는 사회현상에 대한 사람들의 태도를 연구하는 경우가 많은데 이때 태도 측정 척도가 주로 사용된다. 많이 쓰이는 태도 측정 척도로 리커트 척도와 의미분별 척도가 있다. 리커트 척도는 대상에 대한 진술문을 제시하고 그에 동의하는 정도를 측정하는 방법이다.‘상대에 대한 호감도’를 측정할 때 ‘나는 상대에게 호감이 있다’는 진술문을 제시하고 ‘그렇다’, ‘보통이다’, ‘그렇지 않다’로 선택 항목을 제시하는 것은 리커트 척도에 해당한다.

의미분별 척도는 대상에 대한 대칭적인 묘사를 나열해 그 중 가장 적합한 설명을 선택하는 방법이다. ‘상대에 대해 어떻게 생각하나?’라는 질문에 ‘싫다’, ‘그저 그렇다’, ‘좋다’로 선택 항목을 제시하면 이는 의미분별 척도를 적용한 것이 된다.

통계의 기본, 기술통계

현상을 이루는 변인과 변인의 측정방법에 대해 알았으니 이제 보다 실전에 가까운 통계 지식을 통해 현상을 분석 연구해 보자.

어떤 현상을 이론으로 정립하려면 그 현상이 다수의 상황에서 발생함을 보여야한다. 이를 증명하는 방법으로 통계가 이용된다. 만약 ‘지능지수가 높으면 중간고사가 잘 나올까?’가 궁금하다고 하자. 이 궁금증의 답은 전 세계 사람들의 지능지수와 중간고사 성적 결과를 수집해 통계를 내어 둘 사이의 관계를 확인하는 것으로 구할 수 있다. 이때 활용되는 통계 분야가 기술 통계이다.

기술통계는 특정 현상에 대해 자료를 수집하고 이를 분석하여 평균, 표준편차, 중앙값 등의 특징을 뽑아내는 것이다. 기술통계 중 자주 이용되는 기법은 크게 중심경향치와 분산도 두 가지가 있다. 중심경향치에는 최빈값, 중앙값, 평균이 있다. 대체적으로 평균을 데이터 대푯값으로 삼지만 데이터에 극단치가 존재할 경우는 중앙값이 데이터의 성격을 더 잘 묘사 할 수 있다. 예를 들어 ‘한국 서민의 저축액’을 알기 위해서는 ‘한국 시민의 저축액 평균’이 아닌 ‘한국 시민의 저축액 중앙값’을 구해야 한다. 저축액 평균에는 재벌가들의 저축액도 포함돼 그 수치가 올라가 있기 때문이다. 분산도는 데이터들이 중심경향치를 중심으로 얼마나 퍼져 있는지를 파악하는 지수이다. 대표적으로는 편차(각 개별 데이터에 데이터의 평균값을 뺀)의 제곱의 평균인 분산이 있다. 분산이 클수록 데이터들이 넓게 퍼져 있다. 눈 내리는 날에 고백 성공률의 평균치와 분산을 내보니 평균값이 성공에 가깝고 분산이 낮다면 눈 내리는 날 고백했던 사람의 대부분이 성공했다는 것으로 당신은 지금부터 솔로 탈출을 위해 눈 내리는 날만 손꼽아 기다리면 된다.

숫자로 세상보기, 추리통계

이때 현상이 발견되는 대상의 집단을 모집단이라고 하는데 모집단의 크기가 클 경우 모집단에 대한 데이터 파악이 어렵다. 전 세계 사람의 고백의 순간을 아는 것은 불가능하다. 이럴 경우 모집단 중 표본을 뽑아 그 표본에 대한 통계치를 통해 모집단의 통계치를 역추론한다. 이러한 통계를 추리통계라고 부른다. ‘성인 남녀 500명을 대상으로 눈 내리는 날 고백하여 성공한 경험이 있는지에 대해 조사한 결과’라는 말은 곧 표본조사를 실시했다는 뜻이다. 이제 이 표본집단의 평균과 분산을 가지고 모집단의 평균을 추론하면 ‘전 세계 사람의 경우’를 알 수 있다. 물론, 비확률적 표집에 따른 표집오차가 발생한다. 전 세계 사람 중 눈 내리는 날 고백해 차인 사람들만 모아 표본을 만들었을 경우도 있기 때문이다. 하지만 그래도 통계는 소수의 사례만으로도 보편적 이론을 확인할 수 있는 유용한 수단이다.

참고 문헌

『만화로 쉽게 배우는 통계학』(Shin Takahashi)

『SPSS를 이용한 사회과학통계』(이명천, 김요한)

이보라 기자 lbr13@knu.ac.kr

다른기사 보기