본문 바로가기
유용한 지식 칼럼

평균, 중앙값, 최빈값 - 평균 연봉 발표가 엉터리인 이유

2015. 9. 10.

[평균, 중앙값, 최빈값 - 평균 연봉 발표가 엉터리인 이유] 




2014년의 우리나라 근로자의 평균 연봉이 3150만원이라는 정부 자료가 있습니다. 월급쟁이들은 이 통계를 보고 놀랄 수밖에 없습니다. 체감 월급과 너무나 차이가 나기 때문입니다. 

그 이유는 평균을 어떻게 구하냐에 있습니다. "보통"의 값을 구하는 방법에는 평균, 중앙값, 최빈값, 절단 평균, 가중 산술 평균 등이 있고 일반적으로 산술평균이라고 부릅니다. 이 외에 도형 등도 포함하여 사용되는 기하평균, 조화평균, 멱평균 등이 있으며, 평균이 얼마나 적정한가는 보기 위해 분산과 편차라는 것을 이용하기도 합니다. 





평균이라는 착각의 수학에 대하여 


연봉이 3150만원이라는 얘기는 월소득이 약 262만원이라는 뜻입니다. 그런데 실제로는, 대한민국은 소득의 양극화가 심하고 복지를 싫어하는 경향이 강해서 100~150만원을 받는 근로자가 훨씬 많습니다. 이렇게 실제와 다른 엉터리 통계가 나오는 이유는 최고소득자들의 연봉이 너무 높아서 전체 평균을 끌어올리기 때문입니다. 

또 다른 통계에서는 평균 연봉이 2276만원입니다. 월급여로 따지면 약 189만원입니다. 이렇게 차이가 나는 것은 무조건 전체를 대상으로 보느냐, 중간층을 평균의 대상으로 보느냐에 있습니다. 



(연봉과 평균 통계와의 차이. 고액자가 뻥튀기를 만드는 현실)


실제 근로자들의 평균은 100만원 대인데, 평균은 200만원 후반대가 나오는 예를 들면 이렇습니다. 월 100만원을 받는 봉급자가 9명이 있고 월 1000만원을 받는 봉급자가 1명이 있다면, 평균을 구할 때 다 더해서 10명이로 나누게 됩니다. 그런 방식으로 한 합산금액은 1천 900만원인데 이것을 10으로 나누면 월 190만원이 나옵니다. 이런 계산이면 9명의 봉급자에겐 황당한 결론이 됩니다. 거의 2배의 월급을 받는다는 계산이기 때문입니다. 

이렇게 구하는 보통의 평균은 학교 다닐 때 성적계산에 많이 사용합니다. 국어, 수학, 영어 등의 과목 점수를 합산해서 총 과목 수로 나누는 것입니다. 그러나 위의 두 방식에는 커다란 차이점이 있습니다. 성적평균은 최댓값이 100점이라는 동일한 기준이 있는데, 월급계산은 최댓값의 기준이 같지 않다는 문제점입니다. 



(변량에 월급을 넣는다면 평균연봉이 나온다)


평균값이 전체에서 어느 정도의 위치를 차지하느냐를 알아보기 위해서는 분산을 사용해 보기도 합니다. 분산이란 차이의 평균을 의미합니다. 구한 평균연봉과 봉급자들의 실제 연봉을 빼서 제곱한 후 더하는 것입니다. 이것을 총 명수로 다시 나누면, 평균과 실제 연봉들이 얼마나 차이가 나는지를 알 수 있습니다. 표준편차란 말도 있는데, 분산이 제곱한 것이라 숫자가 너무 크기 때문에 원래 값으로 줄여 놓은 것을 말합니다. 



(편차란 평균과의 차이가 어느 정도 나느냐는 말이다)


분산이나 표준편차를 계산한 값이 크다면 평균 연봉 자료가 비현실적으로 느껴집니다. 평균보다 너무 많이 받거나 너무 적게 받는 사람이 많다는 얘기이기 때문입니다. 

그 외에도 평균, 중앙값, 최빈값을 비교해서 현실을 파악할 수도 있습니다. 평균이 중앙값보다 너무 높다면 고소득자 때문에 통계가 변질되었다는 것을 알 수 있고, 최빈값이 중앙값보다 너무 낮다면 실질적으로는 평균보다도 못 버는 사람이 훨씬 더 많다는 것을 알 수 있습니다. 



(각각 평균을 뺀 편차를 제곱해서 더한 후 총도수로 나누는 것이 분산)



(분산을 구한 후 그냥 루트만 씌우면 표준편차)





평균, 중앙값, 최빈값의 상관 관계 


기댓값을 계산할 때 "기준"이 무엇인가는 매우 중요합니다. 그러므로 전체의 한가운데를 구하는 평균보다는 더 많은 사람이 존재하는 구간의 평균을 구하는 것이 합리적입니다. 그 방법으로 중앙값과 최빈값이란 것이 있습니다. 

중앙값은 말 그대로 그냥 중앙에 있는 사람을 평균으로 하겠다는 것입니다. 월급이 100만원인 사람 1명, 200만원인 사람 2명, 300만원인 사람 1명, 400만원인 사람이 1명일 때, 이 다섯 명을 금액순으로 줄을 세우면 한가운데에 200만원인 사람이 서게 됩니다. 

하지만 이것을 만약 평균 성적을 구하듯이 계산하면 240만원이 되서 평균이 올라갑니다. 전체에서 200만원 이하가 50%를 넘으므로 중앙값이 좀 더 현실적인 금액임을 알 수 있습니다. 



(계산할 필요없이 순서대로 세워 놓고 가운데 있는 값을 찾는 것이 중앙값)


최빈값이라는 것은 가장 많이 나오는 값을 기댓값으로 보는 방법입니다. 월급 100만원인 사람이 9명이고 월급 1억인 사람이 1명이라면 가장 보편적으로 받는 월급 평균은 100만원으로 봐야 합당합니다. 이걸 만약 평균성적 구하듯이 계산하면 약 1000만원이 평균이 되므로 최빈값으로 본 평균이 훨씬 현실적임을 알 수 있습니다. 이렇듯 "기준"은 매우 중요합니다. 

물론 모든 방법이 일률적일 수는 없으므로 구하려는 평균이 무엇인지를 생각한 후 방법을 선택해야 합니다. 예를 들어 성적의 경우엔 그냥 평균을 구하는 것이 더 정확하고, 가게를 운영하는 사람은 가장 많이 팔리는 최빈값을 평균으로 보는 게 합당합니다. 



(가장 많은 것 중에서 평균을 생각하는 것이 최빈값)


정리하자면, 그냥 평균은 "다 더해서 한 가운데 값"이고 중앙값은 "줄을 세웠을 때 한 가운데 값"이며 최빈값은 "가장 많이 나오는 값"이라고 생각하면 되겠습니다. 

성적이나 가게운영을 예로 들었지만, 평균을 구하고자 하는 대상이 일률적이면 그냥 평균이 더 정확하고, 사람 수나 범위의 차이가 심하면 중앙값 또는 최빈값이 더 정확합니다. 

소득신고가 되는 약 1600만명의 급여자들을 연봉 단위별로 구간을 정해보면, 연봉 1100만원~1800만원인 사람이 가장 많습니다. 이들의 평균연봉은 1450만원입니다. 즉 월급여가 약 120만원인 사람이 대한민국의 실제 평균이라는 것을 알게 되는데, 이 방법은 최빈값만을 대상으로 다시 평균을 구하는 것으로써 가장 근사치에 가깝다고 할 수 있겠습니다. 




진짜 평균을 찾는 여러가지 노력들 


평균을 구하는 다른 방법으로 절단평균, 가중 산술평균도 있습니다. 연봉이 1억인 사람 때문에 전체의 실제 평균연봉을 구하기 어려울 때는 1억 연봉자를 아예 제외하고 구하는 것이 절단평균입니다. 절단평균은 일부가 전체를 오해하게 만드는 상황일 때 좋은 방법입니다. 올림픽 등의 경기에서 특히 많이 사용하는데, 체조나 피겨스케이팅 같은 기술적 평가가 필요한 종목에 적용됩니다. 즉 가장 높은 점수를 준 심사위원과 가장 낮은 점수를 준 심사위원을 제외하고 평균을 다시 구하는 것입니다. 

가중 산술평균은 구간별로 따로 더한 뒤에 비중에 따라 곱해서 다시 평균을 구합니다. 예를 들어 키 173cm인 사람이 90%이고 키 190인 사람이 10%라면 173의 합 1557에 곱하기 0.9를 하고, 190 곱하기 0.1을 한 뒤 평균을 구하면 좀 더 실질적인 평균이 되는 것입니다. 이것을 가중치를 준다고 합니다. 



(평균을 구하기 전에 가중치만큼 더 곱한 후 평균을 구할 수도 있다)


평균에 대한 수학적 용어로 산술평균이니 기하평균이니 하는 말들도 있는데, 산술평균은 덧셈에 의한 평균을 말하고 기하평균은 곱셈에 의한 평균을 말합니다. 

보통 과목의 점수를 다 더해서 총 과목수로 나누거나, 월별 지출액을 다 더해서 총 월수로 나누는 방식의 평균들이 산술평균이며 일반적으로 가장 많이 사용됩니다. 

기하평균은 두 수를 곱한 다음에 루트를 씌워서 곱의 중간값을 알아내는 방법입니다. 

예를 들어 월급 100만원인 사람과 400만원인 사람의 평균을 구할 때 산술평균은 더한 후 나눕니다. 500만원을 2로 나누니 평균이 250이 되었습니다. 기하평균은 이것을 곱한 40000만원에 루트를 씌우는데, 200만원이 나옵니다. 

산술평균과 기하평균을 잘 이용하면 곱해서 루트를 씌운 값은 더해서 나눈 값보다 무조건 작다는 것도 알 수 있습니다. 



(두수를 더한 것의 평균은 무조건 두 수를 곱한 수의 평균보다 크다. 단, 등호는 같다)


평균이라는 말은 가운데라는 말인데, 통계를 하다보면 진짜 가운데가 어디인지 알아내는 것이 그리 쉬운 일은 아닙니다. 조건이 같은지, 기준이 같은지를 먼저 생각해야 하고, 기준이 달라서 가중치를 준다고 해도 그 가중치가 얼마나 객관적인지를 또 검토해야 합니다. 

하지만 확실한 것은, 대다수가 고개를 끄덕일 수 있는 평균이어야만 진짜 평균입니다. 일부가 끄덕일지라도 대부분이 의아해한다면 그것은 오염된 평균일 가능성이 높습니다. 

한국의 평균 연봉 자료를 통해 알 수 있는 것은 두가지입니다. 첫번째는 통계에서 평균 연봉의 기준을 다르게 잡아야 한다는 것이고, 두번째는 갈수록 양극화가 더 심해진다는 것입니다. 

상위 10% 부자가 전체 이익의 45%를 가져가는 한국에서, 하위 60%의 서민이 전체 이익의 20%를 가지고 아웅다웅하는 한국에서, 양극화를 줄이는 방법은 정책을 바꾸고 장기적으로 실행하는 방법 외에는 없습니다. 

[저작권법 표시] 이 글의 원본: 키스세븐(www.kiss7.kr)

국민이 그런 정책을 하는 정당을 선거에서 뽑는 것 외에는 방법이 없습니다. 


★ 이 정보가 도움이 된다면 아래의 공감을 부탁드립니다! ^^
(로그인 필요없음)


키스세븐지식은 키스세븐과 그룹 사이트입니다.