머니시스템

(통계) 데이터의 허와 실, 평균의 함정과 중위값의 적용

모험가 '루' 2025. 1. 31. 11:37
반응형
LIST

우리는 매일 수많은 통계 수치를 접합니다.

 

"평균 연봉 5,000만 원", "주택 평균 가격 8억 원", "1인당 평균 소비액 월 300만 원" 등의 숫자들이 언론을 통해 쏟아져 나옵니다.

 

하지만 이러한 '평균'이라는 수치가 과연 현실을 제대로 반영하고 있을까요?

 

오늘은 데이터 분석에서 자주 발생하는 '평균의 함정'과 이를 보완하는 '중위값의 중요성'에 대해 이야기해보려 합니다.

 

1. 평균의 함정 : 현실을 왜곡하는 대표값

 

서울의 한 동네에 다섯 가구가 있다고 가정해 봅시다.

 

각각의 연간 소득이 3천만 원, 3천5백만 원, 4천만 원, 4천5백만 원, 그리고 10억 원이라고 할 때, 이 동네의 평균 소득은 얼마일까요?

단순 계산을 해보면 약 2억 3천만 원이 됩니다.

 

하지만 이 '평균값'이 과연 이 동네의 소득 수준을 제대로 반영한다고 할 수 있을까요?

머니투데이

이것이 바로 '평균의 함정'입니다.

극단값 하나가 전체 평균을 크게 왜곡할 수 있다는 것이죠.

특히 소득이나 자산처럼 양극화가 심한 데이터에서는 이러한 현상이 더욱 두드러집니다.

■ 여러가지 평균

· 산술 평균 : 가장 널리 쓰이며, 그냥 ‘평균’이라고도 한다. 산술평균은 중앙값이나 최빈값과 종종 혼동되곤 한다. 이 평균은 값들이나 분포의 산술적인 평균을 의미하며 기울어진 분포에 대해서는 중앙값이나 최빈값과 보통 다르다.

예를 들어 평균 수입의 경우 적은 수의 사람이 매우 큰 수입을 갖고 따라서 평균 이하의 사람 수가 더 많다. 하지만 중간값의 경우 정확히 반은 더 큰 수입을 갖고 나머지 반은 더 작은 수입을 갖는다. 최빈값의 경우에는 가장 많이 나타나는 값을 말하므로 수입이 적은 쪽에 가깝다.


· 기하 평균 : 기하 평균은 합이 아닌 곱이 쓰이는 경우에 평균으로 이용된다.

· 조화 평균 : 조화 평균은 역수의 산술 평균으로 정의되며, 속력처럼 상대적인 비를 갖는 단위의 평균을 계산하는데 유용하다.

· 절단 평균 : 가끔 너무 큰 값이나 너무 작은 값이 들어있는 등 부정확한 값에 의해 자료가 오염될 수 있다. 이럴 때 절단평균을 사용한다.
이 평균은 데이터에서 가장 큰 값이나 작은 값 쪽을 ‘잘라내고’ 산술평균을 낸 것을 의미한다. 일반적으로 잘라내는 양쪽 범위는 같게 한다. 잘라낸 값의 숫자는 전체 자료 수에 대한 백분율로 표시한다.


출처 : 강원도민일보(http://www.kado.net)

 

2. 중윗값 : 현실을 더 정확하게 보여주는 렌즈

 

위 사례에서 중윗값(median)을 살펴보면 어떨까요?

머니투데이

 

다섯 가구의 소득을 순서대로 나열했을 때 가운데 위치한 값, 즉 4천만 원이 중윗값이 됩니다.

이 값이 오히려 해당 동네의 실제 소득 수준을 더 정확하게 반영한다고 볼 수 있습니다.

 

중윗값의 장점은 다음과 같습니다

  1. 극단값의 영향을 덜 받습니다
  2. 일반적인 사람들의 현실을 더 잘 반영합니다
  3. 데이터의 왜곡을 최소화할 수 있습니다

3. 실제 사례로 보는 평균과 중위값의 차이

 

3-1. 부동산 시장

 

2023년 서울의 아파트 평균 가격이 11억 원이라고 가정해 봅시다. 하지만 중윗값은 8억 원입니다.

이는 고가의 아파트들이 평균값을 크게 끌어올렸다는 것을 의미합니다.

실제 서울 시민의 절반은 8억 원 이하의 아파트에 살고 있다는 것중윗값을 통해 더 정확히 파악됩니다.

 

3-2. 임금 통계

 

한 회사의 연봉 통계를 보면 더욱 극명한 차이가 나타납니다.

최고경영자(CEO)의 수억 원대 연봉이 포함된 평균 연봉과, 실제 직원들의 중간값인 중위 연봉은 큰 차이를 보입니다.

이러한 경우 중윗값이 일반 직원들의 실제 임금 수준을 더 잘 반영합니다.

 

3-3. 데이터 해석의 새로운 관점

 

이제 우리는 통계 수치를 접할 때 다음과 같은 질문을 던져볼 필요가 있습니다.

  • 이 수치가 평균값인가, 중윗값인가?
  • 극단값이 결과에 큰 영향을 미치지는 않았는가?
  • 일반적인 사람들의 현실을 잘 반영하고 있는가?

 

 

4. 결론 : 균형 잡힌 시각의 필요성

 

데이터는 현실을 이해하는 중요한 도구입니다. 하지만 잘못된 통계적 접근은 오히려 현실을 왜곡할 수 있습니다.

 

평균과 중윗값은 각각의 장단점이 있으며, 상황에 따라 적절히 활용해야 합니다. 특히 경제적 불평등이 심화되는 현대 사회에서는, 중윗값의 활용이 더욱 중요해지고 있습니다.

 

앞으로 통계 수치를 접할 때마다, 그 숫자 뒤에 숨겨진 진실을 찾아보는 습관을 들이는 것이 현명할 것입니다.

 

데이터는 거짓말을 하지 않지만, 잘못된 해석은 현실을 왜곡할 수 있기 때문입니다.

반응형
LIST