데이터의 위치
23년 이전 글/통계

데이터의 위치

산포를 공부하는 이유

  • 중심으로부터 데이터가 흩어진 정도를 산포라 함
  • 중심성향의 측도는 데이터가 어떻게 분포되어 있는가에 대해 아무런 정보를 제공하지 않음
  • 평균만으로 데이터를 비교하려는 것은 의사결정의 위험성을 높임 예) 물의 깊이, 성적, 평균수익률

 

산포의 척도

범위(range)

  • 계산이 쉽다
  • 극단적인 데이터만을 사용하는 단점이 있음 -> 데이터의 분포무시, 극단값에 민감

출처: 아이리포 온라인 교육원

분산(variance)

  • 데이터가 평균으로부터 얼마나 퍼져 있는가
  • 평균으로부터 제곱편차에 대한 산술평균
  • 측정단위의 제곱된 값이어서 사용에 약간의 어려움이 있음

표준편차(standard deviation)

  • 분산의 루트(square root)값
  • 데이터의 원래 단위를 사용하여 분산에 비해 활용하기 쉬움
  • 산포척도 중 가장 널리 사용된다

분산과 표준편차의 특징

  • 항상 0보다 같거나 크고, 모든 데이터 값이 같을 경우에만 0이 됨
  • 동일한 값을 데이터 값에 더하거나 빼주어도 분산이나 표준편차는 변하지 않음

모분산과 표본분산의 차이는 분모에서 n-1을 해주게 되는데, 하나의 정보를 소실했다는 뜻.

 

변동계수(coefficient of variation: CV)

  • 월급의 표준편차 = 20만원, 학생들 성적의 표준편차 = 15점 -> 비교가 가능할까?
  • 표준편차를 평균의 퍼센트로 표시 ( 평균 대비 표준편차의 비율)
  • 데이터의 상대적 산포

변동계수의 사용

  • 다른 단위를 가진 변수들의 비교(월급 vs 시험성적)
  • 단위는 같으나 평균에 큰 차이가 나는 변수들의 비교( CEO의 수입 vs 일용노동자 수입)

변동계수 공식

변동계수 예제

  • 학생수와 직장인 연봉
  • 강의실 당 학생수를 알아보니 표본평균은 44명, 표본표준편차는 8명이었다. CV는?

  • 직장인들의 연봉에 조사 결과 표본 평균은 2,940만원, 표본 표준편차는 165만 6천 5백원이었다. CV는?

  • 강의실 당 학생수의 CV가 직장인 연봉의 CV보다 크므로 강의실 당 학생수의 산포가 크다고 할 수 있다.

 

반응형

'23년 이전 글 > 통계' 카테고리의 다른 글

데이터의 표현  (0) 2022.06.13
기술통계학  (0) 2022.06.07
통계 변수  (0) 2022.06.06
통계학이란?  (0) 2022.06.06
가설검정  (0) 2022.06.06