본문 바로가기
Programming/Data Analysis

표준 오차

위의 사진은 엑셀의 데이터 분석 도구의 '기술 통계법'을 시행한 결과이다. 

결과를 해석하는 과정에서 표준 오차라는 개념을 봤는데, 찾아봐도 무슨 뜻인지 알 수가 없었다. 

 

 

이 글은 아래 포스팅을 참고했다. 

https://hweejin.tistory.com/entry/%ED%86%B5%EA%B3%84%EC%A0%81-%EA%B2%80%EC%A0%95%EC%97%90-%EC%95%9E%EC%84%9C-%ED%91%9C%EC%A4%80%EC%98%A4%EC%B0%A8-%EA%B0%9C%EB%85%90-%EC%9D%B4%ED%95%B4%ED%95%98%EA%B8%B0

 

통계적 검정에 앞서, '표준오차' 개념 이해하기

‘통계적 검정’이 필요한 이유 지난번 글 마지막에는 비교해야 하는 두 그룹 간의 평균값의 신뢰구간(평균값 ± 2SD)이 서로 겹치지 않을 때(아래 그림처럼) , 두 그룹의 조건 차이가 결과의 차이

hweejin.tistory.com

 

 

평균의 표준 편차 

사례: 어떤 모집단을 구성하는 사람은 총 400명이고, 이 중 4명을 무작위로 선발하여 만족도를 조사했을 때, 이 작업을 100번 반복했다고 가정한다. 그러면 총 100개의 만족도 점수 평균값을 얻을 수 있고, 이 100개 표본으로부터 얻은 100개의 평균값들의 표준 편차가 표준 오차가 된다. 

 

사례2: 20-30대 직장인에게 직무 교육 관련 콘텐츠를 제공하는 서비스가 있다고 가정한다. 지난 달 콘텐츠 유료 구매를 한 유저의 평균 구매 금액은 1만원이라고 가정한다. 이 평균 구매 금액은 제품/서비스나 유저의 가입 조건 등에 별다른 조치를 취하지 않더라도 측정 시점에 따라 조금씩 달라질 가능성이 크다. 이 표본은 20-30대 직장인 전부가 아닌 일부를 통해 얻어진 결과이고, 모집단 내에서의 구매 의향 편차가 클수록 표본에서 얻어진 결과 역시 편차가 커질 가능성이 높다는 것이다. 즉, 같은 집단에서 표본을 지속적으로 뽑는다고 해도 그 표본의 편차가 늘 같지는 않다는 것이다. 

 

 

그렇다면, 단 하나의 표본으로 어떻게 많은 표본들의 표준 편차를 추정할 수 있을까? 

 

표준 편차는 분산의 제곱이므로 루트 분산으로 나타낼 수 있다. 

'데이터의 분산 = 비율 X (1 - 비율)'으로 나타낼 수 있다.