산포도

마지막 업데이트: 2022년 7월 23일 | 0개 댓글
  • 네이버 블로그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 트위터 공유하기
  • 카카오스토리 공유하기

산포도 영어

만일 누군가가 그리스도의 최초 교회의 설계를 오늘날 세상에 있는 모든 교회와 비교해 본다면, 그는 각 항목, 조직, 가르침, 의식, 열매, 계시를 하나하나 맞추어볼 것이고, 산포도 그러면 예수 그리스도 후기 성도 교회만이 일치하는 교회가 될 것입니다.

If one were to match the blueprint of Christ’s original Church against every church in the world today, he would find that point for point, organization for organization, teaching for teaching, ordinance for ordinance, fruit for fruit, and revelation for revelation, it will only match one—The Church of Jesus Christ of Latter-day Saints.

‘벨라우’(전에는 ‘팔라우’)는 사람이 거의 살지 않는 200개 이상의 섬들로 이루어진 열대 지방의 군도로서, 낙원이라 불릴 만한 요건들을 많이 갖추고 있는 것 같다. 즉 섭씨 27를 크게 벗어나지 않는 기온, 비옥한 땅, 해산물이 풍부한 바다, 부지런하고 우호적인 주민들 그리고 국제적 긴장의 중심지인 ‘워싱턴’과 ‘모스크바’로부터 멀리 떨어진 곳에 위치해 있다는 점 등이 그것이다.

Belau (formerly Palau), a group of more than 200 mostly uninhabited tropical islands seems to have many of the ingredients of Paradise: a temperature that rarely strays far from 80 degrees Fahrenheit (27° C.), fertile land, an abundantly stocked ocean, industrious, friendly inhabitants —and situated far, far away from those centers of international tension, Washington and Moscow.

🎲 🎯 ⚖ μ σ ρ

일반적으로 평균은 자료를 대표하는 값으로 매우 적절하지만 자료 중에 매우 큰 값이나 작은 값이 있을 때는 이 값에 영향을 많이 받는다. 이러한 경우 중앙값이 이용된다. 중앙값은 자료를 순서대로 정렬하였을 때 그 중앙에 있는 값을 의미한다. (자료 4.1)에서는 홀수인 5개의 자료가 있어 그 중앙인 3번째(\(\frac\)번째) 자료가 중앙값으로 다음과 같이 구한다.

만일 자료가 6개인 짝수인 경우 중앙값은 어떻게 구할까? 이 경우 자료의 중앙값은 정렬된 자료의 3번째(\(\frac\)번째)와 4번째(\(\frac\)번째)의 평균으로 계산한다.

일반적으로 중앙값은 \(m\)으로 표시하고 구하는 방법은 다음과 같다.

1) 자료를 오름차순으로 정렬한다.
2) 자료수가 홀수 개인지 짝수 개인지 확인한다.
3) 자료가 홀수 개이면 중앙값 \(m\) = (\(\frac\))번째 자료
자료가 짝수 개이면 중앙값 \(m\) = (\(\frac\))번째와 (\(\frac\))번째 자료의 평균

위와 같은 몸무게 자료의 전반적인 분포를 보기위해서는 앞에서 살펴본 줄기와 잎 그림이나 히스토그램을 생각할 수 있지만 자료를 대표하는 값을 살펴보기에는 점그래프가 적절하다. 점그래프는 자료의 최솟값과 최댓값을 구한 후 가로축 상에 이 값들을 먼저 표시하고, 각각의 자료를 최솟값과 최댓값에 비례한 위치를 계산하여 점으로 표시한 것이다.

은 (자료 4.1)에 대한 점그래프이다. 최솟값 55와 최댓값 76에 비례해서 각각의 자료를 동그란 점으로 표시한 것이다. 초록색 선이 평균 이고 빨강 선이 중앙값 이다. 이 자료에서는 평균이 중앙값보다 약간 우측에 위치해 있는데 그 이유는 자료 중에서 77이 나머지 네 개의 자료보다느 오른쪽에 위치해 있기 때문이다. 즉 평균은 중앙값보다 극단값에 민감하다.

자료가 많을 경우 위와 같이 수작업으로 평균과 중앙값을 구하는 것은 시간도 많이 걸리고 쉽지 않다. 『eStat』소프트웨어를 이용하여 자료의 대푯값을 구해보자.

🎲 실습 4.1

왼쪽의 QR을 이용해 『eStatH』 메뉴에서 ‘점그래프 – 평균/표준편차’를 선택하면 와 같은 창이 나타난다.

‘자료 입력’에 학생들의 몸무게 자료를 입력한다. (전자책에서 자료를 복사하여 붙여넣기를 해도 됨)

자료를 입력하면 자료수, 최솟값, 최댓값, 평균, 중앙값 등이 계산된다. [실행] 버튼을 클릭하면 과 같은 점그래프가 나타나고 평균 및 중앙값이 표시된다.

아래에는 과 같은 시뮬레이션 창이 나타난다. 이 시뮬레이션은 마우스로 한 점을 이동시켜 평균과 중앙값의 변화를 살펴보는 것이다. 예를 들어 제일 오른쪽의 점을 마우스로 끌어 오른쪽으로 이동하면 평균은 변하지만 중앙값은 변하지 않는다. 즉 중앙값은 극단점에 영향을 받지 않는다

🎲 실습 4.2

『eStat』을 이용하여 우리나라의 2월 서울의 일별 최저기온([실습 3.2])을 조사한 (자료 3.2)에 대하여 평균 및 중앙값을 구해보자.

-2.3 -8.2 -9.4 -7.4 -4.4 4.3 -2.6 5.4 -6.1 -1.5 1.3 0.6 1.0 6.4 -5.2 -7.0 -10.4 -10.6 -7.1 5.5 산포도
4.7 0.4 -3.1 -3.0 0.7 0.5 4.3 3.2

왼쪽의 QR을 이용하여 나타나는『eStatH』 메뉴에서 ‘점그래프 – 평균 / 표준편차’를 선택하면 와 같은 자료 입력창이 나타난다.

자료 입력’에 일별 최저기온 자료를 입력하면 (전자책에서 자료를 복사하여 붙여넣기를 해도 됨) 즉시 와 같이 입력된 자료수 28, 평균 –1.79, 중앙값 –1.90, 최솟값 –10.6도, 최댓값이 6.4도임을 보여준다.

[실행] 버튼을 클릭하면 와 같은 점그래프가 나타나고 평균(\(\mu\)) 및 중앙값(\(m\))이 표시된다. 이 점그래프 아래에는 점을 마우스로 변화시키며 평균과 중앙값의 변화를 살펴볼수 있는 시뮬레이션창이 나타난다.

⏱ 과제 4.1

다음은 2016년 현재 서울의 25개 행정구별 자전거 전용 도로 길이에 대한 자료이다. ([과제 3.1]). 『eStat』을 이용하여 점그래프와 자료의 대푯값을 구하고 분석하라.

⏱ 과제 4.2

다음은 2020년 우리나라를 통과한 태풍의 최대 풍속에 대한 자료이다 ([과제 3.2]). 『eStat』을 이용하여 점그래프와 자료의 대푯값을 구하고 분석하라.

도수분포표에서 평균구하기

다음과 같이 한 중학교 학급의 학력고사 성적의 도수분포표가 주어졌다고 하자.

원 자료가 아니라 도수분포표가 주어졌을 때 평균은 중간값을 이용해 근사적으로 다음과 같이 구할 수 있다.

먼저 각 계급의 중간값을 구한다. 그리고 각 계급에 도수만큼 중간값이 있다고 생각하고 이 근사 자료를 이용하여 평균을 구한다.

몸무게(kg) 중간값 도수 근사자료
60이상 ~ 70미만 65 3 65 65
70 ~ 80 75 7 75 75 75 75 75
80 ~ 90 85 11 85 85 85 85 85 85 85 85 85 85
90 ~ 100 95 5 95 95 95
합계 30

『eStatH』의 ‘도수분포다각형 – 상대도수 비교’를 이용하면 도수분포표의 근사적인 평균을 과 같이 구할 수 있다. 계급구간의 왼쪽값과 도수1을 입력한 후 [실행] 버튼을 누르면 된다.

4.2 자료의 산포도 - 표준편차

한 중학교 학생 5명의 퀴즈 성적(10점 만점)이 다음과 같다.

자료들이 흩어져 있는 정도를 산포도라 부른다. 산포도의 간단한 측정 방법은 최댓값에서 최솟값을 뺀 범위이다. $$ \text = \text $$ (자료 4.1)에서 최댓값은 77이고 최소값은 55이므로 범위는 22이다. $$ \text = \text $$

이러한 범위는 극단값에 너무 민감하기 때문에 산포도의 측정에는 일반적으로 분산 또는 표준편차를 많이 이용한다. 분산은 각 자료값과 평균과의 거리를 제곱하여 합을 구한 후 이를 자료의 수로 나눈 것이다. 따라서 자료가 평균을 중심으로 많이 흩어져 있으면 분산이 커지고, 자료가 평균주위에 몰려 있으면 분산이 작게 된다. 분산은 \(\sigma^2\)(시그마 제곱으로 읽음)으로 표시한다.

(자료 4.2)에서 평균은 다음과 같다. $$ \text \quad \mu ~=~ \frac<6+8+7++4+10> ~=~ \frac ~=~ 7 $$

분산은 평균에서 각 측정값까지의 거리를 제곱하여 합을 구한 후 그 평균을 구한 것이다. 즉, 거리제곱의 평균이다. $$ \begin \text \quad \sigma^ &~=~ \frac < (6-7)^2 + (8-7)^2 + (7-7)^2 + (4-7)^2 + (10-7)^2> \\ 산포도 &~=~ \frac ~=~ 4 \end $$ \(n\) 개의 자료를 \(x_1 , x_2 , . , x_n\)으로 표시하고 평균을 \(\mu\)로 표시하였을 때 분산은 다음과 같은 공식으로 나타낼 수 있다. $$ \begin \text \quad \sigma^ ~=~ < ^ (x_ - \mu )^> > ~~~~ (n:~자료수) \\ \end $$

표준편차는 분산의 제곱근으로 정의하고 \(\sigma\)로 표시한다. 분산은 제곱거리의 평균이어서 현실적인 해석이 쉽지 않으나 표준편차는 분산의 제곱근이어서 각 값과 평균과의 평균거리의 측도로 해석이 가능하다. $$ \text \quad \sigma ~=~ \sqrt \\ $$ (자료 4.2)의 표본표준편차는 \(\sigma\) = \(\sqrt\) = \(\sqrt\) = 2 이다.

🎲 실습 4.3

왼쪽의 QR을 이용해 『eStatH』 메뉴에서 ‘점그래프 – 평균/표준편차’를 선택하면 과 같은 창이 나타난다.

‘자료 입력’에 학생들의 퀴즈성적 자료를 입력한다. (전자책에서 자료를 복사하여 붙여넣기를 해도 됨)

자료를 입력하면 자료수, 최솟값, 최댓값, 평균, 중앙값 등이 계산된다. [실행] 버튼을 클릭하면 과 같은 점그래프가 나타나고 평균(\(\mu\)), 중앙값(\(m\)), 표준편차(\(\sigma\)), 그리고 \(\mu\) \(\pm\) \(\sigma\) 길이가 표시된다.

그림 아래에 있는 시뮬레이션 창을 이용하여 마우스로 한 점을 이동시키면서 표준편차 길이의 변화를 살펴볼 수 있다. 표준편차도 극단점에 영향을 받는다.

🎲 실습 4.4

왼쪽의 QR을 이용하여 나타나는『eStatH』 메뉴에서 ‘점그래프 – 평균 / 표준편차’를 선택하면 >와 같은 자료 입력창이 나타난다.

자료를 입력하면 자료수, 최솟값, 최댓값, 평균, 중앙값 등이 계산된다. [실행] 버튼을 클릭하면 과 같은 점그래프가 나타나고 평균(\(\mu\)), 중앙값(\(m\)), 표준편차(\(\sigma\)), 그리고 \(\mu\) \(\pm\) \(\sigma\) 길이가 표시된다.

그림 아래에 있는 시뮬레이션 창을 이용하여 마우스로 한 점을 이동시키면서 표준편차 길이의 변화를 살펴볼 수 있다. 표준편차도 극단점에 영향을 받는다.

⏱ 과제 4.3

다음은 2016년 현재 서울의 25개 행정구별 자전거 전용 도로 길이에 대한 자료이다 ([과제 3.1]). 『eStat』을 이용하여 점그래프와 자료의 평균 및 표준편차를 구하고 분석하라.

⏱ 과제 4.4

다음은 2020년 우리나라를 통과한 태풍의 최대 풍속에 대한 자료이다 ([과제 3.2]). 『eStat』을 이용하여 점그래프와 자료의 평균 및 표준편차를 구하고 분석하라.산포도

도수분포표에서 표준편차 구하기

다음과 같이 한 중학교 학급의 학력고사 성적의 도수분포표가 주어졌다고 하자.

앞 절에서 원 자료가 아니라 도수분포표가 주어졌을 때 평균을 중간값을 이용해 근사적으로 구하였다. 표준편차도 유사한 방법으로 구한다.

먼저 각 계급의 중간값을 구한다. 그리고 각 계급에 도수만큼 중간값이 있다고 생각하고 이 근사 자료를 이용하여 평균을 구한다.

몸무게(kg) 중간값 도수 근사자료
60이상 ~ 70미만 65 3 65 65
70 ~ 80 75 7 75 75 75 75 75
80 ~ 90 85 11 85 85 85 85 85 85 85 85 85 85
90 ~ 100 95 5 95 95 95
합계 30

『eStatH』의 ‘도수분포다각형 – 상대도수 비교’를 이용하면 도수분포표의 근사적인 평균과 표준편차를 과 같이 구할 수 있다. 계급구간의 왼쪽값과 도수1을 입력한 후 [실행] 버튼을 누르면 된다.

4.3 공분산 - 상관계수

한 중학교 남학생 7명의 신장과 체중을 조사하였더니 다음과 같다.

한 변량에서 산포도의 측도로 분산이 이용되듯이 두 변량에서는 다음과 같은 공분산이 이용된다. \(n\)개의 x, y 자료를 \( (x_1 , y_1 ), (x_2 , y_2 ), . , (x_n , y_n ) \)으로 표시하고 평균을 \( (\mu_x , \mu_y )\)로 표시하였을 때 공분산 \(\sigma_\)는 다음과 같은 공식으로 나타낼 수 있다. $$ \text \quad \sigma_ ~ =~ \frac \sum _ ^ (x_ - \mu_x ) (y_ - u_y ) \qquad (n:\text ) $$

공분산은 평면의 평균점 에서 각각의 점들사이의 x축거리와 y축 거리를 곱한값들의 전체 평균을 의미한다. 따라서 평균점을 중심으로 오른쪽 위와 왼쪽 아래에 점이 많으면 공분산은 양의 값을 가져 양의 상관관계를 알 수 있다. 평균점을 중심으로 왼쪽 위와 오른쪽 아래에 점이 많으면 공분산은 음의 값을 가져 음의 상관관계를 알 수 있다. 하지만 공분산은 자료의 단위에 따라 값이 많이 커질 수 있으므로 상관관계의 측도로는 다음과 같은 상관계수 \(\rho\)가 이용된다. $$ \text \quad \rho ~ =~ \frac> $$

상관계수는 공분산의 변형으로 –1에서 +1 사이의 값만 가질 수 있다. 상관계수가 +1에 가까우면 두 변량이 강한 양의 상관관계 있다고 하고, 산포도 -1에 가까우면 강한 음의 상관관계가 있다고 한다. 상관계수가 0에 가까우면 두 변량 사이에는 상관관계가 없다.

🎲 실습 4.5

왼쪽의 QR을 이용해 『eStatH』 메뉴에서 ‘산점도 – 상관계수’를 선택하면 와 같은 창이 나타난다.

‘X자료 입력’에 학생들의 신장을, ‘Y자료 입력’에 체중을 입력한다. (전자책에서 자료를 복사하여 붙여넣기를 해도 됨)

자료를 입력하고 [실행] 버튼을 클릭하면 과 같은 산점도가 나타난다.산포도

산점도 아래의 ‘회귀선’을 체크하면 신장과 체중의 관계를 설명하는 회귀직선이 그려진다.

에서 보듯이 (자료 4.3)의 신장과 체중의 공분산은 27이고 상관계수는 0.94로서 강한 양의 상관관계가 있음을 알 수 있다.

⏱ 과제 4.5

다음은 10명 학생들의 주당 학습시간과 시험성적에 대한 자료이다. 『eStatH』를 이용하여 산점도를 그리고 공분산과 상관관계를 구하라.

『eStatH』를 이용하면 여러 가지 상관계수에 대한 자료의 형태를 살펴볼 수 있다.

🎲 실습 4.6

왼쪽의 QR이나 『eStatH』 메뉴에서 ‘상관계수’를 선택하면 과 같은 초기 산점도가 나타난다.

초기 산점도 아래의 ‘상관계수’를 원하는 값으로 바꾸고 [실행] 산포도 버튼을 클릭하면 과 같은 해당 상관계수에 대한 산점도가 나타난다. ‘회귀선’을 체크하면 점들을 대표하는 회귀선이 나타난다.

상관관계가 강할 경우에는 변량들의 관계를 잘 설명할 수 있는 직선을 구하는데 이를 회귀선이라 한다. 회귀선에 관한 자세한 설명은 대학 통계에서 다룬다.

🎲 실습 4.7

왼쪽의 QR이나 『eStatH』 메뉴에서 ‘상관계수 – 회귀선 실험’을 선택하면 와 같은 상관계수와 회귀선을 실험할 수 있는 화면이 나타난다.

이 빈 화면에 마우스로 점을 찍으면 와 같이 회귀선과 상관계수가 나타난다. 점을 마우스로 누른 후 이동하면 회귀선과 상관계수의 변화를 관찰할 수 있다.

산포도 및 버블 차트 정보

버블 차트는 산포도 차트를 변형한 것으로서, 데이터 포인트가 버블로 바뀌었으며 데이터의 추가 차원이 버블 크기로 표현되어 있습니다.

두 개의 축이 있습니다. 하나는 가로 축을 따라 숫자 데이터 세트를 표시하며, 또 다른 하나는 세로 축에 두 번째 숫자 데이터 세트를 표시합니다. 제품 및 서비스 세트에 대해 실제 데이터와 계획 데이터를 비교한 산포도 차트의 예를 살펴봅시다.

그림 6-6 산포도 차트 및 데이터

그림 6-6은 한 전자제품 매장의 제품 및 서비스에 대한 실제 데이터와 계획 데이터 세트를 보여줍니다. 함께 표시된 산포도 차트에서는 실제 데이터가 산포도 가로 X축을 따라 그려져 있으며 계획 데이터가 세로 Y축에 표시되어 있습니다.

산포도 차트를 보고서에 삽입합니다.

차트 데이터 탭에서 X 버튼을 선택한 후 X축에 그릴 데이터를 강조 표시합니다.

Y 버튼을 선택한 후 Y축에 그릴 데이터를 강조 표시합니다.

축 속성 에서 축에 대한 레이블을 설정합니다(선택 사항).

산포도 속성 에서 표시자 색상, 스타일 및 크기를 설정합니다(선택 사항).

그림 6-7는 X축의 실제 데이터 설정과 Y축의 계획 데이터 설정을 보여줍니다.

그림 6-7 산포도 차트 설정

위 산포도 차트와 동일한 실제 데이터 및 계획 데이터를 사용하지만 두 데이터 간 차이를 세 번째 데이터 세트로 추가한 버블 차트의 예를 살펴봅시다.

그림 6-8 버블 차트 및 데이터

그림 6-8은 한 전자제품 매장의 제품 및 서비스에 대한 실제 데이터와 계획 데이터 세트와 더불어 두 데이터 간 차이가 표시된 세 번째 열을 보여줍니다. 함께 표시된 버블 차트에서는 실제 데이터가 가로 X축을 따라 그려져 있으며 계획 데이터가 세로 Y축에 표시되어 있습니다. 또한 차이 데이터는 버블의 크기로 표현되어 있습니다.

산포도 في العربية

(اعمال ٩: ٣٦-٤٢) والرسول بولس، عند توقفه في المقاطعة الرومانية لآسيا، اقام افتيخوس 산포도 بعدما سقط ميتا من نافذة في الطبقة الثالثة. — اعمال ٢٠: ٧-١٢.

“아내 된 자들아 이와 같이 자기 남편에게 순복하라 이는 혹 를 순종치 않는 자라도 말로 말미암지 않고 그 아내의 행위로 말미암아 구원을 얻게 하려 함이니 너희의 두려워하며 정결한 행위[그리고 너희의 “온유하고 안정한 심령”]를 봄이라.”—베드로 전 3:1-4.

«ايتها النساء كن خاضعات لرجالكن حتى وإن كان البعض لا يطيعون الكلمة يُربَحون بسيرة النساء بدون كلمة ملاحظين سيرتكن الطاهرة بخوف. [وبسبب] الروح الوديع الهادئ.» — ١ بطرس ٣: ١-٤.산포도

더 많은 점을 알기 원하시거나 무료 가정 성서 연구를 사회해 주기 위해 방문하는 사람을 환영하신다면, 우편 번호 450-600 경기 평택 우체국 사서함 33호 워치 타워 협회로 혹은 30면에 나와 있는 해당 주소로 연락하시기 바랍니다.

فإذا كنتم ترحِّبون بمعلومات اضافية او ترغبون في ان يزوركم احد في بيتكم ليدير معكم درسا مجانيا في الكتاب المقدس، فاكتبوا من فضلكم الى ,25 Columbia Heights ,NY 11201-2483 Watchtower ,Brooklyn او الى العنوان الملائم المدرج في الصفحة ٣٠ .

샌프란시스코는 상하수 체계를 재조사하고 재설계하는데 4천만 달러(400억원)을 지출하고 있어요. 왜냐하면 이런 하수구는 바닷물이 범람하기 시작하면 물에 잠겨서 공장을 닫아야 하고 하수를 처리하는데 필요한 세균에 해를 끼치게 되기 때문이죠.

سينفق المطار ايضا 40 مليون دولار في اعادة تصميم وتغيير مجرى المياه والصرف الصحي، فأنابيب الماء مثل تلك التي في الصورة تفيض بمياه البحر بسهولة، مما يزيد من نسبة المياه في شبكات الصرف، 산포도 ويؤذي البكتريا اللازمة لتحليل الفضلات.

나의 큰 O는 log x야

* 집중경향치만으로는 자료의 분포를 제대로 설명할 수가 없으므로, 각 요소가 어디를 중심으로 모여있는지와 더불어, 얼마나 흩어져 있는지도 기술할 필요가 있음. 이 이질성의 정도를 나타내는 값을 산포도라고 하며, 범위, 사분위편차, 표준편차, 평균편차, 분산 등이 사용됨.

* 산포도가 클수록 요소들이 중심경향치로부터 멀리 떨어져 있고, 산포도가 작을수록 요소들이 중심경향치에 가깝게 모여 있음. 모든 요소가 같은 지점에 있을 경우 산포도는 0이 됨

범위(Total Range)

: 자료의 최대치와 최소치 사이의 간격

(묶음자료가 아닌 경우) 최고요소 - 최저요소 + 1

(묶음자료일 경우) 최상 급간의 정확상한계 - 최하 급간의 정확하한계

* 한계: 자료의 범위 외의 다른 정보를 알려주지 못함, 자료를 왜곡시킬 수 있는 극단치에 대해 설명없음

사분위편차(quartile deviation)

: 중위수를 기반으로 하는 산포도 계산방식

여기서 Q1은 하위에서부터 25%지점에 있는 요소, Q3는 하위에서 75%지점에 있는 요소의 값을 가리킴

사분위간 범위(interquartile range) :

앞서 보간법을 이용해 도수분포표에서 중위수를 구하던 방법을 마찬가지로 활용하여 Q1, Q3를 구한다.

* 중앙값이 전체 자료를 상위50%, 하위50%으로 나누므로, Q1, Q3의 위치를 이용하면 자료의 편포 정도를 설명할 수 있다.

정적편포: Q3-Q2 > Q2-Q1

편차(deviation): 한 요소가 평균치로부터 떨어진 정도 d = X - m

* 편차의 합은 언제나 0이므로, 여러 편차들을 대표할 값을 구하기 위해서는 단순히 합하는 것이 아니라 다른 방법이 필요함

평균편차: 편차들의 절대값의 합 -> 중위수와 연관

표준편차: 편차들의 제곱의 합의 제곱근 -> 평균과 연관

최소자승의 속성(어떤 x와 각 점수들간의 편차의 제곱의 합을 최소로 만드는 x값이 평균)은 앞에서 증명했고 이 때 그 최소값이 표준편차의 제곱인 분산으로 정의됨. 마찬가지로 '어떤 x와 각 점수들간의 절대값의 합을 최소로 만드는 x값이 중위수'라는 사실 역시 참이다.

분산: 표준편차의 제곱. V(X)

E(X)는 X의 기대값, 평균값이라는 의미

모집단과 표본집단 간의 관계

표본분산은 언제나 모분산보다 작을수 밖에 없음

n의 크기가 커질수록 표본분산은 모분산에 가까워짐

표본을 이용해 모분산을 추정할 경우 계산방법을 달리한다.

모집단의 분산의 기댓값을 구하기 위해 다음 식을 생각해보자.

우리가 추정한 분산의 기댓값이 모분산과 같아야 하므로 위와 같은 식을 세울 수 있다. 여기서 D = n-1이어야함을 보여보자.

이다. 여기서 분산의 계산공식에 따라

따라서 E(S^2) = s^2 이 성립하려면 D = n-1이어야한다.

이때 n-1을 자유도(degree of freedom)라고 한다.

변동계수(coefficient of variation)

* 평균이 다른 분포끼리 산포도를 비교하기 위해 사용함. 이는 평균이 클수록 표준편차도 대체로 크다는 특성을 이용한 것으로 CV값을 이용하면 평균의 크기와 관계없이 두 집단의 산포도를 비교할 수 있다.

CQD(coefficient of quartile deviation)

: 중위수, 사분위수를 위한 변동계수

중위수를 모를 경우 Q3와 Q1의 평균을 중위수로 가정하고 CQD를 구할 수도 있다.

집단이 정규분포를 따른다고 가정할 경우 평균에서 ±σ 범위 안에 전체 자료 중 약 68.2%가 분포한다. ±2σ 범위 안에는 약 95.4%가 분포하고, ±3σ 범위 안에는 약 99.8%가 분포한다. (±1.96σ 안에 95%, ±2.58σ 안에 99%)

Z를 이용하면 임의의 분포를 평균은 0, 표준편차는 1인 분포로 변환할 수 있으며, 이 값을 특정 값이 전체 분포에서 어느 정도 지점에 위치해있는지 알려주는 지표로 사용가능.


0 개 댓글

답장을 남겨주세요