본문 바로가기

+ α/▶ 통계학

7주차 통계학 TIL (3일차)

728x90

📝 2일차 개념 정리 문제

더보기

💁‍♂️ 1번문제) 신뢰구간이란?

 

💡요약

신뢰구간 : 통계량 ± 오차범위

 

📝해설

신뢰구간 = 구간 추정 방법
통계량: 표본에서 계산한 값 
통계량은 모수와 차이가 있다 -> 표본 오차
오차가 어느 정도 날지를 이론적으로 예측하거나
시뮬레이션을 해서 오차범위를 구하면
통계량 ± 오차범위로 신뢰구간을 구하여 추정

 

💁‍♂️ 2번문제) 신뢰수준이 높을수록 신뢰구간은?

 

💡요약

신뢰수준 : 얼마나 많은 경우를 포함하는지

( 치킨 배달을 예로 들면 모든 말도 안되는 경우의 수 다 포함 생각. 개구리비,사랑도피 등등...

 당연히 그런 경우 다 반영하면 그런 경우가 일어날 일은 매우 희박하므로 오차의 범위는 늘어남)

 

📝해설

(신뢰수준이 높다 = 별의별 경우를 다 생각 
-> 오차 범위가 더 넓어짐
-> 이럴 수도 있고, 저럴 수도 있다
-> 의사결정을 하기가 어렵다
-> 그런 의미에서 정보가 적다고 하는 것)

 

95 % 신뢰수준 : 95%의 경우는 포함, 5% 배제

=> 한정적 경우만 반영 => 오차범위도 작아짐 

 

99% 신뢰수준 : 99%의 경우는 포함, 1% 배제

=> 더 많은 경우를 반영 => 오차범위 더 커지게 됨

 

ex)

10 ± 5 -> 5~15

10 ± 10 -> 0~20

 

정답

신뢰수준이 높을수록 신뢰구간은 넓어진다

 

💁‍♂️ 3번문제) 표본이 클수록 신뢰구간은 ?

 

💡요약

표본이 커지면 커질수록 통계량은 모수 근처에 있음 (데이터 많을 수록 통계량 정확 = 오차가 적다)

 

📝해설

표본이 커지면 커질 수록 통계량은 모수 근처에서 나오게 됨 

데이터를 많이 모으면 통계량이 정확하다 = 오차가 적다 

신뢰구간 = 통계량 ± 오차범위

 

여러 개를 모은 평균을 예측하는 것이, 하나를 예측하는 것보다 쉽다 

-> 주식투자를 한다: 한 종목 잘 찍어서 대박 : 어려움

                                여러 종목을 합쳐서 평균을 예측하는 것은 쉬움 

-> 경력 관리(투자): 한 경력만 해서 천직 찾기 : 어려움

                               여러 경험을 해본 뒤 예측 및 분석 : 쉬움

                               (데이터 분석,AI 등 다양한것 시도해보면 찾기)

 

❗ 정답

 표본이 클수록 신뢰구간은 좁아진다

 

💁‍♂️ 4번문제) 두 집단의 평균을 비교할 때, 보통 귀무가설의 형태는 ?

 

💡요약

귀무가설의 기본 형태는 두 집단의 평균은 같다(차이없다)

 

📝해설

평균은 같다 : 평균A - 평균B = 0

0이라는 숫자 하나로 정확하게 나오는 구체적 가설

 

평균은 같다 : 평균A - 평균B = 1,2,3,4,5....

 

평균은 다르다: 평균A - 평균B = 1,2,3,4,5,6,...
무한히 다양한 흐리멍텅한 가설 -> 입증/반증이 어려움

 

❗ 정답

귀무가설의 기본 형태는 '두 집단은 차이가 없다'

 

💁‍♂️ 5번문제) 귀무가설은 언제 기각?

 

💡요약

p < 유의수준 

 

📝해설

귀무가설 -> p

귀무가설이 틀리면 p가 유의수준보다 작을수 밖에 없게 설계되어있음

가설검정 안하면 p를 볼 일이 없음

p라는 건 애초에 가설검정에서 유의수준하고 비교할 용도로 만든 수치

 

❗ 정답

p가 유의수준보다 작을 때 기각

p가 유의수준보다 크면 데이터 더 모아야 하므로 결론 자체를 유보

 

💁‍♂️ 6번문제) 신뢰수준이 99%면 유의수준은 몇 %에 해당합니까?

 

💡 요약

신뢰수준 + 유의수준 = 100%

(유의수준과 신뢰수준은 반대)

 

1% (=신뢰수준 99%) (O)

5% (=신뢰수준 95%)

 

❗ 정답

 신뢰수준 99% 이면 , 유의수준은 1%

 

💁‍♂️ 7번문제) 유의수준을 낮추면 p 값은 어떻게 됩니까?

 

💡 요약

p값과 유의수준은 관계가 없음

(+신뢰구간은 신뢰수준에 따라 변함)

 

📝해설

p는 유의수준에 따라서 변하지 않음

    => 통계적 가설검정과 p를 오랫동안 써온 중요한 이유

    => 과거에는 통계를 손으로 계산했기 때문에 한번만 계산하면 되는 p가 더 유용

    => p는 p대로 계산을 하고, 계산한 뒤에 유의수준 비교

 

❗ 정답

유의수준을 낮추는 것과 p값은 상관관계 X

 

💁‍♂️ 10번 문제) 유의수준은 무엇과 같습니까?

 

💡 요약

유의수준은 귀무가설이 참일 때, 잘못 기각할 가능성,

즉 1종오류(False Alarm)과 같음

 

📝해설
귀무가설이 참일 때, 잘못 기각할 가능성(1종 오류, False Alarm)

+ 귀무가설이 참일 경우, 1종 오류는 유의수준만큼 발생

+ 유의수준을 낮추면 1종 오류가 감소하고, 2종 오류가 증가
귀무가설이 거짓일 때, 기각하지 못할 가능성(2종 오류, Miss)


귀무가설 참/거짓 -> 사실의 영역(=우리는 모름)
귀무가설 기각/기각하지 않는다 -> 검정의 영역(우리의 행동, 판단)

 

💁‍♂️ 11번 문제) 동일 조건에서 1종 오류가 감소하면 2종 오류는 어떻게 됩니까?

 

💡 요약

1종오류와 2종오류는 반비례 관계

 

📝해설

경찰 -> 멀쩡한 사람을 도둑으로 모는 경우 

        -> 도둑인데 풀어주는 경우 
선생 -> 가만히 있는 학생을 야단치는 

        -> 문제 학생 방치

 

📌동기 분 질문 ( 1종오류와 2종오류 )

 

 모집단에 대한 가설검정
=> 참/거짓 판단 불가 (모집단을 절대 모르므로)
하지만, 우리는 가설을 기각/유보해야 한다.
=> 오류 발생

유의 수준이 낮아지면(=신뢰수준 높아지면)

=>값 범위가 넓어짐(=오차 많아짐)
=>용인하는 값이 많아짐

=>2종 오류의 확률이 올라간다.

 

유의 수준이 높아지면(=신뢰수준 낮아지면)

=>값 범위가 좁아짐(=오차 적어짐)
=>용인하는 값이 적어짐

=>2종 오류의 확률이 낮아진다

 

📌소박실재론(naive realism) : 세상은 우리가 인식한 그대로 존재한다고 믿음

 

 

📌검정력(Power)

✅귀무가설이 거짓일 때, 이를 올바르게 기각할 확률

•𝛼(유의수준)     : 귀무가설이 참일 때, 기각하는 1종 오류의 확률

• 𝛽                     : 귀무가설이 거짓일 때, 기각하지 못하는 2종 오류의 확률

1 − 𝛽(검정력) : 귀무가설이 거짓일 때, 이를 올바르게 기각할 확률

• 보통 검정력은 0.8 이상을 요구

• 표본의 크기가 크면 증가

 

📝

 내가 시장조사를 했는데 아반떼 점유율이 41%라고 하고,

김대리도 따로 나가서 시장조사를 했는데 똑같이 41%가 나올 경우

 

 

📌맨-휘트니 검정(U 검정)

✅독립표본 t 검정에 대응하는 비모수 검정 방법

귀무가설 => 두 집단의 모집단은 같다

 

📝

연속형 변수 아닌경우에 사용

• 순서형 변수/ 서열형 변수 일 경우에 사용

 

ex) 중고차시장에서 싼 것부터 비싼 순서대로 세워놓음 (가격대가 비슷하면 아반떼와 k3가 골고루 섞여서 나옴)

아반떼가 k3보다 싸다면, 아반떼가 앞쪽에 몰려있을 것

 

• 윌콕슨 순위합 검정(Wilcoxon rank-sum test)이라는 방법과 동일 • 윌콕슨 부호순위 검정과는 다름

avante = df.price[df.model == 'Avante']
k3 = df.price[df.model == 'K3']
pg.mwu(avante, k3)

귀무가설(Avante와 K3의 모집단이 같다)는 기각 가격대는 다르다가 결론

 

 

📌효과 크기

✅관찰된 현상의 크기를 나타내는 방법

 

📝 

• 분산을 이용하는 방법

=> 에타 제곱 (eta squared)

• 평균 차이를 이용하는 방법

=>  코헨의 d (Cohen's d)

 

 

📌에타 제곱

✅분산을 이용한 효과 크기 표현 방법

𝜂 2 = 처치 SS /전체 SS

• 전체 SS = (X – 전체평균) 2의 합계

• 처치 SS = (집단평균 - 전체평균) 2의 합계

• SS: 편차제곱합(Sum of Squares)

에타 제곱 = 0  에타 제곱 = 1
• 집단 간 차이는 없고 집단 내 차이만 있음
• 실험 조건에 따라 아무 것도 달라지지 않음
• 같은 실험 조건에도 서로 다름
• 집단 간 차이만 있고 집단 내 차이는 없음
• 실험 조건에 따라 모든 것이 달라짐
• 실험 조건이 같으면 결과도 같음

• 예) 대조군 데이터는 1, 2, 3
        실험군 데이터도 1, 2, 3인 경우
• 예) 대조군 데이터는 1, 1, 1
        실험군 데이터는 3, 3, 3인 경우
pg.compute_effsize(a, k, eftype='cohen')

 

 

 

📌 코헨의 d

✅두 집단의 평균 차이를 데이터의 표준편차로 나눈 것

평균 차이의 크기를 알기 쉽게 나타낸 것

𝑋ത 1 − 𝑋ത 2/ 𝑠
pg.compute_effsize(a, k, eftype='cohen')

 

📝cohen-d는 크면 클수록 두 집단의 평균 차이가 크다고 해석

d : 0~무한대

데이터 종류에 따라 다름

인간으로 유래한 데이터 : d가 아~~~무리 많이나도 2정도

기계로부터 유래한 데이터 : 

 

 

 

 

📌 대응표본

✅대응표본: 두 집단의 자료를 쌍으로 묶을 수 있을 때

• 예) 남편과 아내, 쌍둥이, before & after

• 두 집단의 자료를 쌍으로 묶어야 하기 때문에, 독립표본과는 달리 두 집단의 자료 갯수가 동일해야 함

 

📝

 독립표본 t-검정: 평균의 차이를 비교

• 대응표본 t-검정: 차이의 평균을 비교

 

pg.ttest(cp['husband'],cp['wife'], paired=True)

pg.ttest(cp['husband'],cp['wife'])

💡 paired했을 때랑 안했을 때 모두 8시간 차이나는 건 동일

=> 신뢰구간의 변화, 유의수준'을 1% or 5& 설정

=> 따라서 해석이 달라질 수 있다

 

📌 분산 분석(Analysis of Variance)

✅집단 간 차이가 크다면 집단 내 분산에 비해 집단 간 분산이 커질 것

• 모집단이 정규분포를 따르거나, 각 집단의 표본 크기가 충분히 크면 집단 간 분산/집단 내 분산의 비율은 F 분포를 따름

• 이를 통해 "모든 집단들의 평균이 같다"는 귀무가설을 검정할 수 있음

• 귀무가설을 기각할 경우, "적어도 한 집단의 평균은 다르다"라는 대립가 설을 채택

 

출처 : 멋쟁이사자처럼 AI SCHOOL 유재명 강사님

 

 

📌 다중 비교 (multiple comparison)

 

• 분산 분석은 한 번에 여러 집단을 비교할 수 있음

• 독립표본 t-검정은 한 번에 두 집단만 비교 가능

• 집단이 여러 개 있을 경우 독립표본 t-검정은 집단 간의 모든 짝을 비교해 야

• 집단이 𝑘개일 경우 필요한 비교의 횟수: 𝑘(𝑘−1) 2

 

 

📌 FWER Familywise Error Rate

 

• 다중 비교를 할 경우 적어도 한 번 1종 오류가 발생할 확률

• 세 집단이 모집단에서 평균이 모두 같은 경우 유의수준 5%인 비교를 3 번해서, 3번 모두 1종 오류를 피할 확률(독립적이라고 가정할 경우): 95% × 95% × 95 % ≈ 86%

• 바꿔 말하면 적어도 한 번 1종 오류가 발생할 확률(FWER)은 14%

비교를 많이 할 수록 FWER은 증가

 

 

📌 사후 검정

✅여러 집단 중 통계적으로 유의한 차이가 나는 집단을 식별

  • FWER을 통제하기 위해 분산분석을 먼저 실시
  • 분산분석 결과가 통계적으로 유의하면( p < α ) 사후검정을 실시
  • 사후검정에서도 α를 조절하여 FWER이 커지지 않도록 제어

 

"사후 검정은 분산분석의 귀무가설 '모든 집단의 평균이 같다'를 기각한 후 (p < α) 조금 더 디테일하게 실제로 여러 집단 중 평균이 같지 않은 집단을 식별하기 위함."

 

 

 

 

📌 카이제곱 분포

✅표본에서 얻은 분포가 귀무가설에서 가정하는 모집단 분포와 잘 맞는지 (goodness-of-fit)를 알아보기 위해 사용

출처 : 멋쟁이사자처럼 AI SCHOOL 유재명 강사님

 

📝

• 귀무가설: 모집단에서 두 브랜드의 선호도는 50%:50%으로 같다

• 관찰빈도, 기대빈도 순으로 입력

• 결과는 카이제곱값, p-값

 

1번째 경우 ) A브랜드 선호 : 31명, B브랜드 선호 : 19명

from scipy.stats import chisquare

# 50명에게 브랜드 선호도를 물었는데 A 브랜드를 선호하는 사람이 31명, B를 선호하는 사람이 19명
# 귀무가설: 두 브랜드에 차이가 없을 것이다 25:25일거다
chisquare([31, 19], [25, 25])
Power_divergenceResult(statistic=2.88, pvalue=0.08968602177036435)

p > 0.05 => 결론을 유보

 

 

2번째 경우 ) A브랜드 선호 : 31명, B브랜드 선호 : 19명

# 100명에게 브랜드 선호도를 물었는데 A 브랜드를 선호하는 사람이 62명, B를 선호하는 사람이 38명
# 귀무가설: 두 브랜드에 차이가 없을 것이다 50:50일거다
chisquare([62, 38], [50, 50])
Power_divergenceResult(statistic=5.76, pvalue=0.01639507184919225)

p < 0.05 => 귀무가설 기각 => 브랜드 선호도에 차이가 있다

 

📌 카이제곱 독립성 검증

✅ 카이제곱 독립성 검증은 두 범주 변수 간에 관계가 있는지 알아보기 위해 사용

• 귀무가설: 두 변수가 독립적이다(=관계가 없다)

 

📝

• 예시:

• 남녀 간의 브랜드 선호도 차이

• 지역 별 정당 지지율에 차이

• 혈액형과 성격유형의 관계

• 데이터가 적으면 p-value가 부정확할 수 있음

• 모든 기대빈도가 5 혹은 그 이상이어야 함

Cramér's V: 두 변수의 관계를 0~1로 표시 • 0: 전혀 관련이 없음 • 1: 완전히 일치

expected, observed, stats = pg.chi2_independence(x='department', y='marriage', data=hr)
stats

 

출처 :&nbsp; 멋쟁이 사자처럼 AI SCHOOL 유재명 강사님

📌독립표본 t 검정

✅두 집단의 평균의 차이

더보기

• 𝑋ത 1: 대조군 평균

• 𝑋ത 2: 실험군 평균

𝑋ത 1 − 𝑋ത 2의 신뢰구간을 계산

가설검정의 경우 독립표본 t-검정을 수행

avante = df.price[df.model == 'Avante']
k3 = df.price[df.model == 'K3']
pg.ttest(avante, k3, confidence=0.95)
출처 :&nbsp; 멋쟁이 사자처럼 AI SCHOOL 유재명 강사님


📌대응표본 t 검정

✅차이의 평균을 비교

✅두 집단의 자료를 쌍으로 묶을 수 있을 때

ex) 남편과 아내, 쌍둥이, before & after

독립표본과 달리 두 집단의 자료 갯수 동일


📌맨-휘트니 U 검정

✅독립표본 t 검정에 대응하는 비모수 검정 방법
✅순서형 변수/ 서열형 변수 일 경우에 사용


📌분산분석

✅분산 분석은 한 번에 여러 집단을 비교

• 모집단이 정규분포를 따르거나, 각 집단의 표본 크기가 충분히 크면 집단 간 분산/집단 내 분산의 비율은 F 분포를 따름

• 이를 통해 "모든 집단들의 평균이 같다"는 귀무가설을 검정할 수 있음

• 귀무가설을 기각할 경우, "적어도 한 집단의 평균은 다르다"라는 대립가 설을 채택

✅등분산성 검정( 분산분석은 집단간 분산이 같아야 함 )

• 분산분석(등분산일 경우) =>  사후검정(각 집단의 분산이 같은 경우: Tukey HSD)

• 분산분석(이분산일 경우) => 사후검정(각 집단의 분산이 다른 경우: Games-Howell 검정)


📌카이제곱 적합도 검정

✅브랜드의 선호도 조사 할 때
✅표본에서 얻은 분포가 귀무가설에서 가정하는 모집단 분포와 잘 맞는지 (goodness-of-fit)를 알아보기 위해 사용
귀무가설: 모집단에서 비율은 기대빈도의 비율과 같다


📌카이제곱 독립성 검정

✅카이제곱 독립성 검증은 두 범주 변수 간에 관계가 있는지 알아보기 위해 사용
• 귀무가설: 두 변수가 독립적이다(=관계가 없다)
• 예시:
• 남녀 간의 브랜드 선호도 차이
• 지역 별 정당 지지율에 차이
• 혈액형과 성격유형의 관계
• 데이터가 적으면 p-value가 부정확할 수 있음


📌맥니마 검정

✅ 카이제곱 검정의 대응분포 버전

728x90