Search

귀무가설과 대립가설

대분류
인공지능/데이터
소분류
통계 실험
유형
가설
주요 레퍼런스
https://drhongdatanote.tistory.com/59?category=648822
최종 편집 일시
2024/10/29 07:02
생성 일시
2024/10/14 16:05
14 more properties

가설

진실이라고 확증할 수는 없지만 ‘아마도 그럴 것이다’라는 잠정적인 주장
연구자들은 연구하고자 하는 대상이 나타내는 현상을 관찰한 후에, 그 현상을 설명하는 가설을 설정한다.

통계적 가설 검정(Hypothesis Testing)

가설(Hypothesis)을 통계적인 방식으로 검정(Testing)하는 것을 통계적 가설 검정(Hypothesis Testing)이라 부른다.
일반적으로 생각하는 가설은 다음과 비슷하다.
"지구는 둥글 것이다." 또는 "태양이 지구를 돌 것이다." 이다.
하지만 통계적 가설 검정은 어떠한 큰 이론을 제안하는 가설이 아니다.
통계에서 쓰이는 가설은 우리가 알고싶어하는 "어떤 모집단의 모수(예: 평균, 분산, 등)에 대한 잠정적인 주장"이다.
따라서 통계적 가설은 앞서 예를 든 가설들과는 다르게 일정한 형식을 따라야 한다.

귀무가설과 대립가설

통계적 가설 검정을 하려면 우선 두 가지 형식적 가설 (귀무가설"과 "대립가설)을 설정해야 한다.
그리고 어떤 가설을 채택을 할지를 확률적으로 따져보고 둘 중 하나를 채택한다.

귀무가설(==영가설)

모집단의 특성에 대해 옳다고 제안하는 잠정적인 주장
다음과 같이 가정
모집단의 모수는 OO와 같다.
모집단의 모수는 OO와 차이가 없다.
예시
1.
만약 전국 20세 이상의 평균 키가 170cm라는 주장을 통계적으로 검정한다면,
이에 대한 귀무가설은 "20세 이상의 성인 남자의 평균 키는 170cm과 같다. (또는 차이가 없다.)”이다.
2.
제약 회사에서 개발한 신약의 효과를 검정한다면,
이에 대한 귀무가설은 "개발한 신약은 효과가 없다. (또는 차이가 없다).”
즉, 귀무가설은 ‘~와 차이가 없다.’, ‘~의 효과는 없다.’, ‘~와 같다.’라는 형식으로 설정된다.

대립가설(==대안가설)

귀무가설이 거짓이라면 대안적으로 참이 되는 가설
귀무가설이 틀렸다고 판단했을 때 (기각 되었을 때), 대안적으로 선택하는 (채택되는) 가설
다음과 같이 가정
모집단의 모수는 OO와 다르다.
모집단의 모수는 OO와 차이가 있다.
예시
1.
만약 전국 20세 이상의 평균 키가 170cm라는 주장
대립가설은 "20세 이상의 성인 남자의 평균 키는 170cm와 다르다. (또는 차이가 있다.)”
2.
제약 회사에서 개발한 신약의 효과 검정
대립가설은 "개발한 신약은 효과가 있다. (또는 차이가 있다).”
즉, 대립가설은 ‘~와 차이가 있다.’, ’~의 효과는 있다.’, ’~와 다르다.’라는 형식으로 이루어진다.

유의성 검정(NHST)

두 가지 가설을 세웠다면, 우리가 수집한 표본 데이터를 바탕으로 귀무가설이 옳은지 (채택, Accept) 아니면 옳다고 볼 수 없는지 (기각, Reject)를 판단해야 한다.
이를 귀무가설의 유의성 검정(Null Hypothesis Significance Testing, NHST)이라고 한다.
우리는 표본을 추출하고 그 표본으로부터 얻은 정보를 기초로 하여 귀무가설이 참인지 거짓인지를 판정하게 된다.
→ 따라서 항상 오류의 가능성이 존재
표본을 추출할 때마다 매번 통계치가 달라지기 때문
따라서 연구자는 귀무가설이 참인지 아니면 거짓인지를 검증하기 위해 수집한 표본을 바탕으로 "귀무가설이 참이라고 가정했을 때, 표본으로 부터 얻어지는 통계치 (예: 표본 평균)가 나타날(관측될) 확률”을 계산한다.
이때 계산된 확률값을 pp값이라고 칭한다.

중심극한정리와 표본평균분포

모집단 분포에 상관없이, 표본의 수가 커지게 되면, 표본들의 평균들이 이루는 분포(표본평균분포)는 <모집단의 평균 μμ 그리고 표준편차가 σ/nσ/\sqrt{n}인 정규분포>에 가까워진다.
우리가 이 표본평균분포를 안다면, 표본을 추출해서 얻어진 표본 평균이 표본평균분포 하에서 나타날 확률이 어느 정도인가를 계산할 수 있다.

‘p값이 낮다’에 대한 고찰

pp값이 낮다는 것은 무엇을 말할까?
귀무가설이 참이라는 가정 하에서 표본을 추출했을 때, 이런 표본 평균이 관측될 확률이 낮다는 것을 뜻한다.
→ 즉, p 값이 매우 낮으면, 이러한 표본 통계량은 우연히 나타나기 어려운 케이스이기 때문에, 우리는 귀무가설을 채택하지 않고(기각하고), 대안적인 가설, 즉 대립가설을 채택하게 된다.