유의확률에 대한 고찰(About p-value)

1 minute read

  • 방문해주셔서 감사합니다.
  • 내용은 지속적으로 업데이트 될 것입니다.
  • 궁금한 내용은 댓글로 남겨주세요.

Introduction

통계를 공부하셨다면 p-value에 대해서 들어보셨을겁니다. 여러분들은 그 동안 p-value를 어떻게 활용해오셨나요?

0.05를 기준으로 이것보다 작으면 유의하므로 H1채택! 이라고 공식처럼 사용해오신분들이 있을겁니다.

하지만 p-value를 자세하게 들여다보고 그 의미를 파악한다면 이렇게 사용하는 것이 여러분들의 연구 결과에 잘못된 판단을 가져올 수 있음을 알게될것입니다.

p-value

Informal definition

사전이나 위키를 보시게 되면 나와있는 정의는

'’주어진 표본의 유의 확률은 귀무가설을 가정하였을 때 표본 이상으로 극단적인 결과를 얻을 확률이다’’ 라고 나와있습니다.

이 정의를 기억하시고 먼저 그 의미를 곱씹어볼께요.

척도로서의 p-value

  • 수집된 데이터 셋을 나타내는 통계값과 그 데이터를 위한 모델 간의 incompatibility를 나타내는 것이다. 여기서 모델이라는 말은 어떠한 가정하에 내려진 모델, 보통은 H0의 가정하에 만들어진 모델을 말한다.

  • 보통은 H0는 두 그룹간에 차이가 없다거나 요인과 결과가 관계가 없다는 가정을 하는 absence of effect를 나타낸다.

  • 그래서 p-value가 작을수록 H0와의 incompatibility가 높아진다.

  • 이런 것 때문에 이 값을 against H0에 이용하게 되는데 이를 무턱대고 적용하는 것은 잘못된 적용이다.

p-value의 잘못된 사용

  • p-value is not the truth of a null hypothesis!!!!!

  • p-value 값은 단지 특정한 가정에 대한 incompatibility를 나타낸다.

  • 그래서 단순히 p-value 값이 우리가 정한 threshold를 넘었다고 해서 오직 여기에만 베이스를 두고 결정을 내리면 안된다.

  • 또한 threshold의 기준은 연구 분야마다 다르다.

  • 보통은 p-value가 작을수록 어떤 변수가 영향력이 크다고 생각하는 경향이 있는데 이는 잘못된 생각이다. 영향이 크더라도 큰 p-value값이 나올 수 있고, 그 반대의 경우도 마찬가지이다.

  • 예를들어 sample size가 크고 측정의 precision 또한 높다면 영향이 작더라도 p-value가 작을수있기때문이다.

  • 따라서 같은 영향이라고 측정의 정확도에 따라서 p-value가 다를 수도 있음에 유의해야한다.

How then should I use it?

  • 우리가 결정을 내릴때에는 contextual factor를 고려해야합니다. 즉 실험설계를 어떻게 햇는지, 측정의 품질을 어떠한지, 현상에 관한 다른 증거는 없는지, 가정의 타당성은 있는지 등을 말입니다.

  • 그래서 p-value를 보여줄때에는 threshold 뿐만이 아니라 관련 분석 자료도 함께 보여주어야 합니다. Never do cherry-picking!!!

  • 만약 여러분들이 p-value가 아닌 다른 통계적 도구를 사용하여 연구의 의미를 증명하고자 할때에도 마찬가지로 그 도구를 선택한 이유를 제시하여야합니다. 즉, 연구과정에 내렷던 모든 가정들과 수행된 통계적 분석, 데이터 수집 결정, 모든 p-value의 값 등을 말입니다.

p-value

Reference

용어정리

  • p-value

Comments