DAY19. R T검정과 분산분석

LEE_BOMB 2021. 10. 12. 17:42

2021. 10. 12. 17:42

T 분포?

표본수가 작은 경우(30개 미만) 정규분포 대신 사용하는 확률분포

정규분포 가정 : 표본 크기가 클 수록 정규분포 모양이 비슷

* 자유도(df)가 클 수록 정규분포와 비슷해짐

* Z분포 : 표본의 크기가 충분히 큰(n > 30)경우, 정규분포 모양을 갖는 확률분포

T 검정

모집단이 정규분포이고, 모집단의 분산(σ2)이 알려지지 않은 경우

표본의 표준편차 이용하여 모평균 추정/검정(T분포표 이용)

기본 가정 : 정규성, 등분산성(모수 or 비모수 방법 결정)

방법 : 단일표본 t검정, 독립표본 t검정, 대응표본 t검정

모수검정(정규분포)	기본가정	비모수검정(비정규분포)
단일표본 t검정	정규성	Wilcoxon signed rank test
독립표본 t검정	등분산성	Wilcoxon rank sum test, Mann-Whitney U-test
대응표본 t검정	정규성	Wilcoxon signed rank test

* 비모수검정 : 기본 가정을 만족하지 못하거나 자료가 적은 경우 사용되는 검정방법.

* R에서는 모두 wilcox.test() 함수 이용

T검정통계량

T분포표

* 단측검정 : t통계량(절대값) > 임계값 : 귀무가설 기각

양측검정?

양측검정 임계값 : = 𝜶/2 = 0.025(2.5%) , df = n – 1 이용(정규분포인 경우)

양측검정에서 검정통계량 t의 절대값이 임계값보다 크면 귀무가설 기각

ex.표본 수 n = 10, 유의수준(α) = 0.05 일 때 양측검정의 임계값과 가설검정은?

검정통계량 : t = 2.4154, df = 9 (T분포표 : 임계값 =2.262)

* 가설검정 : t값(2.4154) > 임계값(2.262) : 귀무가설 기각

02. 단일표본 T 검정?

모집단의 모평균(𝜇𝜇)과 표본의 평균 간의 차이가 있는지를 검정
기본 가정 : 정규분포(정규성 검정)

기본 가설 : 모평균과 차이가 없다

단일표본 T 검정의 목적

표본의 크기가 30개 미만이고, 모평균은 알고 있지만, 모분산은 모르는 경우 표본으로 모평균을 검정하는 위해서 사용된다. 표본 수가 30개 이상이면 중심극한정리에 의해서 정규성을 만족하지만, 30개 미만이면 표본이 정규성을 만족하는지 확인하기 위해서 정규성을 검정한다. 정규성에 만족하면 모수 검정 만족하지 않으면 비모수 검정을 한다

단일표본 T검정 분석절차

실습파일 가져오기 > 데이터 전처리 > 기술통계량(평균) > 정규분포 (기본가정 : 정규성 검정)

> YES : t.test() / NO : wilcox.text() > 검정통계량 분석

단일표본 T검정 가설

<연구가설>
연구가설(H1) : 국내에서 생산된 노트북과 A회사에서 생산된 노트북의 평균 사용 시간에 차이가 있다.
귀무가설(H0) : 국내에서 생산된 노트북과 A회사에서 생산된 노트북의 평균 사용 시간에 차이가 없다.

<연구환경> 국내에서 생산된 노트북 평균 사용 시간이 5.2시간으로 파악된 상황에서 A회사에서 생산된 노트북 평균 사용시간과 차이가 있는지를 검정하기 위해서 A회사 노트북150대를 랜덤으로 선정하여 검정을 실시한다.

1. 실습파일 가져오기

setwd("c:/ITWILL/2_Rwork/data")
data <- read.csv("one_sample.csv", header=TRUE)
str(data) # 150
head(data)
x <- data$time
head(x)

2. 기술통계량 평균 계산

summary(x) # NA-41개
mean(x) # NA
mean(x, na.rm=T) # NA 제외 평균(방법1)

x <- na.omit(x) # NA 제외 평균(방법2)
mean(x)

3. 정규분포 검정
* 정규분포(바른 분포) : 확률변수 x에 대한 정규성 검정
* 귀무가설(H0) : 정규분포와 차이가 없다.

shapiro.test(x) # 정규분포 검정 수행

4. 가설검정 - 모수/비모수
정규분포(모수검정) -> t.test()
비정규분포(비모수검정) -> wilcox.test()

1) 양측검정 - 정제 데이터와 5.2시간 비교

t.test(x, mu=5.2, alter="two.side", conf.level=0.95)

2) 방향성이 있는 대립가설 검정

t.test(x, mu=5.2, alter="greater", conf.level=0.95)

[연습문제] 01. 우리나라 전체 중학교 2학년 여학생 평균 키가 148.5cm로 알려져 있는 상태에서 A중학교 2학년 전체 500명을 대상으로 10%인 50명을 표본으로 선정하여 표본평균신장을 계산하고, 모집단의 평균과 차이가 있는지를 검정하시오.(단일표본 T검정)

단계1 : 데이터셋 가져오기

setwd('C:/ITWILL/2_Rwork/data')

stheight <- read.csv("student_height.csv")
stheight
height <- data$height
head(height)

단계2 : 기술통계량/결측치 확인

length(height) #50
summary(height) #평균 149.4

결측치가 있다면

x = na.omit(height)
mean(x)

단계3 : 정규성 검정 - 기본가정

shapiro.test(x) #p-value = 0.0001853 < 0.05 : 귀무가설 기각
hist(x)

* 평균에 비해 왼쪽으로 치우친 그래프 출력(왜곡현상)

단계4 : 가설검정 - 양측검정 : 비모수 검정

wilcox.test(x, mu=148.5) #데이터분포가 비정상적일 때 wilcox.test()

* V = 826, p-value = 0.067 > 0.05

[해설] 모평균과 차이가 없다

03. 독립표본 T 검정(서로 다른 모집단)

서로 독립된 모집단으로 부터 추출된 표본의 평균 차이 검정

기본 가정 : 두 집단의 분포는 동일하다.(등분산성 검정)

기본 가설 : 두 집단간 평균의 차이는 없다.

ex. A음료수에 대한 남녀간의 만족도에 차이가 있는지 or 없는지

독립표본 T검정 분석절차

실습파일 가져오기 > 데이터 전처리 > 두 집단 subset작성 > 기술통계량(평균) > 동질성 (기본가정 : 등분산성 검정)

> YES : t.test() / NO : wilcox.text() > 검정통계량 분석

독립표본 T검정

<연구가설>
연구가설(H1) : 교육방법에 따른 두 집단 간 실기시험의 평균에 차이가 있다.
귀무가설(H0) : 교육방법에 따른 두 집단 간 실기시험의 평균에 차이가 없다.

<연구환경> IT교육센터에서 PT를 이용한 프레젠테이션 교육방법과 실시간 코딩 교육방법을 적용하여 1개월 동안 교육받은 교육생 각 150명을 대상으로 실기시험을 실시하였다. 두 집단간 실기시험의 평균에 차이가 있는가 검정한다.

1. 실습파일 가져오기

data <- read.csv("two_sample.csv")
data 
head(data) #4개 변수 확인
summary(data) # score - NA's : 73개

2. 두 집단 subset 작성(데이터 정제,전처리)
result <- subset(data, !is.na(score), c(method, score))

dataset <- data[c('method', 'score')]
table(dataset$method)

3. 데이터 분리
1) 교육방법 별로 분리

method1 <- subset(dataset, method==1)
method2 <- subset(dataset, method==2)

2) 교육방법에서 점수 추출

method1_score <- method1$score
method2_score <- method2$score

3) 기술통계량

length(method1_score); # 150
length(method2_score); # 150

4. 등분산성 검정 : 두 집단의 분산 차이 검정

var.test(method1_score, method2_score) #F = 1.2158, num df = 108, denom df = 117, p-value = 0.3002

* 귀무가설 : 두 집단의 분포는 동일하다.
* 동질성 분포 : t.test()
* 비동질성 분포 : wilcox.test()

5. 가설검정 - 두집단 평균 차이검정

t.test(method1_score, method2_score, alter="two.sided", conf.int=TRUE, conf.level=0.95)
#t = -2.0547, df = 218.19, p-value = 0.0411

* -1.961 < t < 1.96 : 채택역. 즉 t는 기각역, p는 신뢰수준에서 약간 벗어난 값이다.

방향성이 있는 연구가설 검정(기각) 방법1 > 방법2

t.test(method1_score, method2_score, alter="greater", conf.int=TRUE, conf.level=0.95)

방향성이 있는 연구가설 검정(채택) : 방법 1 < 방법2

t.test(method1_score, method2_score, alter="less", conf.int=TRUE, conf.level=0.95)
#p-value = 0.02055 < 0.05

[연습문제] 교육방법에 따라 시험성적에 차이가 있는지 검정하시오.(독립표본 T검정)
조건1) 변수 : method : 교육방법, score : 시험성적
조건2) 모델 : 교육방법(명목척도 =범주형 변수) -> 시험성적(비율척도 =연속형 변수)
교육방법에 따라 시험 점수에 어떤 차이가 있나?
조건3) 전처리 : 결측치 제거 : 평균으로 대체

단계1. 실습파일 가져오기

Data <- read.csv("twomethod.csv", header=TRUE)
head(Data) #3개 변수 확인 -> id method score

단계2. 두 집단 subset 작성

unique(Data$method) # 1 2

* 빈도수 조회 함수 table VS unique (중복되지 않는 유일한 값의 범주 출력)

변수 선택 -> 서브셋 생성

data_df <- Data[c('method', 'score')]
data_df

단계3. 데이터 분리
1) 집단(교육방법)으로 분리

method1 = subset(data$data_df, method == 1)
method2 = subset(data$data_df, method == 2)
dim(method1) #24개의 관측치 2개의 변수
dim(method2) #39개의 관측치 2개의 변수

2) 교육방법에서 시험성적 추출

score1 = method1$score
score2 = method2$score

단계4 : 분포모양 검정
서로 다른 모집단에서 추출한 점수의 분포에 차이가 있는지? =등분산성 검정. 연속형 변수를 사용함.

var.test(score1, score2) #p-value = 0.8494

단계5: 가설검정

t.test(score1, score2)
#t=-5.6056(절대값), df=43.705, p-value=1.303e-06 =0.000001303

* t는 채택역에서 많이 벗어났으므로 귀무가설이 기각될 확률이 높다.

04. 대응표본 T검정

대응표본 T 검정(동일한 모집단)?

동일한 모집단 대상 두 번 반복 측정하여 전과 후 평균 차이 검정

기본 가정 : 두 집단의 분포는 동일하다.(등분산성 검정)

기본 가설 : 두 집단간 평균의 차이는 없다.

ex. A다이어트식품 복용 전과 후 몸무게에 차이가 있는지 or 없는지

1. 실습파일 가져오기

getwd()
setwd("c:/ITWILL/2_Rwork/data")
data <- read.csv("paired_sample.csv", header=TRUE)
head(data)

2. 두 집단 subset 작성
1) 데이터 정제
result <- subset(data, !is.na(after), c(before,after))

dataset <- data[ c('before',  'after')]
dataset

2) 적용전과 적용후 분리

before <- dataset$before# 교수법 적용전 점수
after <- dataset$after # 교수법 적용후 점수
before; after

3) 기술통계량

length(before) # 100
length(after) # 100
mean(before) # 5.145
mean(after, na.rm = T) # 6.220833

3. 정규성검정 : diff = before - after

diff = after-before
shapiro.test(after-before) #p-value = 0.05705 >= 0.05 정규분포라고 가정할 수 있음

* 정규분포 : t.test()
* 비정규분포 : wilcox.test()

4. 가설검정

t.test(before, after, paired=TRUE) # p-value < 2.2e-16 : 귀무가설 기각

방향성이 있는 연구가설 검정 before > after

t.test(before, after, paired=TRUE,alter="greater",conf.int=TRUE, conf.level=0.95)

방향성이 있는 연구가설 검정

t.test(before, after, paired=TRUE,alter="less",conf.int=TRUE, conf.level=0.95)

05. F분포와 검정

카이제곱분포를 기반으로 만들어진 검정 (자유도(df)가 클 수록 좌우대칭와 비슷해짐)

F검정(=분산분석)?

모집단 정규분포이고, 모집단의 분산(σ2)이 알려지지 않은 경우, 3개 이상의 모집단의 분산이 같은지 or 다른지 검정

각 모집단의 분산에 대한 비율 추정(F분포표 이용)

기본 가정 : 각 집단의 분포는 동일하다.(등분산성 검정)

기본 가설 : 각 집단의 평균의 차이는 없다.

* 방법 : 일원분산분석, 이원분산분석, 다원 변량 분산분석

* 검정 방법 : 분산분석, 모수(정규분포) : 일원배치분산분석, 비모수(비정규분포) : 크루스칼-월리스(Kruskal-Wallis)검정

F검정 방법

종류	변수 개수	사례
일원 분산분석	독립변수 : 1개 종속변수 : 1개	교육 방법에 따른 성적 비교 독립변수(범주형) : 방법1, 방법2, 방법3 종속변수(연속형) : 성적
이원 분산분석	독립변수 : 2개 종속변수 : 1개	쇼핑몰 고객의 연령대(30,40,50대), 시간대(오전/오후)별 구매현황 독립변수(범주형) : 연령대, 시간대 종속변수(연속형) : 구매현황
다원 변량 분산분석	독립변수 : 1개, 2개 종속변수 : 2개	쇼핑몰 고객의 연령대(30,40,50대), 시간대(오전/오후)별 구매현황 독립변수(범주형) : 연령대, 시간대 종속변수(연속형) : 구매현황

6. 분산 분석(ANOVA Analysis)

분산분석(서로 다른 모집단)? 서로 독립된 3개 이상 모집단 간의 평균 차이 검정  기본 가정 : 각 집단의 분포는 동일하다.(등분산성 검정)

기본 가설 : 각 집단간 평균의 차이는 없다.

대립 가설 : 적어도 한 집단 이상 평균의 차이가 있다.

ex. A음료수에 대한 연령별(20대,30대,40대) 만족도에 차이가 있는지 or 없는지

분산 분석 절차

실습파일 가져오기 > 데이터 전처리 > 세 집단 subset 작성 > 기술통계량(평균) > 동질성 (기본가정 : 등분산 검정. bartlett.test()) > YES : aov() / NO : kruskal.test() > 사후검정

분산 분석

<연구가설>
연구가설(H1) : 교육방법에 따른 세 집단 간 실기시험의 평균에 차이가 있다.
귀무가설(H0) : 교육방법에 따른 세 집단 간 실기시험의 평균에 차이가 없다.

<연구환경> 세 가지 교육방법을 적용하여 1개월 동안 교육받은 교육생 각 50명씩을 대상으로 실기시험을 실시하였다. 세 집단간 실기시험의 평균에 차이가 있는가 검정한다.

1. 파일 가져오기

data <- read.csv("three_sample.csv")
data

2. 데이터 정제/전처리 - NA, outline 제거

data <- subset(data, !is.na(score), c(method, score)) 
data # method, score

(1) 차트이용 - ontlier 보기(데이터 분포 현황 분석)

plot(data$score) # 차트로 outlier 확인 : 50이상과 음수값
barplot(data$score) # 바 차트
mean(data$score) # 14.45

(2) outlier 제거 - 평균(14) 이상 제거

length(data$score)#91
data2 <- subset(data, score <= 14) # 14이상 제거
length(data2$score) #88(3개 제거)

(3) 정제된 데이터 보기

x <- data2$score
boxplot(x) #이상치 확인
plot(x)

3. 집단별 subset 작성
* method: 1:방법1, 2:방법2, 3:방법3

data2$method2[data2$method==1] <- "방법1" 
data2$method2[data2$method==2] <- "방법2"
data2$method2[data2$method==3] <- "방법3"

table(data2$method2) # 교육방법 별 빈도수

4. 등분산성 검정 : 동질성 검정

#bartlett.test(종속변수 ~ 독립변수) # 독립변수(세 집단)
bartlett.test(score ~ method2, data=data2)
# p-value = 0.1905 >= 0.05

* 귀무가설 : 집단 간 분포의 모양이 동질적이다.
* [해설] 유의수준 0.05보다 크기 때문에 귀무가설을 기각할 수 없다.

* 동질한 경우 : aov() - Analysis of Variance(분산분석)
* 동질하지 않은 경우 - kruskal.test()

5. 분산검정(집단이 2개 이상인 경우 분산분석이라고 함)
* aov(종속변수 ~ 독립변수, data=data set)
* 귀무가설 : 집단 간 평균에 차이가 없다.

result <- aov(score ~ method2, data=data2)

* aov()의 결과값은 summary()함수를 사용해야 p-value 확인

summary(result)

* F가설이 클수록, P-value(귀무가설 지지값)은 낮아진다.
* Pr(>F)=9.39e-14 >= 0.05 유의미하게 귀무가설 기각
[해설] 적어도 한 집단 이상에서 평균에 차이를 보인다.

6. 사후검정 : 세부적인 집단 간 차이 검정

TukeyHSD(result)

diff        lwr        upr     p adj
방법2-방법1  2.612903  1.9424342  3.2833723 0.0000000 : 점수 평균 차이가 가장 많이 보임
방법3-방법1  1.422903  0.7705979  2.0752085 0.0000040 : 차이 있음
방법3-방법2 -1.190000 -1.8656509 -0.5143491 0.0001911 : 차이 있음
* diff : 신뢰구간(95%)의 상한값(upr)-하한값(lwr)
* p adj : p-value (=유의확률)

차트로 해석

plot (TukeyHSD(result))

[해설] 3개의 모든 신뢰구간이 중간의 0을 포함하고 있지 않으므로 평균의 차이가 있다

그룹별 통계 : 분산분석 사후검정에서 이용

install.packages('dplyr')

* library(dplyr) #%>%연산자, group_by(), summarize()

형식) df %>% group_by('범주형변수') %>% summarize(var_name = function(column_name))
* function : sum, mean, median, sd, var, min, max 등
* 경고메시지 무시

교육방법별 점수 평균

data2 %>% group_by(method2) %>% summarize(avg = mean(score))

method2   avg
<chr>   <dbl>
1 방법1    4.19
2 방법2    6.8

3 방법3 5.61
* 방법2(6.8) - 방법1(4.19) = 2.612903

* subset 이용한 교육방법별 점수 평균

names(data2) "method"  "score"   "method2"
method1 = subset(data2, method2 == '방법1')
method2 = subset(data2, method2 == '방법2')
method3 = subset(data2, method2 == '방법3')

mean(method1$score) #4.187097
mean(method2$score) #6.8
mean(method3$score) #5.61

비모수 검정 : iris 적용

str(iris)
table(iris) #3개의 집단 확인

* Species:독립변수(범주형변수)
* Sepal.Length, Sepal.Width, Petal.Length, Petal.Width:종속변수(연속형변수)

1. 등분산성검정

bartlett.test(Sepal.Width ~ Species, data=iris) #p-value = 0.3515 : 모수검정
bartlett.test(Petal.Length ~ Species, data=iris) #p-value = 9.229e-13 : 비모수검정

2. 분산분석 : 비모수 검정

model = kruskal.test(Petal.Length ~ Species, data=iris)
model #p-value < 2.2e-16

[해설] 적어도 한 집단에 차이가 있다

3. 사후검정 (꽃의 종별로 꽃받침의 평균)
#* ukeyHSD(model)은 error

iris %>% group_by(Species) %>% summarise(avg=mean(Sepal.Length))

Species      avg
<fct>      <dbl>
1 setosa      5.01
2 versicolor  5.94
3 virginica   6.59

[예제] 쇼핑몰 고객의 연령대(20,30,40)별, 시간대(오전/오후)별 구매현황
종속변수 : 구매수량(연속형)
독립변수1 : 연령대별(범주형)
독립변수2 : 시간대별(범주형)

1. dataset 생성 : 균등분포

age = round(runif(100, min=20, max=49))
age

time = round(runif(100, min=0, max=1))
time 0:오전 1:오후

buy = round(runif(100,min=1, max=10))
buy

datas = data.frame(age, time, buy)
datas
str(datas)

연령대 변수 리코딩

datas$age2[datas$age <= 29] = 20 29세 미만은 20
datas$age2[datas$age > 29 & datas$age <= 39] = 30
datas$age2[datas$age > 39] = 40

독립변수 : 요인형 변환

datas$age2 = as.factor(datas$age2)
datas$time = as.factor(datas$time)
str(datas)

2. 등분산성검정

bartlett.test(buy ~ age2, data=datas) #p-value = 0.6989
bartlett.test(buy~time, data=datas) #p-value = 0.6989

3. 분산분석 : 이원배치 분산분석

model = aov(buy~age2 + time, data=datas)

4. 분산분석 결과 해석

summary(model)

Df Sum Sq Mean Sq F value Pr(>F)
age2         2    9.6    4.78   0.682 0.5080  :연령대별 차이 없음
time         1   40.4   40.36   5.757 0.0184 * :시간대별 차이 있음
Residuals   96  673.0    7.01

5. 사후검정

TukeyHSD(model)

$age2
diff lwr upr p adj
30-20 -0.2013889 -1.848509 1.4457314 0.9543943 : 30대와 20대 간 구매수량에 차이가 없음
40-20 -0.7181572 -2.280358 0.8440436 0.5198682
40-30 -0.5167683 -2.003562 0.9700254 0.6869840

$time
diff lwr upr p adj
1-0 1.265588 0.2142492 2.316926 0.0188252

plot(TukeyHSD(model))

library(dplyr)
datas %>% group_by(age2) %>% summarise(mean(buy))

age2       `mean(buy)`
  <fct>         <dbl>
1 20           5.89
2 30           5.69
3 40           5.17

'데이터분석가 과정 > R' 카테고리의 다른 글

DAY21. 주성분분석, 요인분석 (0)	2021.10.14
DAY20. R 상관분석, 공분산 (0)	2021.10.13
DAY18. R 교차분석검정(카이제곱검정) (0)	2021.10.08
DAY17. R 통계분석절차, 통계기본지식 (0)	2021.10.07
DAY16. R 비정형데이터 (토픽/연관어/감성분석) (0)	2021.10.06

💣

DAY19. R T검정과 분산분석

'데이터분석가 과정 > R' 카테고리의 다른 글

+ Recent posts

티스토리툴바