DAY30. R 보충수업 기술통계분석, up&down 샘플링

LEE_BOMB 2021. 10. 27. 17:16

2021. 10. 27. 17:16

기술통계(Descriptive Statistics)

기술통계 : 자료를 요약하는 기초적인 통계량, 변수의 특성 파악 및 모집단 유추
대푯값 : 평균(Mean), 합계(Sum), 중위수(Median), 최빈수(mode), 사분위수(quartile) 등
산포도 : 분산(Variance), 표준편차(Standard deviation), 최소값(Minimum), 최대값(Maximum), 범위(Range) 등
비대칭도 : 왜도(Skewness), 첨도(Kurtosis)

실습파일 가져오기

setwd("C:/ITWILL/2_Rwork/data")
data = read.csv("descriptive.csv", header=TRUE)

head(data) # 데이터셋 확인

data Mart
resident   gender      age   level       cost    type     survey    pass
거주지역   성별       나이  학력수준     생활비  학교유형  만족도    합격여부
명목(1~3)  명목(1,2)  비율  서열(1,2,3)  비율    명목(1,2) 등간(5점) 명목(1,2)
* 인구통계학변수 : 거주지역, 성별, 나이, 학력수준

1. 척도별 기술통계량
1) 명목/서열 척도 변수의 기술통계량
명목상 의미없는 수치로 표현된 변수 - 성별(gender)

length(data$gender)
summary(data$gender) # 최소,최대,중위수,평균-의미없음
table(data$gender) # 각 성별 빈도수 - outlier 확인-> 0, 5

data = subset(data,data$gender == 1 | data$gender == 2) # 성별 outlier 제거
x = table(data$gender) # 성별에 대한 빈도수 저장
x # outlier 제거 확인
barplot(x) # 범주형(명목/서열척도) 시각화 -> 막대차트

prop.table(x) # 비율 계산 : 0< x <1 사이의 값
y = prop.table(x)
round(y*100, 2) #백분율 적용(소수점 2자리)

2) 등간척도 변수의 기술통계량
속성의 간격이 일정한 변수(survey) - 덧셈/뺄셈 연산 가능

survey = data$survey
survey

summary(survey) # 만족도(5점 척도)인 경우 의미 있음 
x1<-table(survey) # 빈도수
x1

hist(survey) # 등간척도 시각화 -> 히스토그림
pie(x1)

3) 비율척도 변수의 기술통계량 : cost 변수

summary(data$cost) # 요약통계량 - 의미있음(mean) - 8.784
mean(data$cost) # NA
data$cost

데이터 정제 - 결측치 제거 및 outlier 제거

plot(data$cost)
data = subset(data,data$cost >= 2 & data$cost <= 8) # 총점기준

cost변수 추출

cost = data$cost
cost

2. 대푯값
1) 평균(Mean)

mean(cost)

* 평균이 극단치에 영향을 받는 경우 -> 중위수(median) 대체

2) 중위수(Median) : 정렬 -> 중앙값

median(cost) # 5.4  

sort(cost) #오름차순 정렬
sort(cost, decreasing = TRUE)

중위수 구하기

length(cost) #248

전체길이 짝수 = (n/2번째 + n/2+1번째)/2
전체 길이 홀수 = n/2번째

idx = length(cost)/2 #n/2번째 색인

정렬

cost_sort = sort(cost)
(cost_sort[idx] + cost_sort[idx+1])/2 #5.4

3) 최빈수(mode) : 연속형변수 hist() 이용

hist(cost) #가장 높은 봉의 계급 = 6.5

<최빈수, 중위수, 평균의 관계>
1) 최빈수=중위수=평균 : 좌우 대칭
2) 최빈수 > 중위수 > 평균 : 오른쪽 기울어짐
3) 최빈수 < 중위수 < 평균 : 왼쪽 기울어짐
[해설] 극단치에 의해서 평균과 중위수 위치는 변경

4) 합계(Sum)

sum(cost)

5) 사분위수(quartile)

quantile(cost, 1/4) # 1 사분위수 - 25%, 4.6
quantile(cost, 3/4) # 3 사분위수 - 75%, 6.2
quantile(cost)

0% 25% 50% 75% 100%
2.1 4.6 5.4 6.2 7.9

* IQR = Q3 - Q1 (IQR : 이상치 처리할 때 사용되는 정상범주)
Q1 - 1.5 * IQR ~ Q3 + 1.5 * IQR

자료 정렬 sort() VS order()
sort(x) : 해당 x변수의 값으로 정렬 후 값 변환
order(x) : 해당 x변수의 값으로 정렬 후 행 번호(index) 반환

x = data$cost
sort(x) #2.1~7.9 값(value)
order(x) #17~232 : 색인(index)

x[17] #2.1
x[232] #7.9

ex. 특정 변수(cost)를 기준으로 dataset정렬

dim(data)
head(data)
tail(data)

data_order = data[order(data$cost), ] #오름차순 정렬
#내림차순 정렬 : order(data$cost, decreasing = TRUE)
head(data_order)
tail(data_order)

3. 산포도 (0의 수렴정도에 의해 평균에서의 거리를 알 수 있다. 0에 가까울수록 평균에 밀집되어 있다.)
1) 분산(Variance)

var(x) #분산 : 1.291597

분산 수식

mu = mean(cost)
n = length(cost)
var = sum((cost-mu)^2) / n
var #1.291597

2) 표준편차(Standard deviation)

sd(cost) #1.138783 표준편차는 분산의 양의 제곱근
sqrt(var(cost)) #1.138783

표준편차 -> 분산

sd(cost) ** 2 #1.296826

3) 최소값/최대값/범위

min(cost) #최소값 2.1
max(cost) #최대값 7.9
range(cost) #범위(min ~ max) 2.1 7.9

4) 표준값 = (X-평균) / 표준편차
동일한 척도(scale) 기준으로 가치평가

ex. 홍길동 : 국어 70(반 평균 59, 편차 15), 수학 70점 (반 평균 51, 편차 18)

kor_z = (70-59)/15
mat_z = (70-51) / 18
kor_z #0.7333333
mat_z #1.055556

[해석] 수학점수 70점이 국어점수 70점보다 가치가 높다

4. 비대칭도 : 패키지 이용

install.packages("moments")  # 왜도/첨도 위한 패키지 설치   
library(moments)

cost = data$cost # 정제된 data
cost

1) 왜도 - 평균을 중심으로 기울어진 정도

skewness(cost) # -0.297234

0보다 크면 왼쪽 기울어짐(오른쪽방향 비대칭 꼬리)
0보다 작으면 오른쪽 기울어짐(왼쪽방향 비대칭 꼬리)
0과 같으면 좌우대칭

2) 첨도 - 표준정규분포와 비교하여 얼마나 뾰족한가 측정 지표

kurtosis(cost) # 2.683438

정규분포 첨도 = 3

3) 히스토그램 : 대칭성

hist(cost)

밀도분포곡선과 표준정규분포 곡선
단계1. 히스토그램 확률밀도

hist(cost, freq = F) #freq = F 조건으로 y축의 단위가 밀도로 바뀐다

(확률)밀도 분포 곡선 : 히스토그램의 밀도 추정
밀도(R 확률밀도함수) = 확률의 적분값(면적) 계산
밀도 추정 : 확률 분포 특성을 추정

표준정규분포 곡선

?density # KDE[Kernel Density Estimation]
lines(density(cost), col='blue')

단계2. 표준정규분포 곡선

?dnorm # Normal Distribution

평균 및 표준 편차를 이용하여 표준정규 분포의 확률 밀도 분포 계산

x = seq(0, 8, 0.1)
curve(dnorm(x, mean(cost), sd(cost)), col='red', add = T) #dnorm : 정규분포 추정 조건

[해석] 왜도 < 0 : 오른쪽으로 기울었다. 첨도는 정규분포 3보다 완만한 모양이다. 즉 cost는 정규분포와 차이가 있다.

단계3. QQ-plot

qqnorm(cost, main = 'cost QQ-plot') #real value
qqline(cost, col='red') #정규분포를 나타내는 직선형 그래프

[해석] 정규분포와 약간의 차이가 있다.

단계4. 정규성 검정
귀무가설 : 정규분포와 차이가 없다 or 대립가설 : 정규분포와 차이가 있다.

shapiro.test(cost) #p-value = 0.002959 < 0.05

[해석] 대립가설 채택

* 왜도, 대표값의 관계
왜도 > 0, 최빈수 < 중위수 < 평균 : 왼쪽 기울어짐
왜도 < 0, 최빈수 > 중위수 > 평균 : 오른쪽 기울어짐

5. 기술통계 보고서 작성법
빈도분석 : 논문에서 인구통계학적 특성 반영

1) 거주지역

data$resident2[data$resident == 1] = "특별시"
data$resident2[data$resident >=2 & data$resident <=4] = "광역시"
data$resident2[data$resident == 5] = "시구군"

x = table(data$resident2)
prop.table(x) # 비율 계산

y = prop.table(x)
round(y*100, 2) #백분율 적용(소수점 2자리)

2) 성별

data$gender2[data$gender== 1] = "남자"
data$gender2[data$gender== 2] = "여자"

x = table(data$gender2)
prop.table(x) # 비율 계산

y = prop.table(x)
round(y*100, 2) #백분율 적용(소수점 2자리)

3) 나이

summary(data$age)# 40 ~ 69
data$age2[data$age <= 45] = "중년층"
data$age2[data$age >=46 & data$age <=59] = "장년층"
data$age2[data$age >= 60] = "노년층"

x = table(data$age2)
prop.table(x) # 비율 계산

y = prop.table(x)
round(y*100, 2) #백분율 적용(소수점 2자리)

4) 학력수준

data$level2[data$level== 1] = "고졸"
data$level2[data$level== 2] = "대졸"
data$level2[data$level== 3] = "대학원졸"

x = table(data$level2)
prop.table(x) #비율 계산 
y = prop.table(x)
round(y*100, 2) #백분율 적용(소수점 2자리)

5) 합격여부

data$pass2[data$pass== 1] <-"합격"
data$pass2[data$pass== 2] <-"실패"
x = table(data$pass2)
prop.table(x) # 비율 계산 : 0< x <1 사이의 값
y = prop.table(x)
round(y*100, 2) #백분율 적용(소수점 2자리)

업다운샘플링 (UpDown Sampling)

1. sample(n, size) : 비복원추출

sample(x=10:20, size=5, replace = FALSE) #20 11 10 15 14
sample(c(10:20, 30:40), 10) #35 16 13 12 34 20 31 19 30 38

2. up/down 샘플링
복원추출 방식 y변수의 비율을 맞추는 샘플링 방식
필요성 :모델 학습 시 동일한 비율로 샘플링할 때

install.packages('caret')
library(caret)

weather = read.csv('weather.csv')
dim(weather) #366  15
str(weather) 
table(weather$RainTomorrow)

No Yes
300 66

y변수 요인형 변경

weather$RainTomorrow = as.factor(weather$RainTomorrow)
str(weather) # $RainTomorrow : Factor

y변수 제외

weather_df = subset(weather, select = -RainTomorrow)
dim(weather_df) #366  14

Up sample : y의 높은 비율 기준 (y 변수 추가)

up_weather = upSample(weather_df, weather$RainTomorrow)
str(up_weather) #600
dim(up_weather) #600  15

Down sample : y의 높은 비율 기준 (y 변수 추가)

down_weather = downSample(weather_df, weather$RainTomorrow)
str(down_weather) # 132 obs

table(down_weather$Class)

No Yes
66 66

y변수 이름 변경

cols = names(down_weather)
cols
cols[15] = 'RainTomorrow' #15번 색인 하나만 이름 변경

names(down_weather) = cols
str(down_weather)

'데이터분석가 과정 > R' 카테고리의 다른 글

DAY29. R 총정리 문제 (0)	2021.10.26
DAY28. R 앙상블모델 (0)	2021.10.25
DAY27. R 연관분석 (0)	2021.10.22
DAY26. R 군집분석(2) (0)	2021.10.21
DAY25. R 군집분석 (0)	2021.10.21

💣

DAY30. R 보충수업 기술통계분석, up&down 샘플링

'데이터분석가 과정 > R' 카테고리의 다른 글

+ Recent posts

티스토리툴바