κ°œμΈκ³΅λΆ€/R

29. R 상관뢄석 μ—°μŠ΅λ¬Έμ œ

LEE_BOMB 2021. 10. 13. 21:21

01. mtcars λ°μ΄ν„°μ…‹μ˜ μ—°λΉ„νš¨μœ¨(mpg), μ‹€λ¦°λ”μˆ˜(cyl), 엔진크기(disp), 마λ ₯(hp), 무게(wt) λ³€μˆ˜λ₯Ό λŒ€μƒμœΌλ‘œ μ„œλΈŒμ…‹μ„ μž‘μ„±ν•˜μ‹œμ˜€.

library(datasets)
data(mtcars)
str(mtcars)

 

칼럼λͺ… 이용

mtcars_df = mtcars[c('mpg','cyl','disp','hp','wt')]
str(mtcars_df)

 

색인 이용

mt_cars_df2 = mtcars[c(1:4,6)]
str(mtcars_df2)



02. μž‘μ„±λœ μ„œλΈŒμ…‹μ„ λŒ€μƒμœΌλ‘œ 상관뢄석을 μˆ˜ν–‰ν•˜μ—¬ μ—°λΉ„νš¨μœ¨(mpg)κ³Ό κ°€μž₯ μƒκ΄€κ³„μˆ˜κ°€ 높은 λ³€μˆ˜λ₯Ό ν™•μΈν•˜μ‹œμ˜€. 

COR = cor(mtcars_df, method="pearson")
COR['mpg',] #wt:-0.8676594

      mpg        cyl            disp         hp         wt 
1.0000000 -0.8521620 -0.8475514 -0.7761684 -0.8676594



03. μ—°λΉ„νš¨μœ¨κ³Ό κ°€μž₯ μƒκ΄€κ³„μˆ˜κ°€ 높은 λ³€μˆ˜μ™€ μ‚°μ λ„λ‘œ μ‹œκ°ν™”ν•˜μ‹œμ˜€. 힌트) plot()ν•¨μˆ˜ 이용 

plot(mtcars_df$mpg, mtcars_df$wt)

 

[ν•΄μ„€] 두 λ³€μˆ˜λŠ” 음의 μƒκ΄€κ³„μˆ˜λ₯Ό 보인닀.

 


04. iris λ°μ΄ν„°μ…‹μ—μ„œ 5번째 μΉΌλŸΌμ„ μ œμ™Έν•œ 4개의 칼럼으둜 μƒκ΄€κ³„μˆ˜λ₯Ό ν™•μΈν•˜μ‹œμ˜€.
<단계1> 4개 칼럼 κ°„μ˜ μƒκ΄€κ³„μˆ˜ ν–‰λ ¬ 확인 

data(iris)
cor(iris[-5])


<단계2> 첫번째 칼럼(Sepal.Length) κΈ°μ€€μœΌλ‘œ λ‚˜λ¨Έμ§€ λ³€μˆ˜μ™€ μƒκ΄€κ³„μˆ˜ 좜λ ₯  

COR = cor(iris[-5])
COR['Sepal.Length',]

Sepal.Length  Sepal.Width  Petal.Length  Petal.Width  
1.0000000     -0.1175698    0.8717538    0.8179411 

<단계3> μ–‘μ˜ μƒκ΄€κ³„μˆ˜κ°€ κ°€μž₯ 큰 두 λ³€μˆ˜λ₯Ό λŒ€μƒμœΌλ‘œ 산점도 μ‹œκ°ν™”
<쑰건1> qplot()ν•¨μˆ˜ 이용
<쑰건2> Species λ³€μˆ˜λ‘œ 색상 적용     

library(ggplot2)
qplot(Petal.Length, Petal.Width, data=iris, color=Species)