01. tranExam.csv ํ์ผ์ ๋์์ผ๋ก ์ค๋ณต๋ ํธ๋์ญ์
์์ด 1~2์ปฌ๋ผ๋ง single ํ์์ผ๋ก ํธ๋์ญ์
๊ฐ์ฒด๋ฅผ ์์ฑํ์์ค.
(ํ์ผ๊ฒฝ๋ก : tranExam.csv)
๋จ๊ณ1 : ํธ๋์ญ์
๊ฐ์ฒด ์์ฑ ๋ฐ ํ์ธ
๋จ๊ณ2 : ๊ฐ item๋ณ๋ก ๋น๋์ ํ์ธ
๋จ๊ณ3 : ํ๋ผ๋ฏธํฐ(supp=0.3, conf=0.1)๋ฅผ ์ด์ฉํ์ฌ ๊ท์น(rule) ์์ฑ
๋จ๊ณ4 : ์ฐ๊ด๊ท์น ๊ฒฐ๊ณผ ๋ณด๊ธฐ
setwd("C:/ITWILL/2_Rwork/data")
๋จ๊ณ1 : ํธ๋์ญ์ ๊ฐ์ฒด ์์ฑ ๋ฐ ํ์ธ
library(arules)
tranExam <- read.transactions("tranExam.csv", format="single",
sep=",", cols=c(1,2), rm.duplicates=T)
๋จ๊ณ2 : ๊ฐ item๋ณ๋ก ๋น๋์ ํ์ธ : summary() ํจ์ ์ด์ฉ
summary(tranExam)
5 rows (elements/itemsets/transactions) and : ๊ฑฐ๋์
4 columns (items) and a density of 0.6 : ์ํ์
most frequent items:
1 2 3 4 (Other)
4 3 3 2 0
inspect(tranExam)
๋จ๊ณ3 : ํ๋ผ๋ฏธํฐ(supp=0.3, conf=0.1)๋ฅผ ์ด์ฉํ์ฌ ๊ท์น(rule) ์์ฑ
rules = apriori(tranExam, parameter = list(supp=0.3, conf=0.1))
rules # set of 12 rules
๋จ๊ณ4 : ์ฐ๊ด๊ท์น ๊ฒฐ๊ณผ ๋ณด๊ธฐ : inspect() ํจ์ ์ด์ฉ
inspect(rules)
02. Adult ๋ฐ์ดํฐ์
์ ๋์์ผ๋ก ๋ค์ ๋จ๊ณ๋ณ๋ก ์ฐ๊ด๋ถ์์ ์ํํ์์ค.
๋จ๊ณ1: ์ต์ support=0.5, ์ต์ confidence=0.9๋ฅผ ์ง์ ํ์ฌ ์ฐ๊ด๊ท์น ์์ฑ
data(Adult)
library(arulesViz)
rules = apriori(Adult, parameter = list(supp=0.5, conf=0.9)) # 52 rule(s)
๋จ๊ณ2: ์ํํ ๊ฒฐ๊ณผ๋ฅผ lift ๊ธฐ์ค์ผ๋ก ์ ๋ ฌํ์ฌ ์์ 10๊ฐ ๊ท์น ํ์ธ
inspect(head(sort(rules, by='lift'), 10))
๋จ๊ณ3: ์ฐ๊ด๋ถ์ ๊ฒฐ๊ณผ๋ฅผ LHS์ RHS์ ๋น๋์๋ก ์๊ฐํ
plot(rules, method="grouped")
๋จ๊ณ4: ์ฐ๊ด๋ถ์ ๊ฒฐ๊ณผ๋ฅผ ์ฐ๊ด์ด ๋คํธ์ํฌ ํํ๋ก ์๊ฐํ
plot(rules, method="graph")
๋จ๊ณ5: ์ฐ๊ด์ด ์ค์ฌ ๋จ์ด ํด์ค
ํํ์ฌ๊ฑด(rhs) : capital-loss=None, captial-gain=None
์ ํ์ฌ๊ฑด(lhs) : race=White, workclass=Private, sex=Male ๋ฑ
03. Adult ๋ฐ์ดํฐ์
์ ๋์์ผ๋ก ๋ค์ ๋จ๊ณ๋ณ๋ก ์ฐ๊ด๋ถ์์ ์ํํ์์ค.
๋จ๊ณ1 : support=0.3, confidence=0.95๊ฐ ๋๋๋ก ์ฐ๊ด๊ท์น ์์ฑ
rules = apriori(Adult, parameter = list(supp=0.3, conf=0.95)) # 124 rule(s)
๋จ๊ณ2 : ์ผ์ชฝ item์ด ๋ฐฑ์ธ(White)์ธ ๊ท์น๋ง ์๋ธ์
์ผ๋ก ์์ฑํ๊ณ , ์๊ฐํ
white = subset(rules, lhs %in% 'race=White')
white # set of 46 rules
plot(white, method='graph')
๋จ๊ณ3 : ์ผ์ชฝ item์ด ๋ฐฑ์ธ์ด๊ฑฐ๋ ๋ฏธ๊ตญ์ธ์ ๋์์ผ๋ก ์๋ธ์
์ ์์ฑํ๊ณ , ์๊ฐํ
white_usa = subset(rules, lhs %in% c('race=White', 'native-country=United-States'))
white_usa # set of 76 rules
plot(white_usa, method='graph')
๋จ๊ณ4 : ์ค๋ฅธ์ชฝ item์์ 'Husband' ๋จ์ด๋ฅผ ํฌํจํ ๊ท์น์ ์๋ธ์
์ผ๋ก ์์ฑํ๊ณ , ์๊ฐํ
husband = subset(rules, rhs %pin% 'Husband')
husband # set of 12 rules
plot(husband, method='graph')
'๊ฐ์ธ๊ณต๋ถ > R' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
์ธ๋ฏธํ๋ก์ ํธ01 ์ฃผ์ ์ ์ , ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ (0) | 2021.10.28 |
---|---|
39. R ์์๋ธ๋ชจ๋ธ ์ฐ์ต๋ฌธ์ (0) | 2021.10.25 |
35. R ๊ตฐ์ง๋ถ์ ์ฐ์ต๋ฌธ์ (0) | 2021.10.21 |
34. R ๋ถ๋ฅ๋ถ์ ์ฐ์ต๋ฌธ์ (0) | 2021.10.19 |
33. R ๋ก์ง์คํฑํ๊ท๋ถ์ ์ฐ์ต๋ฌธ์ (0) | 2021.10.18 |