์ด์ ๋ฆฌ ์ฐ์ต๋ฌธ์
2012๋ ๋ฏธ๊ตญ ๋์ ๊ธฐ๋ถ๊ธ ํํฉ ๋ฐ์ดํฐ ์
election = read.csv(file.choose(), stringsAsFactors = F) # election_2012.csv ์ ํ
dim(election) # 1001731 16
str(election) # dim + class
<๋ฐ์ดํฐ ์
์ค๋ช
> : 2012๋
๋ฏธ๊ตญ ๋์ ์('Romney, Mitt'์ 'Obama, Barack') ํ์๊ธ ํํฉ
'data.frame': 1001731 obs. of 16 variables:
3. cand_nm : ๋์ ํ๋ณด์์ด๋ฆ
4. contbr_nm : ํ์์์ด๋ฆ
5. contbr_city : ํ์ ๋์
9. contbr_occupation : ํ์์ ์ง์
๊ตฐ
10. contb_receipt_amt: ํ์๊ธ
11. contb_receipt_dt : ํ์ ๋ ์ง
chapter 01 : ์๋ฃํ, ํ๋ณํ(๋ ์ง ๋ณํ)
[๋ฌธ์ 1] election ๋ฐ์ดํฐ์
์ ๋ณ์๋ฅผ ๋์์ผ๋ก ์๋ฃํ์ ํ์ธํ๊ณ ์๋ฃํ์ ๋ณ๊ฒฝํ์์ค.
์์์๊ฐ : 5๋ถ
1) cand_nm, contb_receipt_amt, contb_receipt_dt ๋ณ์์ ์๋ฃํ ํ์ธํ๊ธฐ
ํํธ) mode() ์ด์ฉ
mode(election$cand_nm) # "character"
mode(election$contb_receipt_amt) # "numeric"
mode(election$contb_receipt_dt) # "character"
2) ํ์๋ ์ง(contb_receipt_dt)๋ณ์๋ฅผ ๋ ์งํ์ผ๋ก ๋ณํํ๊ธฐ
date = election$contb_receipt_dt
date[1:10] # "20-Jun-11" "23-Jun-11" -> ๋ฏธ๊ตญ์ : ์ผ-์-๋
๋
Sys.Date(data) # Error in Sys.Date(data) : unused argument (data)
๋ค๊ตญ์ด ์ ๋ณด ๋ณ๊ฒฝ : ํ๊ตญ -> ์์ด
Sys.getlocale() # "LC_COLLATE=Korean_Korea
Sys.setlocale(locale = 'English_USA') # ๋ฏธ๊ตญ์
๋ฏธ๊ตญ์ : ์ผ-์-๋ ๋ -> ํ๊ตญ์ : ๋ ๋-์-์ผ
kdate <- strptime(date, "%d-%b-%y")
kdate[1:10]
๋ ์งํ ์์
election$contb_receipt_dt <- kdate
Sys.setlocale(locale = 'Korean_Korea') # ํ๊ตญ์ ๋ณ๊ฒฝ
chapter 02 : ์์ธ(index), ์นผ๋ผ๋ช
๋ณ๊ฒฝ
[๋ฌธ์ 2] election ๋ฐ์ดํฐ์
์ ๋์์ผ๋ก 6๊ฐ ์นผ๋ผ(๋ฐ์ดํฐ ์
์ค๋ช
)๋ง ์ ํํ์ฌ ์๋ก์ด ๋ฐ์ดํฐ์
์ ๋ง๋ค์์ค.
์์์๊ฐ : 3๋ถ
1) ์์ธ(index) ์ด์ฉํ๊ธฐ : ํํธ) dataset[, c(์ดindex1, ์ดindex2, ...)]
election_df = election[,c(3:5,9:11)]
dim(election_df) # 1001731 6
2) election_df ์นผ๋ผ๋ช
๋ณ๊ฒฝํ๊ธฐ : ํํธ) names(dataset) <- c('์นผ๋ผ๋ช
1','์นผ๋ฌ๋ช
2', ...)
์์ ์นผ๋ผ๋ช :'cand_name','contbr_name','city','occupation','receipt_amt','receipt_date'
names(election_df)
names(election_df) <- c('cand_name','contbr_name','city','occupation','receipt_amt','receipt_date')
names(election_df)
chapter 03 : ์๋ธ์
(subset) ๋ง๋ค๊ธฐ
[๋ฌธ์ 3] 'Romney, Mitt'์ 'Obama, Barack' ๋๋ นํต ํ๋ณด์ ๋ณ๋ก ์๋ธ์
(subset)์ ์์ฑํ์์ค.
์์์๊ฐ : 6๋ถ
1) ๋์ ํ๋ณด์ ์ด๋ฆ(cand_name)์ ๋์์ผ๋ก ์ค๋ณต๋์ง ์์ ํ๋ณด์ ์ด๋ฆ๊ณผ ๊ฐ ํ๋ณด์๋ณ ๋น๋์ ํ์ธํ๊ธฐ
ํํธ) unique() : ์ ์ผ๊ฐ ํ์ธ, table() : ๋น๋์ ํ์ธ
unique(election_df$cand_name) # 13๋ช
- "Romney, Mitt", "Obama, Barack"
table(election_df$cand_name)
2) 'Romney, Mitt'์ 'Obama, Barack' ๋๋ นํต ํ๋ณด์ ๋ณ๋ก ์๋ธ์
๋ง๋ค๊ธฐ
ํํธ) subset(dataset, subset = ์กฐ๊ฑด์)
romney = subset(election_df, subset = cand_name == "Romney, Mitt") # 'Romney, Mitt'
obama = subset(election_df, subset = cand_name == "Obama, Barack")# 'Obama, Barack'
์ฐจ์ ํ์ธ
dim(romney) # 107229 6
dim(obama) # 593746 6
๋ด์ฉ ํ์ธ
head(romney)
tail(romney)
head(obama)
tail(obama)
'๋ฐ์ดํฐ๋ถ์๊ฐ ๊ณผ์ > R' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
DAY30. R ๋ณด์ถฉ์์ ๊ธฐ์ ํต๊ณ๋ถ์, up&down ์ํ๋ง (0) | 2021.10.27 |
---|---|
DAY28. R ์์๋ธ๋ชจ๋ธ (0) | 2021.10.25 |
DAY27. R ์ฐ๊ด๋ถ์ (0) | 2021.10.22 |
DAY26. R ๊ตฐ์ง๋ถ์(2) (0) | 2021.10.21 |
DAY25. R ๊ตฐ์ง๋ถ์ (0) | 2021.10.21 |