DAY29. R 총정리 문제

LEE_BOMB 2021. 10. 26. 20:23

총정리 연습문제

2012년 미국 대선 기부금 현황 데이터 셋

election = read.csv(file.choose(), stringsAsFactors = F) # election_2012.csv 선택

dim(election) # 1001731      16
str(election) # dim + class

<데이터 셋 설명> : 2012년 미국 대선자('Romney, Mitt'와 'Obama, Barack') 후원금 현황
'data.frame': 1001731 obs. of 16 variables:
3. cand_nm : 대선 후보자이름
4. contbr_nm : 후원자이름
5. contbr_city : 후원 도시
9. contbr_occupation : 후원자 직업군
10. contb_receipt_amt: 후원금
11. contb_receipt_dt : 후원 날짜

chapter 01 : 자료형, 형변환(날짜 변환)
[문제1] election 데이터셋의 변수를 대상으로 자료형을 확인하고 자료형을 변경하시오.
소요시간 : 5분

1) cand_nm, contb_receipt_amt, contb_receipt_dt 변수의 자료형 확인하기
힌트) mode() 이용

mode(election$cand_nm) # "character"
mode(election$contb_receipt_amt) # "numeric"
mode(election$contb_receipt_dt) # "character"

2) 후원날짜(contb_receipt_dt)변수를 날짜형으로 변환하기

date = election$contb_receipt_dt 
date[1:10] # "20-Jun-11" "23-Jun-11" -> 미국식 : 일-월-년도

Sys.Date(data) # Error in Sys.Date(data) : unused argument (data)

다국어 정보 변경 : 한국 -> 영어

Sys.getlocale() # "LC_COLLATE=Korean_Korea
Sys.setlocale(locale = 'English_USA') # 미국식

미국식 : 일-월-년도 -> 한국식 : 년도-월-일

kdate <- strptime(date, "%d-%b-%y")
kdate[1:10]

날짜형 수정

election$contb_receipt_dt <- kdate

Sys.setlocale(locale = 'Korean_Korea') # 한국식 변경

chapter 02 : 색인(index), 칼럼명 변경
[문제2] election 데이터셋을 대상으로 6개 칼럼(데이터 셋 설명)만 선택하여 새로운 데이터셋을 만들시오.
소요시간 : 3분

1) 색인(index) 이용하기 : 힌트) dataset[, c(열index1, 열index2, ...)]

election_df = election[,c(3:5,9:11)]
dim(election_df)  # 1001731       6

2) election_df 칼럼명 변경하기 : 힌트) names(dataset) <- c('칼럼명1','칼러명2', ...)

수정 칼럼명 :'cand_name','contbr_name','city','occupation','receipt_amt','receipt_date'

names(election_df)
names(election_df) <- c('cand_name','contbr_name','city','occupation','receipt_amt','receipt_date')    
names(election_df)

chapter 03 : 서브셋(subset) 만들기
[문제3] 'Romney, Mitt'와 'Obama, Barack' 대령통 후보자 별로 서브셋(subset)을 생성하시오.
소요시간 : 6분

1) 대선 후보자 이름(cand_name)을 대상으로 중복되지 않은 후보자 이름과 각 후보자별 빈도수 확인하기
힌트) unique() : 유일값 확인, table() : 빈도수 확인

unique(election_df$cand_name) # 13명 - "Romney, Mitt", "Obama, Barack"
table(election_df$cand_name)

2) 'Romney, Mitt'와 'Obama, Barack' 대령통 후보자 별로 서브셋 만들기
힌트) subset(dataset, subset = 조건식)

romney = subset(election_df, subset = cand_name == "Romney, Mitt") # 'Romney, Mitt'
obama = subset(election_df, subset = cand_name == "Obama, Barack")# 'Obama, Barack'

차원 확인

dim(romney) # 107229      6
dim(obama) # 593746      6

내용 확인

head(romney)
tail(romney)
head(obama) 
tail(obama)