DAY11. R Basic (데이터 입출력)

LEE_BOMB 2021. 9. 28. 17:07

2021. 9. 28. 17:07

01. 데이터 불러오기

1) 키보드 입력 : 소량의 자료 (테스트할 때 사용)
num = scan() #숫자 입력
num
sum(num)

names = scan(what=character()) #정수형뿐만 아니라 문자형 입력 가능
names

2) 파일 자료 읽기(불러오기)
칼럼 단위로 구분 : excel, csv

준비
getwd()
setwd("C:/ITWILL/2_Rwork/data") 작업경로 변경

02. 대표 함수
(1) read.table() : 공백, 특수문자로 칼럼 구분

st1 = read.table('student.txt', header = FALSE) #칼럼명 없는 경우
st1 v1 v2 v3 v4 -> 기본 제공 칼럼명

st2 = read.table('student2.txt', header=TRUE) #제목 열을 첫번 째 행으로 인식
st2

st3 = read.table('student2.txt', header=TRUE, sep";") #특수문자
st3

(2) read.csV() : 콤마로 칼럼 구분

st4 = read.csv('student4.txt') #header=TRUE, sep=','
st4
str(st4)

특수문자(-) -> NA(결측치)로 변경

st4 = read.csv('student4.txt', na.strings="-")
st4 #데이터 자료형이 chr에서 int로 바뀜
str(st4)
mean(st4$키, na.rm=TRUE) #na값을 임의로 없애고, st4 칼럼 값의 평균

탐색기 제공 : file 선택

test = read.csv(file=file.choose()) #파일선택 팝업창
str(test)

(3) read.excel() : excel전용 별도의 패키지 설치 필요

install.packages('readxl')
library(readxl)

help("read_excel")
st_excel = read_excel('studentexcel.xlsx')
st_excel

03. 인터넷 파일 읽기

데이터 셋 제공 사이트
https://vincentarelbundock.github.io/Rdatasets/datasets.html
https://r-dir.com/reference/datasets.html - Dataset site
http://www.rdatamining.com/datasets

사례

titanic = read.csv('https://vincentarelbundock.github.io/Rdatasets/csv/COUNT/titanic.csv')
str(titanic)

점주형 변수의 빈도수

table(titanic$class)

성별 빈도수

satle(titanic$sex)

생존 유무

table(titanic$survived)

교차분할표

table(titanic$sex, titanic$survived) #검증을 통해 두 데이터 간 연관성의 여부

[예제] 남성 생존 비율 구하기

cat('남성 생존비율=', 175/(694+175)) #문자열+수식
print(175/(694+175)) #상수, 수식

2) 파일 자료 저장
table() <-> write.table()
read.cvs() <-> write.csv(
read.excel() <-> wite_xlsx()

(1) write.csv()

titanic_df = subset(titanic, select=c(class, sex, survived))
str(titanic_df) #subset 생성
taitanic_df

행 이름, 이중부호 제외하고 저장하기

write.csv(titanic_df, 'titanic.csv', row.names=FALSE, quote=FALSE)

df=read.csv('titanic.csv')
df

(2) write_xlsx() - 설치 필요

install.packages('writexl')
library(writexl)
write_xlsx(st_excel, path = 'student_ex.xlsx')

04. subset 만들기

x = 1:5
y = 6:10
z = letters[1:5]

df = data.frame(x,y,z)
df

help("subset")

1) subset조건식 : 행 선택

df2 = subset(df, subset=y>=8)
df2

2) select=c(칼럼명1, 칼럼명2, ...) : 열 선택

df3 <- subset(df, select = c(x,y))
df3

3) 칼럼명, %in%, (list) : 괄호 안의 목록과 일치하는 것만 출력

df4 = subset(df, z%in% c('a','c','e')) #행 단위 자료 추출
df4

[예시]

data("iris") #Rstudio 제공
str(iris) 붓꽃 데이터셋

'data.frame': 150 obs. of 5 variables:
$ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ... 꽃받침 길이
$ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ... 꽃받침 넓이
$ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ... 꽃잎 길이
$ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ... 꽃잎 넓이
$ Species : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ... 꽃의 종 3levels (집단변수=요인형)

문1) 1,3,5번 칼럼을 선택해서 subset 작성

iris_df = subset(iris, select=c(Sepal.Length, Petal.Width, Species))
str(iris_df)

문2) 문1의 결과에서 2번 칼럼의 평균값 이상 출력

mean(iris$Petal.Length) #3.758
iris_df2 = subset(iris_df, subset = Petal.Length >= mean(iris$Petal.Length))
str(iris_df2)

범주형에 대한 유형 3가지 출력

문3) 문1의 결과에서 Species칼럼을 대상으로 "setosa" 꽃의 종 출력

iris_df3 = subset(iris_df, Species %in% "setosa")
str(iris_df3)

연습문제
01. 본문에서 작성한 titanic 변수를 다음과 같은 단계를 통해서 “titanic.csv” 파일로 저장한 후 파일을 불러오시오.
[단계 1] 'C:/ITWILL/2_Rwork/output' 폴더에 'titanic.csv'로 저장한다.
힌트: write.csv() 함수 사용

getwd()
setwd("C:/ITWILL/2_Rwork/output")
write.csv(titanic, 'titanic.csv')

[단계 2] 'titanic.csv' 파일을 titanicData 변수로 가져와서 결과를 확인하고, titanicData의 관측치와 칼럼수를 확인한다.
힌트: str() 함수 사용

titanicData = read.csv('titanic.csv')
str(titanicData)

[단계 3] 1번, 3번 칼럼을 제외한 나머지 칼럼을 대상으로 상위 6개의 관측치를 확인한다.

titanicData[1:6, -c(1,3)] #행에 대한 색인, (열에 대한 색인)

02. R에서 제공하는 quakes 데이터셋을 대상으로 다음과 같이 처리하시오

data("quakes")
quakes # 지진 진앙지 데이터 셋 
str(quakes)
# 'data.frame': 1000 obs. of  5 variables:

단계1) 현재 경로에 row.names, quote 없이 "quakes_df.csv" 파일명으로 저장

write.csv(quakes, "quakes_df.csv", row.names=FALSE, quote=FALSE) #output폴더에 quakes_df.csv명으로 저장됨

단계2) quakes_data로 파일 읽기

quakes_data = read.csv("quakes_df.csv")
quakes_data

단계3) mag 변수를 대상으로 평균 계산하기

mag = quakes_data$mag #컬럼불러올 때는 $. 벡터 형식으로 불러올 수 있음.
mean(mag)

03. R에서 제공하는 CO2 데이터셋을 대상으로 다음과 같이 파일로 저장하시오.
힌트 : subset() 함수 이용

data("CO2")
CO2

단계1) Treatment 칼럼 값이 'nonchilled'인 경우만 'CO2_df1.csv' 파일로 저장하기

df1 = subset(CO2, Treatment=='nonchilled') #=는 <-, ==는 비교연산자
CO2
str(CO2)

* treatment칼럼은 세번째. 두 개의 범주형 값을 가지고 있음(=levels)

단계2) Treatment 칼럼 값이 'chilled'인 경우만 'CO2_df2.csv' 파일로 저장

df = subset(CO2, Treatment=='chilled')
write.csv(df2, "CO2_df2.csv", row.names = F)

'데이터분석가 과정 > R' 카테고리의 다른 글

DAY14. R EDA, 데이터 전처리 (0)	2021.10.01
DAY13. R Basic (데이터 시각화) (0)	2021.09.30
DAY12. R Basic (제어문과 함수) (0)	2021.09.29
DAY10. R Basic (자료 구조 유형) (0)	2021.09.27
DAY09. R Basic (패키지와 세션, 변수와 자료형) (0)	2021.09.24

💣

DAY11. R Basic (데이터 입출력)

'데이터분석가 과정 > R' 카테고리의 다른 글

+ Recent posts

티스토리툴바