본문 바로가기

회사생활/R

R 샘플 데이터 불러오기

R 샘플 데이터 불러오기



 

R로 데이터를 분석하기 위해서는 일단 데이터를 R에 불러와야 한다. 데이터를 어디서 불러오느냐에 따라 방법이 다양하지만 가장 간단하게 R 샘플 데이터를 가져오는 방법부터 포스팅 해본다.



▼ 로컬 PC에 있는 CSV TSV TXT 파일 불러오기 ▼ 

2017/03/26 - [Analysis/R] - 로컬에서 데이터 불러오기 / 데이터 저장하기


 

 

(1) R 샘플 데이터 목록 확인하기

 

R에는 자체적으로 제공하는 샘플 데이터가 많이 있다.

 

본인이 가지고 있는 데이터가 없다면 우선은 이 데이터들을 사용해 보자.

 

> data()

 

위 코드를 실행하면 R data sets 라는 탭이 새로 뜨면서 R에서 제공하고 있는 샘플 데이터 목록을 확인할 수 있다.

 

 

 

(2) R 샘플 데이터 불러오기 - iris

 

R에서 제공하는 샘플 데이터 중 iris 데이터는 마치 C에서 Hello World 같은 존재이다.

 

대부분의 예제들이 이 데이터를 활용하는 코드로 되어 있고 나도 새로운 함수나 코드를 테스트 해볼 때는 여전히 iris 데이터를 많이 사용하고 있다.

 

 

R에서 제공하는 샘플 데이터는 따로 불러오는 코드를 작성할 필요 없이 바로 사용할 수 있다. (자세한 내용은 아래에...)

 

 

 

(3) head 함수

 

iris를 불러오는 별도의 코드 없이 바로 아래를 작성한다.

 

head( ) 함수는 데이터를 위에서부터 기본 6줄 보여주는 함수인데, head( ) 함수를 이용해서 iris 데이터의 내용을 살펴보자.

 

> head(iris)
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1          5.1         3.5          1.4         0.2  setosa
2          4.9         3.0          1.4         0.2  setosa
3          4.7         3.2          1.3         0.2  setosa
4          4.6         3.1          1.5         0.2  setosa
5          5.0         3.6          1.4         0.2  setosa
6          5.4         3.9          1.7         0.4  setosa

 

iris 데이터는 Sepal.Length, Sepal.Width, Petal.Length, Petal.Width, Species 5개의 컬럼(변수)로 이루어져 있다는 것을 확인할 수 있다.

-
-

 

(4) str 함수

 

str( ) 함수는 데이터의 구조를 보여주는 함수인데, str( ) 함수를 이용해서 iris 데이터의 구조를 살펴보자.

 

> str(iris)
'data.frame':	150 obs. of  5 variables:
 $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
 $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
 $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
 $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
 $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...

 

iris 데이터는 데이터 타입이 data.frame이다.

 

그리고 150개의 행 (또는 row 또는 observation) 과 5개의 열( 또는 column, 또는 변수 variables) 로 이루어져 있다는 것을 맨 첫 줄에서 확인할 수 있다.

 

$ 뒤에 따라오는 것들은 iris 데이터를 이루는 변수명이고 num 또는 Factor는 각 변수의 변수형을 보여준다.

 

변수형 옆으로는 어떤 값으로 이루어져 있는지 샘플을 보여주는 형식이다.

 

 

 

데이터 타입과 변수형, 그리고 데이터를 다루는 다른 함수들은 따로 포스팅할 예정이다.