본문 바로가기

회사생활/R

(21)
한눈에 정리하는 ggplot2를 이용한 R 시각화 기초 2 한눈에 정리하는 ggplot2 를 이용한 R 시각화 기초 2 1달 반만에 정리해서 포스팅하는 R 시각화 기초 2탄이다. 1탄에서는 ggplot2를 이용한 기본이 되는 옵션들 전반에 대하여 알아보았다. 2탄에서는 시계열 데이터를 중심으로 하는 시계열 그래프, 선 그래프를 시각화하는 방법에 대하여 포스팅해보려고 한다. ▼ ggplot2 라이브러리를 이용한 기본적인 시각화 코드 ▼2017/03/17 - [Analysis/R] - 한눈에 정리하는 ggplot2를 이용한 R 시각화 기초 1 특히 시계열 데이터를 다룰 때 x축은 고정하고 여러 변수의 값을 같은 y축에 여러 선으로 표현하는 그래프를 그리는 법과 범례를 다루는 법에 대하여 정리해보았다. 우선 시계열 데이터를 만들기 위해 iris 데이터에 seq 변수를..
party::cforest vs. randomForest::randomForest 랜덤 포레스트를 위한 2가지 R 함수 party::cforest vs. randomForest::randomForest 비교하기 (1) {party} cforest를 사용하여 랜덤 포레스트 구현하기(2) {randomForest} randomForest를 사용하여 랜덤 포레스트 구현하기(3) 두 함수의 성능 비교하기 랜덤 포레스트를 구현하기 위한 R 패키지와 함수는 크게 2가지가 있다.Ⅰ party 패키지의 cforest 함수로 Ⅱ. randomForest 패키지의 randomForest 함수 (caret 패키지를 이용하는 경우에도 이 함수를 사용하는 것과 같다.) 이번 포스팅에서는 두 함수를 사용하는 방법과 두 함수를 이용해 Variable Importance를 구하는 방법, 그리고 성능을 비교해보고자..
로컬에서 데이터 불러오기 / 데이터 저장하기 로컬에서 데이터 불러오기 / 데이터 내보내기 (로컬에서 데이터 열기 / 저장하기) 온라인에서 CSV 또는 TXT 또는 TSV로 된 샘플 데이터를 다운로드 받았다고 하자.이렇게 다운로드 받은 데이터를 어떻게 R에서 작업하고 어떻게 다시 로컬 PC에 저장하는지 알아보자. (0) 온라인에서 데이터 다운로드 받기 사전에 준비된 CSV 파일이 없다면 아래 포스팅에서 다운로드 하자. ▼ 샘플 데이터 drama_genre.csv CSV 파일 다운로드 ▼2017/03/22 - [Analysis/R] - [R 예제 코드] Logistic Regression / 로지스틱 회귀분석 파일을 저장한 경로를 기억하자. 나는 C:\kkokkilkon 폴더에 drama_genre.csv 파일을 저장했다. (1) Working Dir..
[R 예제 코드] Logistic Regression / 로지스틱 회귀분석 R 예제 코드 - Logistic Regression / 로지스틱 회귀분석 로지스틱 회귀분석을 drama_genre.csv 데이터에 적용해서 genre를 분류하는 R 코드를 만들어 보자. ▼ 로지스틱 회귀분석 알고리즘에 대한 이론적인 설명이 궁금하다면? ▼ 2017/03/21 - [Analysis/ALGORITHM] - Logistic Regression / 로지스틱 회귀분석 1. 데이터 준비하기 아래에서 drama_genre.csv 데이터를 다운로드 한다. 이 데이터는 iris 데이터를 약간 변형식켜서 만든 샘플 데이터이다. 다운로드 받았으면 csv 파일을 불러온다. 경로는 csv 파일을 저장했던 폴더로 지정한다. \가 아닌 / 를 사용하는 것에 주의하자. data
한눈에 정리하는 ggplot2를 이용한 R 시각화 기초 1 한눈에 정리하는 ggplot2 를 이용한 R 시각화 기초 1 ggplot2는 R 시각화에서 빠지지 않고 등장하는 시각화 라이브러리이다. ggplot2 라이브러리를 이용해서 할 수 있는 시각화에는 크게 ggplot과 qplot이 있다. ggplot 내가 원하는 특정 옵션을 상세하게 지정해서 예쁘게 시각화 할 때 사용한다. qplot 옵션을 상세하게 지정하지 않아도 basic plot 보다 예쁘게 시각화 하고 싶을 때 사용한다. 나의 경우 데이터 기초 분석(EDA)을 할 때는 basic plot과 qplot을 주로 사용하고 보고서나 shiny로 구현할 때는 필요에 따라 ggplot을 사용하는 편인데 이번 포스팅에서는 ggplot만 다루겠다. 일단 ggplot2 패키지를 설치하고 라이브러리를 불러오자. # g..
[R 예제 코드] KNN / k-NN / k-Nearest Neighber / k-최근접 이웃 R 예제 코드 - KNN / k-NN / k-Nearest Neighber / k-최근접 이웃 k-NN을 iris 데이터에 적용해서 Species를 분류하는 R 코드를 만들어 보자. ▼ k-NN 알고리즘에 대한 이론적인 설명이 궁금하다면? ▼2017/03/14 - [Analysis/ALGORITHM] - KNN / k-NN / k-Nearest Neighber / k-최근접 이웃 알고리즘 1. 데이터 준비하기 iris 데이터를 Sepal.Length / Sepal.Width / Species 3가지 변수만 있는 데이터로 단순한 데이터 data 로 바꿔보자. data
Train vs. Validation vs. Test Data Train vs. Validation vs. Test Data 데이터를 구하고 나서 분석을 시작할 때 대부분 처음 하는 작업은 데이터를 3등분으로 나누는 작업이다. - Train Data 분석 모델을 만들기 위한 학습용 데이터이다. Validation Data 여러 분석 모델 중 어떤 모델이 적합한지 선택하기 위한 검증용 데이터이다. Test Data 최종적으로 선택된 분석 모델이 얼마나 잘 작동하는지 확인하기 위한 결과용 데이터이다. - 3등분으로 나누는 비율은 대체적으로 6 : 2 : 2 를 가장 많이 쓰는데, 이렇게 나누는 방법을 Simple Validation 이라고 한다. Simple Validation 외에 k-Fold Validation 이나 Leave-One-Out Validation 방법..
R 시각화 - 산점도 (Basic Scatter Plot) R 시각화 - 산점도 (Basic Scatter Plot) 샘플 데이터를 불러와서 어떻게 생긴 데이터인지 보기 쉽게 시각화를 해보자. ▼ 샘플 데이터 불러오는 법 ▼2017/03/09 - [Analysis/R] - R 샘플 데이터 불러오기 (1) 데이터 내보내기 R에서 가공한 데이터를 로컬 PC에 CSV 파일로 저장해보자. 왜 불러오기가 아니라 내보내기 먼저 하냐면 R에서 제공하는 샘플 데이터를 CSV 파일로 내보내고 다시 R로 CSV 파일을 불러와 보려고 하기 때문이다. iris 데이터를 지정한 경로에 sample_iris.csv 파일로 저장하는 구문이다. 동일한 코드인데 경로에 \\를 썼느냐 / 를 썼느냐의 차이이다. write.csv(x = iris, file = "D:\\R\\kkokkilkon\..