본문 바로가기

R 예제

(8)
PCA (Principal Component Analysis) / 주성분 분석 PCA (Principal Component Analysis) / 주성분 분석 지난 포스팅에서 차원을 축소하기 위한 방법으로 1) 변수선택 (Feature Selection) 과 2) 변수 추출 (Feature Extraction) 이렇게 2가지를 이야기 했었는데, 오늘은 그 중 변수 추출의 한 기법인 PCA, 주성분 분석에 대하여 포스팅 해보려고 한다. - (1) 주성분 분석 PCA란? (2) 주성분을 추출하는 방법 (3) 몇 번째 주성분까지 필요할까? - Scree Plot (4) 주성분 분석 PCA의 사용처 (5) R 코드 예제 - (1) 주성분 분석 PCA란? 주성분 분석은 말 그대로 여러 변수가 있는 데이터 차원에서 가장 주요한 성분을 순서대로 추출하는 기법을 말한다. 여러 변수의 값을 합쳐서 ..
R에서 DB 사용하기 - SQLite R에서 DB 사용하기 - SQLite How to use DB in R R로 분석할 때 엑셀이나 csv 파일 외에 DB를 구축해서 DB 내 테이블에서 데이터를 불러오고 싶다면 간단하게 SQLite를 사용하는 방법이 있다. SQLite란? SQLite는 MySQL나 PostgreSQL와 같은 데이터베이스 관리 시스템이지만, 서버가 아니라 응용 프로그램에 넣어 사용하는 비교적 가벼운 데이터베이스이다. 영어권에서는 '에스큐엘라이트(ˌɛskjuːɛlˈlaɪt)'또는 '시퀄라이트(ˈsiːkwəl.laɪt)'라고 읽는다. 일반적인 RDBMS에 비해 대규모 작업에는 적합하지 않지만, 중소 규모라면 속도에 손색이 없다. 또 API는 단순히 라이브러리를 호출하는 것만 있으며, 데이터를 저장하는 데 하나의 파일만을 사용하..
R 예제 코드 - PCA / Principal Component Analysis / 주성분 분석 R 예제 코드 - PCA / Principal Component Analysis / 주성분 분석 iris 데이터의 주성분 분석을 하는 R 코드를 만들어 보자. - (1) 데이터 준비하기 (2) PCA 하기 (3) PCA 결과 확인하기 (4) PCA 결과 시각화하기1 - Scree Chart (5) PCA 결과 시각화하기2 - ggbiplot (6) 군집분석으로 검증하기 - (1) 데이터 준비하기 데이터는 R에서 기본 제공되는 iris 데이터를 사용하겠다. 일단 PCA에는 연속형 변수(Continuous Variable)만 사용하기 때문에 연속형 변수와 범주형 변수(Categorical Variable)를 분리한다. # 연속형 변수 dt
R apply 계열 함수 총 정리 1 ( apply / lapply / sapply / vapply ) apply 계열 함수 총 정리 1 ( apply / lapply / sapply / vapply ) apply 계열 함수는 주어진 함수 연산을 특정 단위로 쉽게 할 수 있도록 지원하는 함수 군이다. 어떤 함수이냐에 따라 1) 연산 대상 데이터의 종류, 2) 결과 출력 형태, 3) 연산 단위 등이 달라지게 된다. apply 계열의 함수는 사용하기가 조금 까다로운 함수이지만 미리 익혀두어 편하게 사용할 수 있도록 연습해두는 것이 좋다. 그 이유는 for, while 등의 반복문 보다 (빠른 속도와 (경우에 따라) 짧은 코드로 반복 연산을 처리할 수 있는 함수이기 때문에 대용량 데이터에 대한 반복 연산은 apply 계열 함수를 적절히 사용하는 것을 추천한다. ▼ for / lapply / mclapply(멀티..
[R 예제 코드] Logistic Regression / 로지스틱 회귀분석 R 예제 코드 - Logistic Regression / 로지스틱 회귀분석 로지스틱 회귀분석을 drama_genre.csv 데이터에 적용해서 genre를 분류하는 R 코드를 만들어 보자. ▼ 로지스틱 회귀분석 알고리즘에 대한 이론적인 설명이 궁금하다면? ▼ 2017/03/21 - [Analysis/ALGORITHM] - Logistic Regression / 로지스틱 회귀분석 1. 데이터 준비하기 아래에서 drama_genre.csv 데이터를 다운로드 한다. 이 데이터는 iris 데이터를 약간 변형식켜서 만든 샘플 데이터이다. 다운로드 받았으면 csv 파일을 불러온다. 경로는 csv 파일을 저장했던 폴더로 지정한다. \가 아닌 / 를 사용하는 것에 주의하자. data
한눈에 정리하는 ggplot2를 이용한 R 시각화 기초 1 한눈에 정리하는 ggplot2 를 이용한 R 시각화 기초 1 ggplot2는 R 시각화에서 빠지지 않고 등장하는 시각화 라이브러리이다. ggplot2 라이브러리를 이용해서 할 수 있는 시각화에는 크게 ggplot과 qplot이 있다. ggplot 내가 원하는 특정 옵션을 상세하게 지정해서 예쁘게 시각화 할 때 사용한다. qplot 옵션을 상세하게 지정하지 않아도 basic plot 보다 예쁘게 시각화 하고 싶을 때 사용한다. 나의 경우 데이터 기초 분석(EDA)을 할 때는 basic plot과 qplot을 주로 사용하고 보고서나 shiny로 구현할 때는 필요에 따라 ggplot을 사용하는 편인데 이번 포스팅에서는 ggplot만 다루겠다. 일단 ggplot2 패키지를 설치하고 라이브러리를 불러오자. # g..
Train vs. Validation vs. Test Data Train vs. Validation vs. Test Data 데이터를 구하고 나서 분석을 시작할 때 대부분 처음 하는 작업은 데이터를 3등분으로 나누는 작업이다. - Train Data 분석 모델을 만들기 위한 학습용 데이터이다. Validation Data 여러 분석 모델 중 어떤 모델이 적합한지 선택하기 위한 검증용 데이터이다. Test Data 최종적으로 선택된 분석 모델이 얼마나 잘 작동하는지 확인하기 위한 결과용 데이터이다. - 3등분으로 나누는 비율은 대체적으로 6 : 2 : 2 를 가장 많이 쓰는데, 이렇게 나누는 방법을 Simple Validation 이라고 한다. Simple Validation 외에 k-Fold Validation 이나 Leave-One-Out Validation 방법..
R Studio 옵션 설정하기 (Global Options) R Studio 옵션 설정하기 (Global Options) R Studio 설치 후 기본적인 설정을 해보자. R 설치와 R Studio 설치가 전제되어야 하니 혹시 아직 설치를 안 했다면 아래 포스팅을 참고하자! ▼ R 설치하는 법 ▼ 2017/03/09 - [R] - R 설치 (Version 3.3.3) ▼ R 설치 후 R Studio 설치하는 법 ▼ 2017/03/09 - [R] - R Studio 설치 -(0) 옵션 설정 메뉴로 들어가기(1) 한글 주석 깨짐 방지 설정하기 (인코딩)(2) 전체 라인 실행하기(3) 창 레이아웃 변경하기(4) 테마 / 글꼴 / 폰트 사이즈 변경하기 - (0) 옵션 설정 메뉴로 들어가기 아래 설명되는 모든 설정은 Global Options 라는 곳에서 설정하게 되어있으..