본문 바로가기

회사생활

(36)
[R 예제 코드] Logistic Regression / 로지스틱 회귀분석 R 예제 코드 - Logistic Regression / 로지스틱 회귀분석 로지스틱 회귀분석을 drama_genre.csv 데이터에 적용해서 genre를 분류하는 R 코드를 만들어 보자. ▼ 로지스틱 회귀분석 알고리즘에 대한 이론적인 설명이 궁금하다면? ▼ 2017/03/21 - [Analysis/ALGORITHM] - Logistic Regression / 로지스틱 회귀분석 1. 데이터 준비하기 아래에서 drama_genre.csv 데이터를 다운로드 한다. 이 데이터는 iris 데이터를 약간 변형식켜서 만든 샘플 데이터이다. 다운로드 받았으면 csv 파일을 불러온다. 경로는 csv 파일을 저장했던 폴더로 지정한다. \가 아닌 / 를 사용하는 것에 주의하자. data
Logistic Regression / 로지스틱 회귀분석 Logistic Regression / 로지스틱 회귀분석 지도학습 중 분류 문제에 사용하는 알고리즘이다.분류 문제란 새로운 데이터가 들어왔을 때 기존 데이터의 그룹 중 어떤 그룹에 속하는지를 분류하는 문제를 말한다. 다만 로지스틱 회귀분석은 분류하려는 범주(카테고리)가 성공/실패, 예/아니오, 남/여 등 2가지 범주로 나눠진 경우에 적용된다.물론 다항 로지스틱 회귀분석이라는 것도 있지만 일반적으로는 이항 로지스틱 회귀분석을 일컫는다. (1) 선형 회귀분석 로지스틱 회귀분석은 선형 회귀분석에서부터 기원된다. 따라서 선형 회귀분석의 이론을 대략적으로 이해하고 있는 것이 도움이 되기 때문에 선형 회귀분석에 대해 간략하게만 설명하겠다. (자세한 내용은 별도 포스팅을 하겠다) (단순) 선형 회귀분석은 x변수와 y..
한눈에 정리하는 ggplot2를 이용한 R 시각화 기초 1 한눈에 정리하는 ggplot2 를 이용한 R 시각화 기초 1 ggplot2는 R 시각화에서 빠지지 않고 등장하는 시각화 라이브러리이다. ggplot2 라이브러리를 이용해서 할 수 있는 시각화에는 크게 ggplot과 qplot이 있다. ggplot 내가 원하는 특정 옵션을 상세하게 지정해서 예쁘게 시각화 할 때 사용한다. qplot 옵션을 상세하게 지정하지 않아도 basic plot 보다 예쁘게 시각화 하고 싶을 때 사용한다. 나의 경우 데이터 기초 분석(EDA)을 할 때는 basic plot과 qplot을 주로 사용하고 보고서나 shiny로 구현할 때는 필요에 따라 ggplot을 사용하는 편인데 이번 포스팅에서는 ggplot만 다루겠다. 일단 ggplot2 패키지를 설치하고 라이브러리를 불러오자. # g..
[R 예제 코드] KNN / k-NN / k-Nearest Neighber / k-최근접 이웃 R 예제 코드 - KNN / k-NN / k-Nearest Neighber / k-최근접 이웃 k-NN을 iris 데이터에 적용해서 Species를 분류하는 R 코드를 만들어 보자. ▼ k-NN 알고리즘에 대한 이론적인 설명이 궁금하다면? ▼2017/03/14 - [Analysis/ALGORITHM] - KNN / k-NN / k-Nearest Neighber / k-최근접 이웃 알고리즘 1. 데이터 준비하기 iris 데이터를 Sepal.Length / Sepal.Width / Species 3가지 변수만 있는 데이터로 단순한 데이터 data 로 바꿔보자. data
KNN / k-NN / k-Nearest Neighber / k-최근접 이웃 알고리즘 KNN / k-NN / k-Nearest Neighber / k-최근접 이웃 알고리즘 지도학습 중 분류 문제에 사용하는 알고리즘이다.분류 문제란 새로운 데이터가 들어왔을 때 기존 데이터의 그룹 중 어떤 그룹에 속하는지를 분류하는 문제를 말한다. k-NN은 새로 들어온 "★은 ■ 그룹의 데이터와 가장 가까우니 ★은 ■ 그룹이다." 라고 분류하는 알고리즘이다.여기서 k의 역할은 몇 번째로 가까운 데이터까지 살펴볼 것인가를 정한 숫자이다. (1) k-NN의 원리 더 구체적인 예를 들어보자. 아래와 같이 6개의 기존 데이터 A~F와 1개의 신규 데이터 N이 있다고 하자. 만약에 k = 1 이라면, 거리가 1번째로 가까운 C만을 보고 신규 데이터를 분류한다. 따라서 N은 C와 같은 그룹인 ●로 분류된다. 만약에 ..
Train vs. Validation vs. Test Data Train vs. Validation vs. Test Data 데이터를 구하고 나서 분석을 시작할 때 대부분 처음 하는 작업은 데이터를 3등분으로 나누는 작업이다. - Train Data 분석 모델을 만들기 위한 학습용 데이터이다. Validation Data 여러 분석 모델 중 어떤 모델이 적합한지 선택하기 위한 검증용 데이터이다. Test Data 최종적으로 선택된 분석 모델이 얼마나 잘 작동하는지 확인하기 위한 결과용 데이터이다. - 3등분으로 나누는 비율은 대체적으로 6 : 2 : 2 를 가장 많이 쓰는데, 이렇게 나누는 방법을 Simple Validation 이라고 한다. Simple Validation 외에 k-Fold Validation 이나 Leave-One-Out Validation 방법..
R 시각화 - 산점도 (Basic Scatter Plot) R 시각화 - 산점도 (Basic Scatter Plot) 샘플 데이터를 불러와서 어떻게 생긴 데이터인지 보기 쉽게 시각화를 해보자. ▼ 샘플 데이터 불러오는 법 ▼2017/03/09 - [Analysis/R] - R 샘플 데이터 불러오기 (1) 데이터 내보내기 R에서 가공한 데이터를 로컬 PC에 CSV 파일로 저장해보자. 왜 불러오기가 아니라 내보내기 먼저 하냐면 R에서 제공하는 샘플 데이터를 CSV 파일로 내보내고 다시 R로 CSV 파일을 불러와 보려고 하기 때문이다. iris 데이터를 지정한 경로에 sample_iris.csv 파일로 저장하는 구문이다. 동일한 코드인데 경로에 \\를 썼느냐 / 를 썼느냐의 차이이다. write.csv(x = iris, file = "D:\\R\\kkokkilkon\..
R Studio 옵션 설정하기 (Global Options) R Studio 옵션 설정하기 (Global Options) R Studio 설치 후 기본적인 설정을 해보자. R 설치와 R Studio 설치가 전제되어야 하니 혹시 아직 설치를 안 했다면 아래 포스팅을 참고하자! ▼ R 설치하는 법 ▼ 2017/03/09 - [R] - R 설치 (Version 3.3.3) ▼ R 설치 후 R Studio 설치하는 법 ▼ 2017/03/09 - [R] - R Studio 설치 -(0) 옵션 설정 메뉴로 들어가기(1) 한글 주석 깨짐 방지 설정하기 (인코딩)(2) 전체 라인 실행하기(3) 창 레이아웃 변경하기(4) 테마 / 글꼴 / 폰트 사이즈 변경하기 - (0) 옵션 설정 메뉴로 들어가기 아래 설명되는 모든 설정은 Global Options 라는 곳에서 설정하게 되어있으..