본문 바로가기

데이터 분석

(19)
R apply 계열 함수 총 정리 1 ( apply / lapply / sapply / vapply ) apply 계열 함수 총 정리 1 ( apply / lapply / sapply / vapply ) apply 계열 함수는 주어진 함수 연산을 특정 단위로 쉽게 할 수 있도록 지원하는 함수 군이다. 어떤 함수이냐에 따라 1) 연산 대상 데이터의 종류, 2) 결과 출력 형태, 3) 연산 단위 등이 달라지게 된다. apply 계열의 함수는 사용하기가 조금 까다로운 함수이지만 미리 익혀두어 편하게 사용할 수 있도록 연습해두는 것이 좋다. 그 이유는 for, while 등의 반복문 보다 (빠른 속도와 (경우에 따라) 짧은 코드로 반복 연산을 처리할 수 있는 함수이기 때문에 대용량 데이터에 대한 반복 연산은 apply 계열 함수를 적절히 사용하는 것을 추천한다. ▼ for / lapply / mclapply(멀티..
추론통계 - 가설 검정 한번에 정리하기 가설 검정 한번에 정리하기 (1) 추론통계 개요(2) 가설 검정의 절차(3) 주요 용어 정리(4) 가설 검정 예시 (1) 추론통계 개요 추론통계란 모집단에서 샘플링한 표본을 가지고 모집단의 특성을 추론하고 그 결과가 신뢰성이 있는지 검정하는 것이다. 요즘에는 빅데이터라는 개념과 함께 모집단과 표본집단을 구분하기 보다는 내가 가지고 있는 데이터 전체를 표본으로 보고 내가 수집하지 못한 현실 세계 전체의 데이터나 미래에 대한 데이터를 모집단이라고 본다.예를 들어 화장품 회사의 구매 고객 데이터 전체는 분석가의 샘플링 단계가 없더라도 표본집단으로 보고, 수집하지 못한 다른 회사의 화장품 구매 고객데이터나 다음 달 구매 고객 데이터는 모집단이라고 본다. 추론 통계시 주로 집중하는 부분은 아래와 같다. 1. 표본..
Dummy Variable / 더미변수 / 가변수 Dummy Variable / 더미변수 / 가변수 포스팅을 읽어주신 고마운 분과 댓글로 질의응답을 하다가 간단한 내용이니 포스팅 해봐야겠다 생각해서 급하게 글을 쓰고 있다. (1) 더미변수란?(2) 더미변수는 왜 만드나?(3) 더미변수의 특징(4) 더미변수로 변환하는 법(5) 더미변수의 의미 (1) 더미변수란? 더미변수는 범주형 변수를 연속형 변수로 변환한 것인데, 정확히 따지자면 연속형 변수"스럽게" 만든 것이다. -연속형 변수숫자로 이루어져 있으며, 끊키는 부분 없이 연속적으로 값을 가질 수 있다.예를 들면 키, 몸무게, 온도, 나이, 고객수, 구매율 등 범주형 변수문자 또는 숫자로 이루어져 있으며, 범주(카테고리)가 있다.예를 들면 학년(1, 2, 3), 혈액형(A, B, O, AB), 성별(남, ..
[R 예제 코드] Logistic Regression / 로지스틱 회귀분석 R 예제 코드 - Logistic Regression / 로지스틱 회귀분석 로지스틱 회귀분석을 drama_genre.csv 데이터에 적용해서 genre를 분류하는 R 코드를 만들어 보자. ▼ 로지스틱 회귀분석 알고리즘에 대한 이론적인 설명이 궁금하다면? ▼ 2017/03/21 - [Analysis/ALGORITHM] - Logistic Regression / 로지스틱 회귀분석 1. 데이터 준비하기 아래에서 drama_genre.csv 데이터를 다운로드 한다. 이 데이터는 iris 데이터를 약간 변형식켜서 만든 샘플 데이터이다. 다운로드 받았으면 csv 파일을 불러온다. 경로는 csv 파일을 저장했던 폴더로 지정한다. \가 아닌 / 를 사용하는 것에 주의하자. data
Logistic Regression / 로지스틱 회귀분석 Logistic Regression / 로지스틱 회귀분석 지도학습 중 분류 문제에 사용하는 알고리즘이다.분류 문제란 새로운 데이터가 들어왔을 때 기존 데이터의 그룹 중 어떤 그룹에 속하는지를 분류하는 문제를 말한다. 다만 로지스틱 회귀분석은 분류하려는 범주(카테고리)가 성공/실패, 예/아니오, 남/여 등 2가지 범주로 나눠진 경우에 적용된다.물론 다항 로지스틱 회귀분석이라는 것도 있지만 일반적으로는 이항 로지스틱 회귀분석을 일컫는다. (1) 선형 회귀분석 로지스틱 회귀분석은 선형 회귀분석에서부터 기원된다. 따라서 선형 회귀분석의 이론을 대략적으로 이해하고 있는 것이 도움이 되기 때문에 선형 회귀분석에 대해 간략하게만 설명하겠다. (자세한 내용은 별도 포스팅을 하겠다) (단순) 선형 회귀분석은 x변수와 y..
한눈에 정리하는 ggplot2를 이용한 R 시각화 기초 1 한눈에 정리하는 ggplot2 를 이용한 R 시각화 기초 1 ggplot2는 R 시각화에서 빠지지 않고 등장하는 시각화 라이브러리이다. ggplot2 라이브러리를 이용해서 할 수 있는 시각화에는 크게 ggplot과 qplot이 있다. ggplot 내가 원하는 특정 옵션을 상세하게 지정해서 예쁘게 시각화 할 때 사용한다. qplot 옵션을 상세하게 지정하지 않아도 basic plot 보다 예쁘게 시각화 하고 싶을 때 사용한다. 나의 경우 데이터 기초 분석(EDA)을 할 때는 basic plot과 qplot을 주로 사용하고 보고서나 shiny로 구현할 때는 필요에 따라 ggplot을 사용하는 편인데 이번 포스팅에서는 ggplot만 다루겠다. 일단 ggplot2 패키지를 설치하고 라이브러리를 불러오자. # g..
KNN / k-NN / k-Nearest Neighber / k-최근접 이웃 알고리즘 KNN / k-NN / k-Nearest Neighber / k-최근접 이웃 알고리즘 지도학습 중 분류 문제에 사용하는 알고리즘이다.분류 문제란 새로운 데이터가 들어왔을 때 기존 데이터의 그룹 중 어떤 그룹에 속하는지를 분류하는 문제를 말한다. k-NN은 새로 들어온 "★은 ■ 그룹의 데이터와 가장 가까우니 ★은 ■ 그룹이다." 라고 분류하는 알고리즘이다.여기서 k의 역할은 몇 번째로 가까운 데이터까지 살펴볼 것인가를 정한 숫자이다. (1) k-NN의 원리 더 구체적인 예를 들어보자. 아래와 같이 6개의 기존 데이터 A~F와 1개의 신규 데이터 N이 있다고 하자. 만약에 k = 1 이라면, 거리가 1번째로 가까운 C만을 보고 신규 데이터를 분류한다. 따라서 N은 C와 같은 그룹인 ●로 분류된다. 만약에 ..
Train vs. Validation vs. Test Data Train vs. Validation vs. Test Data 데이터를 구하고 나서 분석을 시작할 때 대부분 처음 하는 작업은 데이터를 3등분으로 나누는 작업이다. - Train Data 분석 모델을 만들기 위한 학습용 데이터이다. Validation Data 여러 분석 모델 중 어떤 모델이 적합한지 선택하기 위한 검증용 데이터이다. Test Data 최종적으로 선택된 분석 모델이 얼마나 잘 작동하는지 확인하기 위한 결과용 데이터이다. - 3등분으로 나누는 비율은 대체적으로 6 : 2 : 2 를 가장 많이 쓰는데, 이렇게 나누는 방법을 Simple Validation 이라고 한다. Simple Validation 외에 k-Fold Validation 이나 Leave-One-Out Validation 방법..