본문 바로가기

기초 통계

(5)
선형 회귀분석의 4가지 기본가정 선형 회귀분석의 4가지 기본가정 How to make good linear regression model? 선형 회귀분석을 통해 좋은 모델을 만들기 위해서는 분석 데이터가 아래 4가지 기본가정을 만족해야 한다.아래 4가지 기본가정을 만족하지 않으면 제대로 된 선형 회귀모델이 생성될 수 없다. -(1) 선형성(2) 독립성(3) 등분산성(4) 정규성- 각 기본가정의 의미와 지켜지지 않았을 때 어떻게 되는지,그리고 이 기본가정을 만족하지 않는 경우 어떻게 해야하는지 해결방법을 R 코드 예제를 통해 살펴보도록 하자. ▼ 선형 회귀분석 이론 ▼2017/07/02 - [ANALYSIS/Algorithm] - Linear Regression / 선형 회귀분석 (1) 선형성선형성은 "선형" 회귀분석에서 중요한 기본가정..
Dimension / 차원 / 차원의 저주 / 차원축소 Dimension / 차원 / 차원의 저주 / 차원축소 이번 포스팅에서는 데이터를 다룰 때 자주 등장하는 '차원(Dimension)'이라는 개념에 대하여 정리해보려고 한다. 차원이란 수학에서 공간 내에 있는 점 등의 위치를 나타내기 위해 필요한 축의 개수를 말한다. (출처: 위키백과) 차원과 관련된 다른 개념들과 알고리즘을 이해하려면 우선 내가 가진 데이터가 몇 차원인지 알 수 있어야 할 것이다. - (1) 데이터에서 차원 찾기 (2) 차원의 저주 / Curse of Dimension (3) 차원축소 (4) Feature Selection (5) Feature Extraction - (1) 데이터에서 차원 찾기 아래와 같은 데이터를 가지고 있다고 하자. 그럼 이 데이터의 차원은 얼마일까? 차원 = 변수의..
추론통계 - 가설 검정 한번에 정리하기 가설 검정 한번에 정리하기 (1) 추론통계 개요(2) 가설 검정의 절차(3) 주요 용어 정리(4) 가설 검정 예시 (1) 추론통계 개요 추론통계란 모집단에서 샘플링한 표본을 가지고 모집단의 특성을 추론하고 그 결과가 신뢰성이 있는지 검정하는 것이다. 요즘에는 빅데이터라는 개념과 함께 모집단과 표본집단을 구분하기 보다는 내가 가지고 있는 데이터 전체를 표본으로 보고 내가 수집하지 못한 현실 세계 전체의 데이터나 미래에 대한 데이터를 모집단이라고 본다.예를 들어 화장품 회사의 구매 고객 데이터 전체는 분석가의 샘플링 단계가 없더라도 표본집단으로 보고, 수집하지 못한 다른 회사의 화장품 구매 고객데이터나 다음 달 구매 고객 데이터는 모집단이라고 본다. 추론 통계시 주로 집중하는 부분은 아래와 같다. 1. 표본..
Dummy Variable / 더미변수 / 가변수 Dummy Variable / 더미변수 / 가변수 포스팅을 읽어주신 고마운 분과 댓글로 질의응답을 하다가 간단한 내용이니 포스팅 해봐야겠다 생각해서 급하게 글을 쓰고 있다. (1) 더미변수란?(2) 더미변수는 왜 만드나?(3) 더미변수의 특징(4) 더미변수로 변환하는 법(5) 더미변수의 의미 (1) 더미변수란? 더미변수는 범주형 변수를 연속형 변수로 변환한 것인데, 정확히 따지자면 연속형 변수"스럽게" 만든 것이다. -연속형 변수숫자로 이루어져 있으며, 끊키는 부분 없이 연속적으로 값을 가질 수 있다.예를 들면 키, 몸무게, 온도, 나이, 고객수, 구매율 등 범주형 변수문자 또는 숫자로 이루어져 있으며, 범주(카테고리)가 있다.예를 들면 학년(1, 2, 3), 혈액형(A, B, O, AB), 성별(남, ..
Train vs. Validation vs. Test Data Train vs. Validation vs. Test Data 데이터를 구하고 나서 분석을 시작할 때 대부분 처음 하는 작업은 데이터를 3등분으로 나누는 작업이다. - Train Data 분석 모델을 만들기 위한 학습용 데이터이다. Validation Data 여러 분석 모델 중 어떤 모델이 적합한지 선택하기 위한 검증용 데이터이다. Test Data 최종적으로 선택된 분석 모델이 얼마나 잘 작동하는지 확인하기 위한 결과용 데이터이다. - 3등분으로 나누는 비율은 대체적으로 6 : 2 : 2 를 가장 많이 쓰는데, 이렇게 나누는 방법을 Simple Validation 이라고 한다. Simple Validation 외에 k-Fold Validation 이나 Leave-One-Out Validation 방법..