본문 바로가기

회사생활/통계학 공부

(10)
분석 리포트 잘 쓰는 법? 데이터 시각화 잘하는 법? 내 첫 직장에서의 직군은 컨설팅이었다. 그 당시에 경험하고 배운 것 중에서 현재까지 나에게 가장 도움이 되는 부분은 빠르게 새로운 비즈니스 로직을 이해하는 것, 그리고 내가 한 업무를 상대방이 이해하기 편하게, 있어 보이게 표현하는 것이라고 생각한다. 그 중 오늘 이야기해볼 시각화에 대한 내용은 내가 한 업무를 상대방이 이해하기 편하게, 있어 보이게 표현하는 것과 이어져 있다. (1) 리포트를 왜 잘 써야 하는가? 사람들은 똑같은 기능을 하는 전자제품이라도 디자인이 예쁜 제품을 산다. 옛 말에도 보기 좋은 떡이 먹기도 좋다, 같은 값이면 다홍치마라는 말도 있다. 하다못해 이 글을 읽는 사람들도 예쁘게 읽기 편하게 쓰인 블로그가 아니면 눈에 안 들어와서 뒤로가기를 누른다. 이 모든 게 다 같은 맥락이다. ..
선형 회귀분석의 4가지 기본가정 선형 회귀분석의 4가지 기본가정 How to make good linear regression model? 선형 회귀분석을 통해 좋은 모델을 만들기 위해서는 분석 데이터가 아래 4가지 기본가정을 만족해야 한다.아래 4가지 기본가정을 만족하지 않으면 제대로 된 선형 회귀모델이 생성될 수 없다. -(1) 선형성(2) 독립성(3) 등분산성(4) 정규성- 각 기본가정의 의미와 지켜지지 않았을 때 어떻게 되는지,그리고 이 기본가정을 만족하지 않는 경우 어떻게 해야하는지 해결방법을 R 코드 예제를 통해 살펴보도록 하자. ▼ 선형 회귀분석 이론 ▼2017/07/02 - [ANALYSIS/Algorithm] - Linear Regression / 선형 회귀분석 (1) 선형성선형성은 "선형" 회귀분석에서 중요한 기본가정..
PCA (Principal Component Analysis) / 주성분 분석 PCA (Principal Component Analysis) / 주성분 분석 지난 포스팅에서 차원을 축소하기 위한 방법으로 1) 변수선택 (Feature Selection) 과 2) 변수 추출 (Feature Extraction) 이렇게 2가지를 이야기 했었는데, 오늘은 그 중 변수 추출의 한 기법인 PCA, 주성분 분석에 대하여 포스팅 해보려고 한다. - (1) 주성분 분석 PCA란? (2) 주성분을 추출하는 방법 (3) 몇 번째 주성분까지 필요할까? - Scree Plot (4) 주성분 분석 PCA의 사용처 (5) R 코드 예제 - (1) 주성분 분석 PCA란? 주성분 분석은 말 그대로 여러 변수가 있는 데이터 차원에서 가장 주요한 성분을 순서대로 추출하는 기법을 말한다. 여러 변수의 값을 합쳐서 ..
Dimension / 차원 / 차원의 저주 / 차원축소 Dimension / 차원 / 차원의 저주 / 차원축소 이번 포스팅에서는 데이터를 다룰 때 자주 등장하는 '차원(Dimension)'이라는 개념에 대하여 정리해보려고 한다. 차원이란 수학에서 공간 내에 있는 점 등의 위치를 나타내기 위해 필요한 축의 개수를 말한다. (출처: 위키백과) 차원과 관련된 다른 개념들과 알고리즘을 이해하려면 우선 내가 가진 데이터가 몇 차원인지 알 수 있어야 할 것이다. - (1) 데이터에서 차원 찾기 (2) 차원의 저주 / Curse of Dimension (3) 차원축소 (4) Feature Selection (5) Feature Extraction - (1) 데이터에서 차원 찾기 아래와 같은 데이터를 가지고 있다고 하자. 그럼 이 데이터의 차원은 얼마일까? 차원 = 변수의..
Linear Regression / 선형 회귀분석 Linear Regression / 선형 회귀분석 지도학습 중 예측 문제에 사용하는 알고리즘이다. 예측 문제란 기존 데이터를 기반으로 생성된 모델(여기서는 회귀모델)을 이용하여 새로운 데이터가 들어왔을 때 어떤 '값'이 될지 예측하는 문제를 말한다. 다만 선형 회귀분석은 기본적으로 설명변수와 반응변수가 연속형 변수일 때 사용할 수 있다. 만약 설명변수가 범주형 변수인 경우 이를 더미변수(Dummy Variable)로 변환하여 회귀분석을 적용해야 한다. ▼ 분류 Classification 문제를 해결하는 로지스틱 회귀분석 알아보기 ▼ 2017/03/21 - [Analysis/ALGORITHM] - Logistic Regression / 로지스틱 회귀분석 (1) 단순 선형 회귀분석 선형 회귀분석은 주어진 데..
Recommendation Algorithms / 추천 알고리즘 개요 Recommendation Algorithms / 추천 알고리즘 개요 (1) Association Rules 연관규칙(2) Collaborative Filtering 협업 필터링(3) Content-based Filtering 내용 기반 추천 (1) Association Rules 연관규칙 구매 이력을 분석해서 아이템a -> 아이템b 라는 규칙을 찾아 아이템a를 구매한 고객에게 아이템 b를 추천해주는 방식이다. 예시1단계 : "토너를 구매하면 화장솜도 구매한다."는 규칙을 발견했다.2단계 : 고객 A가 토너를 구매하면 화장솜을 추천한다. 주의할 점. 너무나 당연한 결과가 규칙으로 나올 수 있다.. 규칙이 나오지 않을 수 있다. (2) Collaborative Filtering 협업 필터링 사회적인 분류(..
추론통계 - 가설 검정 한번에 정리하기 가설 검정 한번에 정리하기 (1) 추론통계 개요(2) 가설 검정의 절차(3) 주요 용어 정리(4) 가설 검정 예시 (1) 추론통계 개요 추론통계란 모집단에서 샘플링한 표본을 가지고 모집단의 특성을 추론하고 그 결과가 신뢰성이 있는지 검정하는 것이다. 요즘에는 빅데이터라는 개념과 함께 모집단과 표본집단을 구분하기 보다는 내가 가지고 있는 데이터 전체를 표본으로 보고 내가 수집하지 못한 현실 세계 전체의 데이터나 미래에 대한 데이터를 모집단이라고 본다.예를 들어 화장품 회사의 구매 고객 데이터 전체는 분석가의 샘플링 단계가 없더라도 표본집단으로 보고, 수집하지 못한 다른 회사의 화장품 구매 고객데이터나 다음 달 구매 고객 데이터는 모집단이라고 본다. 추론 통계시 주로 집중하는 부분은 아래와 같다. 1. 표본..
Dummy Variable / 더미변수 / 가변수 Dummy Variable / 더미변수 / 가변수 포스팅을 읽어주신 고마운 분과 댓글로 질의응답을 하다가 간단한 내용이니 포스팅 해봐야겠다 생각해서 급하게 글을 쓰고 있다. (1) 더미변수란?(2) 더미변수는 왜 만드나?(3) 더미변수의 특징(4) 더미변수로 변환하는 법(5) 더미변수의 의미 (1) 더미변수란? 더미변수는 범주형 변수를 연속형 변수로 변환한 것인데, 정확히 따지자면 연속형 변수"스럽게" 만든 것이다. -연속형 변수숫자로 이루어져 있으며, 끊키는 부분 없이 연속적으로 값을 가질 수 있다.예를 들면 키, 몸무게, 온도, 나이, 고객수, 구매율 등 범주형 변수문자 또는 숫자로 이루어져 있으며, 범주(카테고리)가 있다.예를 들면 학년(1, 2, 3), 혈액형(A, B, O, AB), 성별(남, ..