본문 바로가기

회사생활

(36)
Linear Regression / 선형 회귀분석 Linear Regression / 선형 회귀분석 지도학습 중 예측 문제에 사용하는 알고리즘이다. 예측 문제란 기존 데이터를 기반으로 생성된 모델(여기서는 회귀모델)을 이용하여 새로운 데이터가 들어왔을 때 어떤 '값'이 될지 예측하는 문제를 말한다. 다만 선형 회귀분석은 기본적으로 설명변수와 반응변수가 연속형 변수일 때 사용할 수 있다. 만약 설명변수가 범주형 변수인 경우 이를 더미변수(Dummy Variable)로 변환하여 회귀분석을 적용해야 한다. ▼ 분류 Classification 문제를 해결하는 로지스틱 회귀분석 알아보기 ▼ 2017/03/21 - [Analysis/ALGORITHM] - Logistic Regression / 로지스틱 회귀분석 (1) 단순 선형 회귀분석 선형 회귀분석은 주어진 데..
R apply 계열 함수 총 정리 1 ( apply / lapply / sapply / vapply ) apply 계열 함수 총 정리 1 ( apply / lapply / sapply / vapply ) apply 계열 함수는 주어진 함수 연산을 특정 단위로 쉽게 할 수 있도록 지원하는 함수 군이다. 어떤 함수이냐에 따라 1) 연산 대상 데이터의 종류, 2) 결과 출력 형태, 3) 연산 단위 등이 달라지게 된다. apply 계열의 함수는 사용하기가 조금 까다로운 함수이지만 미리 익혀두어 편하게 사용할 수 있도록 연습해두는 것이 좋다. 그 이유는 for, while 등의 반복문 보다 (빠른 속도와 (경우에 따라) 짧은 코드로 반복 연산을 처리할 수 있는 함수이기 때문에 대용량 데이터에 대한 반복 연산은 apply 계열 함수를 적절히 사용하는 것을 추천한다. ▼ for / lapply / mclapply(멀티..
Recommendation Algorithms / 추천 알고리즘 개요 Recommendation Algorithms / 추천 알고리즘 개요 (1) Association Rules 연관규칙(2) Collaborative Filtering 협업 필터링(3) Content-based Filtering 내용 기반 추천 (1) Association Rules 연관규칙 구매 이력을 분석해서 아이템a -> 아이템b 라는 규칙을 찾아 아이템a를 구매한 고객에게 아이템 b를 추천해주는 방식이다. 예시1단계 : "토너를 구매하면 화장솜도 구매한다."는 규칙을 발견했다.2단계 : 고객 A가 토너를 구매하면 화장솜을 추천한다. 주의할 점. 너무나 당연한 결과가 규칙으로 나올 수 있다.. 규칙이 나오지 않을 수 있다. (2) Collaborative Filtering 협업 필터링 사회적인 분류(..
한눈에 정리하는 ggplot2를 이용한 R 시각화 기초 2 한눈에 정리하는 ggplot2 를 이용한 R 시각화 기초 2 1달 반만에 정리해서 포스팅하는 R 시각화 기초 2탄이다. 1탄에서는 ggplot2를 이용한 기본이 되는 옵션들 전반에 대하여 알아보았다. 2탄에서는 시계열 데이터를 중심으로 하는 시계열 그래프, 선 그래프를 시각화하는 방법에 대하여 포스팅해보려고 한다. ▼ ggplot2 라이브러리를 이용한 기본적인 시각화 코드 ▼2017/03/17 - [Analysis/R] - 한눈에 정리하는 ggplot2를 이용한 R 시각화 기초 1 특히 시계열 데이터를 다룰 때 x축은 고정하고 여러 변수의 값을 같은 y축에 여러 선으로 표현하는 그래프를 그리는 법과 범례를 다루는 법에 대하여 정리해보았다. 우선 시계열 데이터를 만들기 위해 iris 데이터에 seq 변수를..
party::cforest vs. randomForest::randomForest 랜덤 포레스트를 위한 2가지 R 함수 party::cforest vs. randomForest::randomForest 비교하기 (1) {party} cforest를 사용하여 랜덤 포레스트 구현하기(2) {randomForest} randomForest를 사용하여 랜덤 포레스트 구현하기(3) 두 함수의 성능 비교하기 랜덤 포레스트를 구현하기 위한 R 패키지와 함수는 크게 2가지가 있다.Ⅰ party 패키지의 cforest 함수로 Ⅱ. randomForest 패키지의 randomForest 함수 (caret 패키지를 이용하는 경우에도 이 함수를 사용하는 것과 같다.) 이번 포스팅에서는 두 함수를 사용하는 방법과 두 함수를 이용해 Variable Importance를 구하는 방법, 그리고 성능을 비교해보고자..
추론통계 - 가설 검정 한번에 정리하기 가설 검정 한번에 정리하기 (1) 추론통계 개요(2) 가설 검정의 절차(3) 주요 용어 정리(4) 가설 검정 예시 (1) 추론통계 개요 추론통계란 모집단에서 샘플링한 표본을 가지고 모집단의 특성을 추론하고 그 결과가 신뢰성이 있는지 검정하는 것이다. 요즘에는 빅데이터라는 개념과 함께 모집단과 표본집단을 구분하기 보다는 내가 가지고 있는 데이터 전체를 표본으로 보고 내가 수집하지 못한 현실 세계 전체의 데이터나 미래에 대한 데이터를 모집단이라고 본다.예를 들어 화장품 회사의 구매 고객 데이터 전체는 분석가의 샘플링 단계가 없더라도 표본집단으로 보고, 수집하지 못한 다른 회사의 화장품 구매 고객데이터나 다음 달 구매 고객 데이터는 모집단이라고 본다. 추론 통계시 주로 집중하는 부분은 아래와 같다. 1. 표본..
Dummy Variable / 더미변수 / 가변수 Dummy Variable / 더미변수 / 가변수 포스팅을 읽어주신 고마운 분과 댓글로 질의응답을 하다가 간단한 내용이니 포스팅 해봐야겠다 생각해서 급하게 글을 쓰고 있다. (1) 더미변수란?(2) 더미변수는 왜 만드나?(3) 더미변수의 특징(4) 더미변수로 변환하는 법(5) 더미변수의 의미 (1) 더미변수란? 더미변수는 범주형 변수를 연속형 변수로 변환한 것인데, 정확히 따지자면 연속형 변수"스럽게" 만든 것이다. -연속형 변수숫자로 이루어져 있으며, 끊키는 부분 없이 연속적으로 값을 가질 수 있다.예를 들면 키, 몸무게, 온도, 나이, 고객수, 구매율 등 범주형 변수문자 또는 숫자로 이루어져 있으며, 범주(카테고리)가 있다.예를 들면 학년(1, 2, 3), 혈액형(A, B, O, AB), 성별(남, ..
로컬에서 데이터 불러오기 / 데이터 저장하기 로컬에서 데이터 불러오기 / 데이터 내보내기 (로컬에서 데이터 열기 / 저장하기) 온라인에서 CSV 또는 TXT 또는 TSV로 된 샘플 데이터를 다운로드 받았다고 하자.이렇게 다운로드 받은 데이터를 어떻게 R에서 작업하고 어떻게 다시 로컬 PC에 저장하는지 알아보자. (0) 온라인에서 데이터 다운로드 받기 사전에 준비된 CSV 파일이 없다면 아래 포스팅에서 다운로드 하자. ▼ 샘플 데이터 drama_genre.csv CSV 파일 다운로드 ▼2017/03/22 - [Analysis/R] - [R 예제 코드] Logistic Regression / 로지스틱 회귀분석 파일을 저장한 경로를 기억하자. 나는 C:\kkokkilkon 폴더에 drama_genre.csv 파일을 저장했다. (1) Working Dir..