본문 바로가기

데이터 분석

(19)
선형 회귀분석의 4가지 기본가정 선형 회귀분석의 4가지 기본가정 How to make good linear regression model? 선형 회귀분석을 통해 좋은 모델을 만들기 위해서는 분석 데이터가 아래 4가지 기본가정을 만족해야 한다.아래 4가지 기본가정을 만족하지 않으면 제대로 된 선형 회귀모델이 생성될 수 없다. -(1) 선형성(2) 독립성(3) 등분산성(4) 정규성- 각 기본가정의 의미와 지켜지지 않았을 때 어떻게 되는지,그리고 이 기본가정을 만족하지 않는 경우 어떻게 해야하는지 해결방법을 R 코드 예제를 통해 살펴보도록 하자. ▼ 선형 회귀분석 이론 ▼2017/07/02 - [ANALYSIS/Algorithm] - Linear Regression / 선형 회귀분석 (1) 선형성선형성은 "선형" 회귀분석에서 중요한 기본가정..
PCA (Principal Component Analysis) / 주성분 분석 PCA (Principal Component Analysis) / 주성분 분석 지난 포스팅에서 차원을 축소하기 위한 방법으로 1) 변수선택 (Feature Selection) 과 2) 변수 추출 (Feature Extraction) 이렇게 2가지를 이야기 했었는데, 오늘은 그 중 변수 추출의 한 기법인 PCA, 주성분 분석에 대하여 포스팅 해보려고 한다. - (1) 주성분 분석 PCA란? (2) 주성분을 추출하는 방법 (3) 몇 번째 주성분까지 필요할까? - Scree Plot (4) 주성분 분석 PCA의 사용처 (5) R 코드 예제 - (1) 주성분 분석 PCA란? 주성분 분석은 말 그대로 여러 변수가 있는 데이터 차원에서 가장 주요한 성분을 순서대로 추출하는 기법을 말한다. 여러 변수의 값을 합쳐서 ..
R에서 DB 사용하기 - SQLite R에서 DB 사용하기 - SQLite How to use DB in R R로 분석할 때 엑셀이나 csv 파일 외에 DB를 구축해서 DB 내 테이블에서 데이터를 불러오고 싶다면 간단하게 SQLite를 사용하는 방법이 있다. SQLite란? SQLite는 MySQL나 PostgreSQL와 같은 데이터베이스 관리 시스템이지만, 서버가 아니라 응용 프로그램에 넣어 사용하는 비교적 가벼운 데이터베이스이다. 영어권에서는 '에스큐엘라이트(ˌɛskjuːɛlˈlaɪt)'또는 '시퀄라이트(ˈsiːkwəl.laɪt)'라고 읽는다. 일반적인 RDBMS에 비해 대규모 작업에는 적합하지 않지만, 중소 규모라면 속도에 손색이 없다. 또 API는 단순히 라이브러리를 호출하는 것만 있으며, 데이터를 저장하는 데 하나의 파일만을 사용하..
Jupyter 주요 단축키 모음 Jupyter 주요 단축키 모음 (1) 셀 선택 모드 (Command Mode) [esc] 또는 [ctrl] + [m]를 눌러 셀이 아래와 같이 파란색이 된 상태(셀 선택 모드)에서 해당 단축키 누른다. 위로 셀 추가[a] 아래로 셀 추가[b] 선택 셀 삭제[d][d] (d를 두번 누름) 선택 셀 잘라내기 (삭제로 써도 무방)[x] 선택 셀 복사하기 [c] 선택 셀 아래에 붙여넣기[p] 선택 셀과 아래 셀과 합치기[shift] + [m] 실행결과 열기/닫기[o] Markdown으로 변경[m] Code로 변경[y] 파일 저장[ctrl] + [s] 또는 [s] 선택 셀의 코드 입력 모드로 돌아가기[enter] - - (2) 코드 입력 모드 (Edit Mode) [enter]를 눌러 셀이 아래와 같이 초록색이..
R 예제 코드 - PCA / Principal Component Analysis / 주성분 분석 R 예제 코드 - PCA / Principal Component Analysis / 주성분 분석 iris 데이터의 주성분 분석을 하는 R 코드를 만들어 보자. - (1) 데이터 준비하기 (2) PCA 하기 (3) PCA 결과 확인하기 (4) PCA 결과 시각화하기1 - Scree Chart (5) PCA 결과 시각화하기2 - ggbiplot (6) 군집분석으로 검증하기 - (1) 데이터 준비하기 데이터는 R에서 기본 제공되는 iris 데이터를 사용하겠다. 일단 PCA에는 연속형 변수(Continuous Variable)만 사용하기 때문에 연속형 변수와 범주형 변수(Categorical Variable)를 분리한다. # 연속형 변수 dt
Dimension / 차원 / 차원의 저주 / 차원축소 Dimension / 차원 / 차원의 저주 / 차원축소 이번 포스팅에서는 데이터를 다룰 때 자주 등장하는 '차원(Dimension)'이라는 개념에 대하여 정리해보려고 한다. 차원이란 수학에서 공간 내에 있는 점 등의 위치를 나타내기 위해 필요한 축의 개수를 말한다. (출처: 위키백과) 차원과 관련된 다른 개념들과 알고리즘을 이해하려면 우선 내가 가진 데이터가 몇 차원인지 알 수 있어야 할 것이다. - (1) 데이터에서 차원 찾기 (2) 차원의 저주 / Curse of Dimension (3) 차원축소 (4) Feature Selection (5) Feature Extraction - (1) 데이터에서 차원 찾기 아래와 같은 데이터를 가지고 있다고 하자. 그럼 이 데이터의 차원은 얼마일까? 차원 = 변수의..
R에서 JAVA / rJava / JAVA_HOME 설정하기 R에서 JAVA / rJava / JAVA_HOME 설정하기 여러가지 패키지를 설치하다 보면 Dependent Library로 rJava가 같이 설치되는 경우를 볼 수 있다. 사전에 R 외에 다른 언어로의 개발로 인해 Java가 설치/설정 되어 있는 경우 잘 설치가 완료되는 경우가 있지만 그렇지 않은 대부분의 경우에는 설치시 오류 메시지가 나오게 된다. 그럴 때 어떻게 하는지 자세히 포스팅 해보려고 한다. - (1) R 패키지 설치하기 (2) R 라이브러리 불러오기 (3) Java 설치여부 확인하기 (4) Java 설치하기 (5) 환경변수 설정하기 - JAVA_HOME, PATH (6) R에서 JAVA_HOME 경로 설정하기 - (1) 패키지 설치하기 내가 설치하려고 하는 패키지는 엑셀 파일을 불러오고 ..
Linear Regression / 선형 회귀분석 Linear Regression / 선형 회귀분석 지도학습 중 예측 문제에 사용하는 알고리즘이다. 예측 문제란 기존 데이터를 기반으로 생성된 모델(여기서는 회귀모델)을 이용하여 새로운 데이터가 들어왔을 때 어떤 '값'이 될지 예측하는 문제를 말한다. 다만 선형 회귀분석은 기본적으로 설명변수와 반응변수가 연속형 변수일 때 사용할 수 있다. 만약 설명변수가 범주형 변수인 경우 이를 더미변수(Dummy Variable)로 변환하여 회귀분석을 적용해야 한다. ▼ 분류 Classification 문제를 해결하는 로지스틱 회귀분석 알아보기 ▼ 2017/03/21 - [Analysis/ALGORITHM] - Logistic Regression / 로지스틱 회귀분석 (1) 단순 선형 회귀분석 선형 회귀분석은 주어진 데..