전체 글 85

6. Random Forest

서울시립대학교 인공지능학과 노영민 교수님의 데이터 마이닝 강의를 정리함을 미리 알립니다.​(Review)결정 트리는 다음과 같은 문제점이 있었다. 이를 위한 해결 방법이 지금 배울 Random Forest이다.cf) 장점으로는 1) 중요한 feature를 확인할 수 있음, 2) 스케일링이 필요 없음. 이 있다.**암기*​ 6. Random Forest한 결정 트리만 쓰기보다는 여러 결정 트리를 만들어서 때려 넣는 느낌이다.. 이를 앙상블(ensemble)이라고 한다. 앙상블을 통해 만든 모델이 Random Forest이다.​Ensemble앙삼블의 정의이러한 앙상블 모델이 기본 모델보다 좋으려면 다음 조건을 만족해야한다. # 앙상블 모델 조건**서로 독립적 = 다양성을 확보했다우선, 합칠 base 모델들이..

5. Decision Tree

서울시립대학교 인공지능학과 노영민 교수님의 데이터 마이닝 강의를 정리함을 미리 알립니다.​5. Decision Tree (,의사결정나무)Decision Tree의사 결정 나무란 데이터에 내제되어 있는 패턴을 변수의 조합으로 나타내는 예측/ 분류 모델을 Tree의 형태로 만든 것이다.Decision의 쉬운 예시Decision 개요input data에 따라 분류를 하는 Decision Tree와 예측을 하는 Decision Tree가 있다. 우리는 Decision Tree를 만들기 위해 한 feature를 선택하고 데이터를 분할한다. 이때 데이터가 균일하도록 분할해야한다. 여기서 데이터가 균일하다는 것은. 불순도(impunity)가 낮거나, 분산이 작은 걸 의미한다. 이에 대해서는 뒤에서 다룬다.​​ 한 f..

4. Linear Models

(서울시립대학교 인공지능학과 노영민 교수님의 데이터 마이닝 강의를 정리함을 미리 알립니다.)4주차. Linear ModelsLinear Regressionx축 y축에 해당되는 두 변수의 선형 관계를 잘 설명하는 직선을 찾는게 Linear Regression 선형회귀이다.회귀 분석을 위한 선형 모델의 경우, 예측 ŷ은 입력 특징(Input)의 선형 함수이다. (For linear models for regression, the prediction ŷ is a linear function of input features.)선형 회귀cf) Relationship btw X & Y두 변수에 대해 두 관계가 존재한다.1) Deterministic : 확정적인 관계, X 변수만으로 Y 변수를 전부 설명한다.2) S..

3. K-Nearest Neighbors (KNN)

(서울시립대학교 인공지능학과 노영민 교수님의 데이터 마이닝 강의를 정리함을 미리 알립니다.)3주차. K-Nearest Neighbors​# Model-Based vs. Instance-Based LearningModel-Based Learning(모델 기반 학습): 학습 데이터를 활용해 모델을 구축(학습 단계), 모델을 사용하여 예측.Instance-Based Learning(사례 기반 학습): 학습 단계에서 하이퍼파레미터를 결정한 후, 새로운 인스턴스를 학습 데이터와 비교하여 예측한다. (갖고 있는 걸 새로운 것과 비교 대조 하는 느낌이다..)​약간 공부를 잘 해놓은 친구 vs 공부는 잘 안했지만 족보를 잘 들고 있는 친구 느낌이다.​인스턴스 기반 학습은 훈련 시간이 덜 걸리지만(하이퍼파라미터만 결정)..

2. Supervised Learning(지도 학습)

(서울시립대학교 인공지능학과 노영민 교수님의 데이터 마이닝 강의를 정리함을 미리 알립니다.) 2주차. Supervised Learning(지도 학습)​# Supervised Learning 주어진 사진(데이터)을 보고 강아지라고 예측하고 싶다.. by 지도학습* 알려진 예시(훈련데이터.. Labeled Data 겠지....)를 일반화한 의사 결정 과정. (Decision-making processes by generalizing from known examples(training data))* 유저는 입력과 원하는 출력 쌍을 알고리즘(모델)에 제공하고, 알고리즘은 입력이 주어지면 원하는 출력(desired output)을 생성하는 방법을 찾는다. (The user provides the algorithm..

1. Introduction 데이터 마이닝이란?

서울시립대학교 인공지능학과 노영민 교수님의 데이터 마이닝 강의를 정리함을 미리 알립니다.이 수업은 데이터 마이닝에 대한 기본적인 개념을 이해하고, 대표적인 알고리즘을 학습하는데 목표를 둔다.​1주차. Introduction​# 데이터 마이닝이란 무엇인가?데이터에서 지식을 발견하고, 데이터에서 유익한 패턴을 추출한다.특정 알고리즘이나 기계 학습 기술을 사용한 데이터 분석이다.데이터 마이닝의 예시. 논문에서 키워드를 기준으로 지식을 발견한다.​​# 데이터 마이닝과 기계학습의 차이.데이터 마이닝은 가지고 있는 데이터에서 현상 및 특성을 발견하는 것이 목적이다. # 지식을 발견​머신러닝은 기존 데이터를 통해 학습을 시킨 후 새로운 데이터에 대한 예측값을 알아내는 데 목적이 있다. # 예측​​# 데이터 마이닝 프..

ch6. Random Vector

서울시립대학교 인공지능학과 김정연 교수님의 확률 및 랜덤 프로세스 강의를 정리함을 미리 알립니다.  Chapter 06. 벡터 확률 변수1. Random vector2. 확률변수들의 함수 3. 기대값 4. 적률생성함수 1. Random vectorRandom vectorn개의 확률 변수를 다루기 위해 우리는 Random vector(확률 벡터)를 사용한다. 사건을 맵핑하는 함수라고 설명한 Random Variable(확률 변수)가 열 벡터로 존재하는 것이다. Random Vector 안에는 확률 변수들이 존재하므로, cdf, pdf는 결합 cdf, pdf이다.  Random Vector(확률 벡터)의 결합 PDF, CDF 걍 그렇군.. 이산형의 경우 PDF의 함수 값이 확률이다. 그렇기에 이를 누적해서 ..

ch5. Pair Of RVs(2) - 이변량 정규분포

서울시립대학교 인공지능학과 김정연 교수님의 확률 및 랜덤 프로세스 강의를 정리함을 미리 알립니다. ​Chapter 05. 확률 변수의 쌍​1. 결합 및 조건부 확률분포2. 주변확률밀도함수3. 조건부 확률 밀도 함수4. 독립5. 기댓값6. 공분산과 상관계수7. 조건부 기댓값8. 이변량 정규분포 8. 이변량 정규분포변수가 2개 이상일 때, 우리는 계속 결합 밀도함수(Joint PDF)를 통해 확률을 계산할 수 있었다. 확률 변수가 2개이고, 이 두 변수가 이변량 정규 분포(Bivariate normal distribution)을 따르는 경우를 설명하겠다. 정규 분포를 따르는 각각의 두 변수 X, Y가 있다고 하자. 이 둘은 독립일 수 있고, 아닐 수 있다. 독립이 아닌 경우 공분산과 상관계수가 존재함을 앞 ..

ch5. Pair Of RVs

서울시립대학교 인공지능학과 김정연 교수님의 확률 및 랜덤 프로세스 강의를 정리함을 미리 알립니다. ​Chapter 05. 확률 변수의 쌍​ 1. 결합 및 조건부 확률분포 2. 주변확률밀도함수 3. 조건부 확률 밀도 함수 4. 독립 5. 기댓값 6. 공분산과 상관계수 7. 조건부 기댓값 8. 이변량 정규분포​1. 결합 및 조건부 확률분포결합 확률질량함수(PDF) - '이산형'그냥 이산형 확률 변수가 2개 일 때의, 확률질량함수를 결합 확률질량함수라고 부른다.걍 확률밀도함수(PDF)의 이변수 버전.. P안쪽에 쉼표 ' , '는 AND 조건이다. #특이하게.. p로 표현한다..당연..일변수 일 떄도, 이산형 확률 변수의 pdf는 그 확률 변수에 해당된 값의 확률을 보여줬다.이변수 일 때도 마찬가지이다. ​결..