머신러닝 6

[머신러닝] 분류 (Classification)

1. 분류 (Classification) 분류분석이란? 지도학습 기법 중 하나로 독립변수(Feature)를 통해 정답(Label)이 어떤 특정 카테고리로 분류될 것을 예측하는 기법을 말한다. 이때, Target Data의 자료는 주로 범주형에 속하고, 독립변수들 간의 관계를 분석해 Target Data의 각각의 데이터가 어떤 범주에 속할 지 예측한다. 위 그림에서 말하는 클래스(Class)가 바로 범주이며, 데이터의 종류에 따라 다양한 클래스를 가질 수 있다. 성별 Class : {Male, Female} 생존 여부 Class: {'0' : 생존, '1' : 사망} 분류의 종류 이름 설명 나이브 베이즈 Naive Bayes 베이즈 통계와 생성모델에 기반한 분류 로지스틱 회귀 Logistic Regress..

[머신러닝] 평가지표(Evaluation)

평가지표 머신러닝 모델을 통해 데이터를 예측한 후, 그 모델이 데이터를 얼마나 잘 예측하는 지 성능을 확인하는 것을 '평가'라고 한다. 그리고 평가를 위해 사용되는 지표들을 평가지표라고 한다. 머신러닝 모델은 크게 Classification 모델과 Regression 모델로 나눌 수 있는데 각각에 따라 사용되는 평가 지표들이 다르다. Evaluation Indicators Classification Accuracy, Precision, Recall, F1-score, ROC&AUC Regression MSE, RMSE, MAE, MAPE Classification Model 평가지표 1. 오차행렬 (Confusion Matrix) 오차행렬(Confusion Matrix)란 이진 분류의 예측 오류가 얼마인..

[머신러닝] 사이킷런(Scikit - Learn) 라이브러리 part 2 : 데이터 전처리, 교차검증

데이터 전처리(Preprocessing) 데이터 전처리란 데이터 분석을 위해 수집한 데이터를 분석이 적합한 형태가 되도록 가공하는 작업을 의미한다. 데이터 전처리를 통해 불필요한 데이터를 제거하고, 결측치나 이상치를 처리하는 작업을 진행하고, 여러 전처리 기법들을 통해 데이터를 가공하여 데이터의 질을 향상할 수 있다. 만약 데이터 전처리가 제대로 이루어지지 않는다면 부정확한 분석 결과가 나올 수 있기 때문에 데이터 전처리 과정은 데이터 분석을 하는 데에 빠져서는 안 되는 매우 중요한 과정이다. 데이터 전처리 기법 데이터 전처리 기법은 여러 가지가 존재하지만 그중 사이킷런에서 사용되는 가장 대표적인 몇 가지 방법을 소개하겠다. 기법인 크게 Encoding 방법과 Scaling 방법으로 나눌 수 있다. En..

[머신러닝] 사이킷런(Scikit-Learn) 라이브러리 part1 : 프레임워크, train_test_split

사이킷런$($Scikit-Learn$)$ 라이브러리 사이킷런 라이브러리는 파이썬 기반 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리이다. 다양한 머신러닝 알고리즘과 API 등을 제공하기 때문에 비교적 쉽고 편리하게 사용할 수 있다는 장점 때문에 데이터 분석가들 사이에서 인기가 있다. 사이킷런 머신러닝 워크플로우 데이터 수집 : 필요한 데이터를 모으고 저장하는 단계 데이터 전처리 : 데이터를 분석에 적합한 형태로 가공하는 단계, $($이상치 제거, 결측치 제거, 정규화, 인코딩 등$)$ 모델 훈련 및 학습 : 전처리된 데이터를 활용해 알고리즘을 학습시키는 단계, 필요에 따라 하이퍼 파라미터 조정 모델 성능 평가 : 학습된 모델의 성능을 평가하는 단계, 정확도, 정밀도, 재현율, F1-score 등의..

[머신러닝] 머신러닝(Machine Learning)이란?

머신러닝$($Machine Learning$)$이란? 데이터를 기반으로 패턴을 학습하고 결과를 예측하는 알고리즘 기법이다. 머신러닝은 금융 서비스, 의료 서비스, 마케팅 등 다양한 분야에 적극적으로 활용될 수 있다. 인공지능과 머신러닝의 관계 인공지능 인공지능은 인간의 지능을 모방한 컴퓨터 시스템으로, 학습, 추론, 인지 능력 등 인간의 지능적 행위를 구현할 수 있도록 하는 기술을 의미한다. 머신러닝 머신러닝은 이러한 인공지능을 구현하기 위한 한 분야로, 데이터로부터 학습하고, 그 학습을 통해 패턴을 인식하며 결정을 내릴 수 있는 능력을 개발하는 과학이다. 딥러닝 딥러닝은 머신러닝의 한 분야로, 인공 신경망의 구조와 알고리즘을 기반으로 한다는 점에서 머신러닝의 다른 기법들과 구별된다. 딥러닝은 여러 층은..

[강화학습] 1. Introduction to Reinforcement Learning

강화학습$($Reinforcement Learning$)$이란? 강화학습$($Reinforcement Learning, RL$)$은 머신러닝의 한 분야로, 에이전트가 환경과의 상호작용을 통해 어떤 목표를 달성하기 위한 최적의 행동 전략을 학습하는 과정이다. 여기서 중요한 점은 강화학습은 머신러닝의 학습 기법 중 하나이지만, 학습하는 방식은 일반적인 머신러닝과는 다르다는 점이다. 머신러닝과 강화학습의 차이점 학습 방식 피드백의 형태 환경 사용 데이터 머신러닝 -Supervised Learning -Unsupervised Learning -Instant Feedback -Correct Answer -Static Dataset -Fixed Dataset 강화학습 -No Supervisor -By Trial a..