전처리 3

[딥러닝] PyTorch - Transforms

Transformstorchvision에서는 Computer Vision에 사용되는 다양한 이미지 데이터들에 대해 전처리를 유용하게 할 수 있는 transforms라는 패키지를 제공 Data AugmentationData Augmentation(데이터 증강)은 머신러닝과 딥러닝에서 모델의 성능을 향상시키기 위해 훈련 데이터의 양과 다양성을 인위적으로 증가시키는 기법을 의미한다. PyTorch의 Transforms 내에는 이러한 증강 기법들을 사용할 수 있는 함수들이 많이 내장되어 있다. 1. Gaussian BlurGaussian Blur란 이미지를 흐리게 처리하는 기법을 의미한다. 이는 이미지 내의 불필요한 노이즈를 제거하거나 특정 부분을 강조할 수 있다. Gaussian 필터는 이미지의 픽셀을 중심으..

[ADA] 1. Data Preparation

1. Various Data Preparation Steps 데이터 수집 → 데이터 탐색 → 데이터 정제 → 데이터 구조화 → 데이터 변환 → 데이터 검증 2. EDA (Exploratory Data Analysis) 데이터의 주요 특성을 요약하는 것을 목표로 하는 데이터 분석, 접근 방식 2.1. Comprehensive Exploration - Domain Knowledge가 매우 중요함 - Domain Knowledge를 기반으로 Data Size (크기) Data Attribution (속성) Data Statistics (통계) : Pandas의 Describe method 사용 #df.info() 혹은 df.describe() 사용 import pandas as pd df = pd.DataFr..

[머신러닝] 사이킷런(Scikit - Learn) 라이브러리 part 2 : 데이터 전처리, 교차검증

데이터 전처리(Preprocessing) 데이터 전처리란 데이터 분석을 위해 수집한 데이터를 분석이 적합한 형태가 되도록 가공하는 작업을 의미한다. 데이터 전처리를 통해 불필요한 데이터를 제거하고, 결측치나 이상치를 처리하는 작업을 진행하고, 여러 전처리 기법들을 통해 데이터를 가공하여 데이터의 질을 향상할 수 있다. 만약 데이터 전처리가 제대로 이루어지지 않는다면 부정확한 분석 결과가 나올 수 있기 때문에 데이터 전처리 과정은 데이터 분석을 하는 데에 빠져서는 안 되는 매우 중요한 과정이다. 데이터 전처리 기법 데이터 전처리 기법은 여러 가지가 존재하지만 그중 사이킷런에서 사용되는 가장 대표적인 몇 가지 방법을 소개하겠다. 기법인 크게 Encoding 방법과 Scaling 방법으로 나눌 수 있다. En..