전체 77

[머신러닝] 회귀 (Regression)

회귀란?회귀라는 뜻은 어떤 지점으로 돌아간다는 뜻이다. 수많은 데이터들을 수집해보면 어떤 점, 즉 평균으로 돌아가게 되는데, 그 점들을 이어보면 하나의 직선을 이루게 되고 이것을 회귀 직선이라고 한다. 그리고 이 회귀 직선을 식으로 나타낸 것을 회귀식이라고 한다. $$y = w_0 + w_1x_1 + w_2x_2 + \cdots + w_nx_n + \epsilon$$ $y$: 독립변수의 영향을 받아 값이 변화하는 수로, 종속변수라 하고 주로 분석하고자 하는 대상이 된다.$x_i$: 다른 변수에 영향을 받지 않고 독립적으로 변화하는 수로, 독립변수라고 한다.$w_i$: 독립변수가 1 변할 때, 종속변수가 얼마나 변하는지 나타내는 수로, 회귀계수라고 부른다.$\epsilon$: 실제값과 회귀값의 차이에 따른..

[확률] 4. Discrete Probability Distributions

확률분포란? 확률 변수가 특정한 값을 가질 확률을 나타내는 함수를 의미한다. 확률분포는 사건에 따라 다양한 형태로 나타날 수 있으며, 크게 이산확률분포와 연속확률분포로 나뉜다. 이산확률분포는 이산확률변수에 대한 확률분포이고, 연속확률분포는 연속확률변수에 대한 확률분포이다. 오늘은 이산확률분포에 대해 다뤄보도록 하겠다. 1. Binomial Distrubution (이항분포)Bernouii Random Variables (베르누이 확률변수)이항분포에 대해서 다루기 위해서는 우선 베르누이 확률변수에 대해 살펴볼 필요가 있다. 베르누이 확률변수란 결과값이 오직 0과 1, 즉 두 가지 결과값만 갖는 확률변수를 의미한다. 예를 들어, 동전 던지기의 경우를 생각해보자. 동전 던지기의 결과로는 앞면, 뒷면 두 가지 ..

[머신러닝] 앙상블 (Ensemble)

앙상블이란?앙상블 기법이란 여러 개의 분류기를 생성하고 그 예측을 결합함으로써 보다 더 좋은 최종 예측을 도출하는 기법을 말한다. 앙상블 학습의 목표는 다양한 분류기의 예측 결과를 결합함으로써 단일 분류기보다 예측 신뢰성을 높이는 것이다.  1. Voting앙상블 기법에는 여러 가지 알고리즘이 있는데, 우선 보팅(Voting) 알고리즘부터 살펴보자. 보팅이란 서로 다른 알고리즘을 가진 분류기가 동일한 데이터셋을 가지고 각자 예측을 수행하여 최종 결과를 결정하는 방식이다. 이때, 각 분류기가 예측한 결과를 가지고 '투표' 방식으로 최종 결과를 결정하기 때문에 Voting이라고 불린다. 이 투표 방식에는 두 가지 방식이 있는데, Hard Voting과 Soft Voting이 있다.1.1. Hard Votin..

[ADA] 1. Data Preparation

1. Various Data Preparation Steps 데이터 수집 → 데이터 탐색 → 데이터 정제 → 데이터 구조화 → 데이터 변환 → 데이터 검증 2. EDA (Exploratory Data Analysis) 데이터의 주요 특성을 요약하는 것을 목표로 하는 데이터 분석, 접근 방식 2.1. Comprehensive Exploration - Domain Knowledge가 매우 중요함 - Domain Knowledge를 기반으로 Data Size (크기) Data Attribution (속성) Data Statistics (통계) : Pandas의 Describe method 사용 #df.info() 혹은 df.describe() 사용 import pandas as pd df = pd.DataFr..

[Quant] Term Structure of Interest Rates (이자율의 기간구조)

1. Yield Curves (수익률 곡선)모든 채권의 수익률은 고정수익증권 시장에서 서로 같이 움직이는 경향이 있다. 그러나 모든 채권의 만기수익률이 동일하지는 않다. 왜냐하면 채권에는 다양한 질적인 등급이 있기 때문이다. 신용 등급이 높은 채권 (예: AAA)은 지급 조건이 동일하다 하더라도 등급 B의 채권보다 가격이 비싸기 때문에 수익률이 낮다. 신용 등급이 높은 채권은 부도가 날 가능성이 적다는 것을 의미하므로 안정성이 높은 채권일수록 높은 수익률을 보장하기 어렵다는 뜻이기도 하다. 그러나 다양한 채권수익률이 존재하는 것을 신용 등급만으로는 설명할 수 있다.  채권 수익률의 차이는 만기까지의 기간으로도 설명이 가능하다. 일반적으로 같은 등급의 채권의 경우, 장기채권이 단기채권보다 수익률이 높다.이..

금융공학 2024.04.19

[확률] 3. Expectations, Variances, Standard Deviations (기댓값, 분산, 표준편차)

1. Expectations (평균, 기댓값)1.1 Expectations of Discrete Random Variables지난 포스팅에서 이산확률변수에 대해 알아보았다. 이산확률변수란 확률변수가 연속적이지 않은 값을 가질 때 그 확률변수를 이산확률변수라고 한다. 주사위를 던질 때 나오는 눈의 개수나 동전 던지기의 결과를 예로 들었었다.변량$x_1$$x_2$$x_3$......$x_n$확률$p_1$$p_2$$p_3$......$p_n$ 위와 같이 이산확률 변수에 대한 확률질량함수를 나타내면 $P(X = x_i) = p_i$였고, 이 확률변수들에 대한 기댓값은 각 변량에 확률을 곱해서 가중합한 결과로 나타내진다. $$E(X) = p_1x_1 + p_2x_2 + \cdots +p_nx_n = \sum_{i..

[확률] 2. Random Variables (확률 변수)

Random Variable 이란?확률 변수(Random Variable)는 확률 실험의 결과에 수치를 할당하는 변수로, 즉, 확률적인 결과를 수치로 표현할 때 사용되는 개념이다. 보통 $X$로 표현되며, 실험 결과 $x$에 대한 확률 형태로 표현되는 것이 일반적이다.$$P(X = x) = p$$ 1. Discrete Random Variable (이산 확률 변수)▶셀 수 있는 유한 개의 값이나 셀 수 있는 무한 개의 값(예를 들어, 자연수)을 가질 수 있는 확률 변수 예) 동전 던지기에서 앞면의 수, 주사위 던지기에서 나오는 눈의 수  주사위 던지기의 경우, 각 눈이 나올 확률이 $\frac{1}{6}$로 동일하기 때문에, 다음과 같이 확률 변수를 나타낼 수 있다. $X$123456$P(X=x)$$\f..

[딥러닝] Gradient Descent (경사하강법)

1. ML as an Optimization Problem기계학습이 해야 할 일을 식으로 정의하면, 주어진 cost function $J(\theta)$에 대해, $J(\theta)$를 최소로 하는 $\hat{\theta}$를 찾는 것.$$ \hat{\theta} = argmin_{\theta}J(\theta)$$ 2. Iterative Optimization2.1 General PrinicplesTraining Dataset $D$Model & Predicted Output: $\hat{y} = h_{\theta}(x)$Cost Function : $J(\theta)$1) 파라미터 $\theta$ 초기화2) 모든 epoch에 대해출력값 $\hat{y}$ 예측, cost $J(\theta)$ 계산하기만약..

[Quant] Fixed - Income Security

Introduction금리와 관련된 전반적인 금융 시장 내의 현금 흐름은 2장에서 다뤘던 단순한 내용보다 훨씬 복잡하다. 청구서, 어음, 채권, 담보대출 등 더 복잡한 과정으로 현금이 거래되는데, 이 글에서는 이들이 거래되는 시장, 특히 채권의 매매에 따라 현금이 어떻게 움직이는 지에 대해 설명하려 한다. 1. The Market for Future Cash1.1. Fixed Income Security전통적으로 채권형 증권은 고정적이고 잘 정의된 현금 흐름 흐름을 지급한다.불확실한 것은 채권발행자의 채무불이행 여부일부 고정 수익 증권은 다양한 우발 상황이나 변동 지수에 연동된 현금 흐름을 보장한다. (예: 조정 금리 모기지는 이자율 지수에 연동될 수 있음).일반적으로 고정 수입 증권은 잘 정의 된 우발..

금융공학 2024.03.28

[경영과학] 선형계획법 (Linear Programming)

선형계획법이란? 선형계획법이란 경영과학 문제를 수학적으로 표현한 모형 중 목적함수와 제약조건식이 모두 선형식으로 정의되는 문제를 뜻한다. 여기서 관계식이 모두 선형적이라는 것은 변수 관계가 비례 혹은 반비례 관계가 있음을 나타낸다. 수학적 모형 선형계획법 모형 변수(결정할 내용) 변수(결정할 내용) 상수(주어진 값) 상수(주어진 값) 수학적 관계식 목적함수: 선형식으로 표현된 이익최대화 및 최소화 제약조건식: 선형식으로 표현된 수요만족, 자원의 한계 비음조건: 변수가 0 이상이다 Notations 자원 활동 $Z$ : 활동 수준에 따라 목적 함수가 갖는 값 $x_j$ : $j$번째 활동의 수준 $c_j$ : $j$번째 활동의 수준이 1 증가할 때 $Z$가 증가하는 정도, 즉 $x_j$의 계수 $b_i$ ..