Category
Local Minima 문제에도 불구하고 딥러닝이 잘 되는 이유는?
목차 Local Minima 문제에도 불구하고 딥러닝이 잘 되는 이유는? GD(Gradient Descent)가 Local Minima 문제를 피하는 방법은? 찾은 해가 Global Minimum인지 아닌지 알 수 있는 방법은? local minima 문제란 ? 우리의 목표는 loss가 최소가 되길 원하는데 자칫 잘못하면 우리가 원하는 목표가 아닌 곳에서 이 loss값이 제일 작다고 판별할 수 있다. (local minimum에서도 gradient가 0이라 업데이트가 되지 않을 수 있음) 2014년 논문에 따르면([Dauphin14] [Y. Dauphin, R. Pascanu, C. Gulcehre, K. Cho, S. Ganguli, Y. Bengio. Identifying and attacking t..
누적분포 함수와 확률밀도 함수
누적 분포 함수(Cumulative Distribution Function, CDF) 주어진 확률변수가 특정 값보다 작거나 같을 확률을 나타내는 함수 $$ F(a) = P(X ≤ a)$$ 확률밀도함수(probability density function) 연속확률변수 X에 대해서 F(x)가 누적분포함수 일 때 X의 확률밀도함수 f(x)는 아래와 같이 정의한다 $$ F(X) = \int^x_{-\infty} f(x) dx$$ ++추가 설명 확률 변수 X가 임의의 실수 집합 B에 포함되는 사건의 확률이 다음과 같이 음이 아닌 함수 f의 적분으로 주어진다 하자 $$ P(X \in B) = \int_{B} f(x) dx$$ 이 때 X를 연속확률변수라고 하고 f(x)를 확률 밀도 함수라고 한다. 이 때 해당 집합(..
조건부확률
조건부 확률은 무엇인가요? 사건 A가 일어났다는 전제 하에 사건 B가 일어날 확률 $$ P(B|A) = P(B \cap A) / P(A) $$ 이 조건부 확률은 베이즈 정리와도 이어져 매우매우 중요함! 베이즈 정리 데이터라는 조건이 주어졌을 때의 조건부확률을 구하는 공식 데이터가 주어지기 전의 사전확률 값이 데이터가 주어지면 어떻게 변하는지 계산할 수 있다 따라서 데이터가 주어지기 전에 이미 어느 정도 확률 값을 예측하고 있을 때 이를 새로 수집한 데이터와 합쳐서 최종 결과에 반영할수 있다 이는 데이터의 개수가 부족할 경우 아주 유용하고 데이터를 매일 추가적으로 얻는 상황에서도 매일 전체 데이터를 대상으로 새로 분석작업을 할 필요없이 어제분석결과에 오늘 들어온 데이터를 합쳐서 업데이트만 하면 되므로 유용..
확률변수와 확률모형
확률변수(Random Variable) 표본공간의 단위 사건에 대해 실수값을 mapping하는 함수 즉, 사건에 숫자를 부여하는 행위 가장 쉬운 예시는 주사위를 굴리는 상황 주사위를 굴렸을 때 나오는 어떤 값이 나올 확률로 해석 가능 ex) P(X=1) = 1/6 이 때 확률변수의 값을 셀 수 있는지 없는지에 따라 이산확률변수, 연속확률변수로 나눔 확률모형(Probability Model) 확률변수를 사용하여 데이터의 분포를 수학적으로 정의한 모형 이 때 수학적인 수식을 확률분포함수(probability distribution func), 식을 결정짓는 값을 모수(parameter)라고 한다. 가장 유명한 확률 모형 중 하나는 가우시안 정규분포가 있다 아래와 같은 함수들이 확률모형에 포함 될 수 있다. ..
샘플링과 리샘플링
샘플링이란? 우리는 세상의 데이터들을 관측할 때 모든 데이터를 전부 살펴보기에는 힘듦 따라서 일부만을 잘 뽑아내서 모집단 전체의 경향성을 살펴보고 싶음(모집단 전체에 대 한 추정) 이 때 사용하는 것이 표본추출이고 이를 샘플링이라 함 그러나 아무리 잘 뽑아내도 완벽히 모집단 그 자체와 같을 수는 없고 놓치는 부분이 생겨 노이즈가 존재할 수 밖에 없음 이를 보정하기 위해 또 리샘플링이라는 기법을 사용!' 리샘플링이란? 일부의 표본추출만으로는 모집단의 분포 형태를 정확히 알 수 없음 보유한 샘플들에서 다시 부분집합을 뽑아 통계량의 변동성을 확인하는 방법 이를 리샘플링이라 함 대표적인 예시로 k-fold 교차검증, bootstrapping 기법이 있음 k -fold 교차검증 일반적으로 train set, te..
eigen vector & eigenvalue
1. 고유값(eigen value)와 고유벡터(eigen vector)이 무엇이고 왜 중요한지 설명해주세요. nxn 행렬 A를 선형 변환으로 봤을 때, A에 의한 변환 결과가 자기 자신의 상수 배가 되는 0벡터가 아닌 벡터를 eigenvector라 하고 이 상수배 값을 eigenvalue라 한다. 선형 변환(Linear Transformation) : 선형 결합을 보존하는, 두 벡터 공간 사이의 함수 T(a+b) = T(a) + T(b), T(ca) = cT(a)를 만족하는 변환. 즉, 아래와 같은 식을 만족하는 열벡터 v를 eigenvector, 상수람다를 eigenvalue라 한다. $$ Av = \lambda v $$ 이때, eigen vector, eigen value는 행렬의 가장 중요한 정보를..
WebtoonMe(내 사진이 웹툰화된다면?)
WebtoonMe는 네이버 웹툰 AI에서 프로모션한 사진/영상을 웹툰화 하는 프로젝트로 이를 간단히 소개하려 합니다. 내가 웹툰 속 주인공이 된다면? 웹툰미는 내 얼굴이 웹툰 캐릭터로 어떻게 변환될 수 있을까? 라는 궁금증에서 시작된 딥러닝 기반 '얼굴변환' 기술 프로젝트라고 합니다 문제 발생 그러나 많이 알려진 얼굴 변환 기술과는 달리 문제가 발생 -> 사진에 존재하는 다양한 사물(얼굴, 신체 부위, 배경 등)이 각각 필요로 하는 '스타일' 특성이 모두 달랐기 때문에 이를 유기적으로 고려하지 못한 변환이 어색한 결과를 보인 것입니다. 일반적으로 딥러닝 연구에 쓰이는 데이터셋과 달리 웹툰 데이터셋에는 사물마다 고유의 스타일이라는 속성이 있다는 결론 도출하였다고 합니다. 즉, 우리는 웹툰을 보면서 저게 어..
[DL]Optimizer
Intro Optimization, Optimizer, Adam, SGD 등등 다들 많이 들어본 단어같긴 한데 대체 뭘 하는 녀석들일까요? 먼저, Optimize의 사전상 뜻은 최대한 좋게[적합하게] 만들다입니다. 과연 뭘 최적화한다는 것일까요? Optimization은 딥러닝뿐 아니라 수학, 물리같은 분야에서 함수를 모델로 한 시스템의 함수 값 등을 최소/최대화 되는 상태를 해석하는 문제에서 사용됩니다. 딥러닝에서는 주로 모델링한 것들의 cost(loss값 등)를 최소화하는데 사용되고 이는 학습속도를 높이거나 안정된 방향으로 학습이되도록 도와줍니다. Gradient Decent Methods 우리가 가장기초적으로 알고있는 Gradient Decent도 어떻게 사용하냐에 따라 다른 결과를 가져올 수 있습..