머신러닝, 딥러닝34 [DL] Optimizer 이전에 업로드한 함수의 최적해를 찾기 위한 경사 하강법(Gradient Descent)에 이어서 경사 하강법을 이용한 여러 최적화 방법인 optimizer에 대해 정리해보려고 한다. -목차- 1. 확률적 경사 하강법(Stocastic Gradient Descent, SGD) 1.1 고정된 학습률 2. SGD 모멘텀(Momentum) 2.1 관성을 이용한 임계점 탈출과 빠른 학습 2.2 오버 슈팅 문제 3. AdaGrad(Adaptive Gradient) 3.1 학습 조기 중단 현상 4. RMSProp(Root Mean Square Propagation) 4.1 최근 경로의 곡면 변화량 4.2 학습 초기 경로 편향 문제 5. Adam(Adaptive Moment Estimation) 5.1 초기 경로의 편.. 2022. 3. 7. [ML] Bag of Words(BOW) -목차- 1. Bag of Words란? 2. BOW 피처 벡터화 3. BOW 벡터화를 위한 희소 행렬 3.1 COO(Coordinate) 형식 3.2 CSR(Compressed Sparse Row)형식 1. Bag of Words란? Bag of Words모델은 문서가 가지는 모든 단어(Words)를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도 값을 부여해 피처 값을 추출하는 모델이다. 문서 내 모든 단어를 한꺼번에 봉투(Bag) 안에 넣은 뒤에 흔들어서 썩는다는 의미로 Bag of Word(BOW) 모델이라고 한다. 다음과 같은 2개의문장이 있다고 가정하고 이 문장을 Bag of Words의 단어 수(Word Count) 피처를 추출해보자. 문장 1 : My wife likes to watc.. 2022. 3. 3. [ML] 텍스트 전처리(텍스트 정규화) -목차- 1. 텍스트 정규화란? 2. 클렌징(Cleansing) 3. 텍스트 토큰화(Text Tokenization) 3.1 문장 토큰화(Sentence Tokenization) 3.2 단어 토큰화(Word Tokenization) 4. 스톱 워드 제거 5. 어근 추출(stemming과 Lemmatization) 1. 텍스트 정규화란? 텍스트 자체를 바로 피처로 만들 수는 없다. 이를 위해 사전에 텍스트를 가공하는 준비 작업이 필요하다. 텍스트 정규화는 텍스트를 머신러닝 알고리즘이나 NLP 애플리케이션에 입력 데이터로 사용하지 위해 클렌징, 정제, 토큰화, 어근화 등의 다양한 텍스트 데이터의 사전 작업을 수행하는 것을 의미한다. 이러한 텍스트 작업은 크게 다음과 같이 분류할 수 있다. 클렌징(Cleans.. 2022. 3. 3. [ML] DBSCAN(Density Based Spatial Clustering of Applications with Noise) -목차- 1. DBSCAN 2. DBSCAN의 작동원리 DBSCAN 테스팅 코드 : DBSCAN_test(K-means, GMM 비교) 1. DBSCAN의 개요 DBSCAN은 간단하고 직관적인 알고리즘으로 돼있음에도 데이터 분포가 기하학적으로 복잡한 데이터에도 효과적인 clustering이 가능하다. 아래와 같이 내부의 원 모양과 외부의 원 모양 형태의 분포를 가진 데이터를 clustering 한다고 가정할 때 K-means, Means-Shift, GMM으로는 효과적인 군집화를 수행하기가 어렵다. DBSCAN은 특정 공간 내에 데이터 밀도 차이를 기반 알고리즘으로 하고 있어 복잡한 기하학적 분포도를 가진 데이터에 대해서도 clustering을 잘 수행한다. 2. DBSCAN의 작동원리 먼저 DBSCAN.. 2022. 3. 2. 이전 1 2 3 4 5 ··· 9 다음