본문 바로가기

분류 전체보기128

[ML] Bag of Words(BOW) -목차- 1. Bag of Words란? 2. BOW 피처 벡터화 3. BOW 벡터화를 위한 희소 행렬 3.1 COO(Coordinate) 형식 3.2 CSR(Compressed Sparse Row)형식 1. Bag of Words란? Bag of Words모델은 문서가 가지는 모든 단어(Words)를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도 값을 부여해 피처 값을 추출하는 모델이다. 문서 내 모든 단어를 한꺼번에 봉투(Bag) 안에 넣은 뒤에 흔들어서 썩는다는 의미로 Bag of Word(BOW) 모델이라고 한다. 다음과 같은 2개의문장이 있다고 가정하고 이 문장을 Bag of Words의 단어 수(Word Count) 피처를 추출해보자. 문장 1 : My wife likes to watc.. 2022. 3. 3.

[ML] 텍스트 전처리(텍스트 정규화) -목차- 1. 텍스트 정규화란? 2. 클렌징(Cleansing) 3. 텍스트 토큰화(Text Tokenization) 3.1 문장 토큰화(Sentence Tokenization) 3.2 단어 토큰화(Word Tokenization) 4. 스톱 워드 제거 5. 어근 추출(stemming과 Lemmatization) 1. 텍스트 정규화란? 텍스트 자체를 바로 피처로 만들 수는 없다. 이를 위해 사전에 텍스트를 가공하는 준비 작업이 필요하다. 텍스트 정규화는 텍스트를 머신러닝 알고리즘이나 NLP 애플리케이션에 입력 데이터로 사용하지 위해 클렌징, 정제, 토큰화, 어근화 등의 다양한 텍스트 데이터의 사전 작업을 수행하는 것을 의미한다. 이러한 텍스트 작업은 크게 다음과 같이 분류할 수 있다. 클렌징(Cleans.. 2022. 3. 3.

[ML] DBSCAN(Density Based Spatial Clustering of Applications with Noise) -목차- 1. DBSCAN 2. DBSCAN의 작동원리 DBSCAN 테스팅 코드 : DBSCAN_test(K-means, GMM 비교) 1. DBSCAN의 개요 DBSCAN은 간단하고 직관적인 알고리즘으로 돼있음에도 데이터 분포가 기하학적으로 복잡한 데이터에도 효과적인 clustering이 가능하다. 아래와 같이 내부의 원 모양과 외부의 원 모양 형태의 분포를 가진 데이터를 clustering 한다고 가정할 때 K-means, Means-Shift, GMM으로는 효과적인 군집화를 수행하기가 어렵다. DBSCAN은 특정 공간 내에 데이터 밀도 차이를 기반 알고리즘으로 하고 있어 복잡한 기하학적 분포도를 가진 데이터에 대해서도 clustering을 잘 수행한다. 2. DBSCAN의 작동원리 먼저 DBSCAN.. 2022. 3. 2.

[ML] GMM(Gaussian Mixture Model) -목차- 1. GMM(Gaussian Mixture Model) 2. 모수 추정 3. GMM의 동작 원리 1. GMM(Gaussian Mixture Model) GMM은 clustering을 적용하고자 하는 데이터가 여러 개의 가우시안 분포를 가진 데이터 집합들이 섞여서 생성된 것이라는 가정하에 군집화를 수행하는 방법이다. GMM은 데이터를 여러 개의 가우시안 분포가 섞인 것으로 간주하므로 섞인 데이터 분포에서 개별 유형의 가우시안 분포를 추출한다. 따라서 전체 dataset은 서로 다른 정규 분포 형태를 가진 여러 가지 확률 분포 곡선으로 구성될 수 있으며, 이러한 서로 다른 정규 분포에 기반해 군집화를 수행하는 것이 GMM 군집화 방식이며, 각각의 개별 데이터가 어떤 정규 분포에 속하는지 결정하는 방.. 2022. 3. 2.

이전 1 ··· 8 9 10 11 12 13 14 ··· 32 다음

티스토리툴바