본문 바로가기
TOP BOTTOM
ML/자연어처리

자연어처리(NLP) 과정

by mola23 2021. 11. 29.

NLP(Natural Language Processing)

① 토큰화 (Tokenization)
② 불용어 제거 (Stop word elimination)
③ 어간 추출(Stemming)
④ 문서 표현(Representation)

 

1. 과정

1) 토큰화 (Tokenization)

: 문자열에서 단어로 분리시키는 단계

2) 불용어 제거 (Stop word elimination)

 : 전치사, 관사, 너무 자주 등장하는 단어 등 문장이나 문서의 특징을 표현하는데 불필요한 단어를 삭제하는 단계

3) 어간 추출 (Stemming)

 : 단어의 기본 형태를 추출하는 단계
형태소 분석기
- 단어를 기본형으로 표현하여 같은 단어가 표현형 때문에 다른 단어로 인덱싱되지 않도록 함

4) 문서 표현 (Representation)

: 주어진 문서나 문장을 하나의 벡터로 표현하는 단계
- 단어들을 모두 인덱싱하고 주어진 문서에 존재하는 단어의 빈도수를 사용하여 문서를 표현

 

기타

KoNLPy : 한글 형태소 분석기
- JAVA VM 환경에서 작동 -> 설치하기 까다로움

 

관련글

KoNLPy 설치 오류 해결
https://mola23.tistory.com/84

댓글