자연어처리(NLP) 과정

ML/자연어처리

mola23 2021. 11. 29. 21:44

NLP(Natural Language Processing)

① 토큰화 (Tokenization)
② 불용어 제거 (Stop word elimination)
③ 어간 추출(Stemming)
④ 문서 표현(Representation)

1. 과정

: 문자열에서 단어로 분리시키는 단계

: 전치사, 관사, 너무 자주 등장하는 단어 등 문장이나 문서의 특징을 표현하는데 불필요한 단어를 삭제하는 단계

: 단어의 기본 형태를 추출하는 단계
- 형태소 분석기
- 단어를 기본형으로 표현하여 같은 단어가 표현형 때문에 다른 단어로 인덱싱되지 않도록 함

: 주어진 문서나 문장을 하나의 벡터로 표현하는 단계
- 단어들을 모두 인덱싱하고 주어진 문서에 존재하는 단어의 빈도수를 사용하여 문서를 표현

KoNLPy : 한글 형태소 분석기
- JAVA VM 환경에서 작동 -> 설치하기 까다로움