ML/자연어처리
자연어처리(NLP) 과정
mola23
2021. 11. 29. 21:44
NLP(Natural Language Processing)
① 토큰화 (Tokenization)
② 불용어 제거 (Stop word elimination)
③ 어간 추출(Stemming)
④ 문서 표현(Representation)
1. 과정
1) 토큰화 (Tokenization)
: 문자열에서 단어로 분리시키는 단계
2) 불용어 제거 (Stop word elimination)
: 전치사, 관사, 너무 자주 등장하는 단어 등 문장이나 문서의 특징을 표현하는데 불필요한 단어를 삭제하는 단계
3) 어간 추출 (Stemming)
: 단어의 기본 형태를 추출하는 단계
- 형태소 분석기
- 단어를 기본형으로 표현하여 같은 단어가 표현형 때문에 다른 단어로 인덱싱되지 않도록 함
4) 문서 표현 (Representation)
: 주어진 문서나 문장을 하나의 벡터로 표현하는 단계
- 단어들을 모두 인덱싱하고 주어진 문서에 존재하는 단어의 빈도수를 사용하여 문서를 표현
기타
KoNLPy : 한글 형태소 분석기
- JAVA VM 환경에서 작동 -> 설치하기 까다로움
관련글
KoNLPy 설치 오류 해결
https://mola23.tistory.com/84