NLP(Natural Language Processing)
① 토큰화 (Tokenization)
② 불용어 제거 (Stop word elimination)
③ 어간 추출(Stemming)
④ 문서 표현(Representation)
1. 과정
1) 토큰화 (Tokenization)
: 문자열에서 단어로 분리시키는 단계
2) 불용어 제거 (Stop word elimination)
: 전치사, 관사, 너무 자주 등장하는 단어 등 문장이나 문서의 특징을 표현하는데 불필요한 단어를 삭제하는 단계
3) 어간 추출 (Stemming)
: 단어의 기본 형태를 추출하는 단계
- 형태소 분석기
- 단어를 기본형으로 표현하여 같은 단어가 표현형 때문에 다른 단어로 인덱싱되지 않도록 함
4) 문서 표현 (Representation)
: 주어진 문서나 문장을 하나의 벡터로 표현하는 단계
- 단어들을 모두 인덱싱하고 주어진 문서에 존재하는 단어의 빈도수를 사용하여 문서를 표현
기타
KoNLPy : 한글 형태소 분석기
- JAVA VM 환경에서 작동 -> 설치하기 까다로움
관련글
KoNLPy 설치 오류 해결
https://mola23.tistory.com/84
'ML > 자연어처리' 카테고리의 다른 글
[konlpy] 에러TypeError: No matching overloads found for kr.lucypark.okt.OktInterface.tokenize(float,java.lang.Boolean,java.lang.Boolean) (0) | 2021.11.15 |
---|---|
[Python] KoNLPy 설치(Jupyter notebook) (0) | 2021.07.22 |
자연어 분석(NLP) (0) | 2021.07.22 |
댓글