ML8 자연어 분석(NLP) 자연어 분석(NLP; Natural Language Processing) eg) bert 1. 과정 1) 토큰화(Tokenization) : 문자열에서 단어로 분리시키는 단계 2) 불용어 제거(Stopword elimination) : 전치사, 관사, ㅋㅋㅋ 등 문장이나 문서의 특징을 표현하는데 불필요한 단서를 삭제하는 단계 3) 어간 추출(Stemming) : 단어의 기본 형태를 추출하는 단계(원형화) eg) 먹자. 먹을까. 먹었다. 먹습니다. -> 먹다 - 형태소 분석기 4) 문서 표현(Representation) : 주어진 문서나 문장을 하나의 벡터로 표현하는 단계 - 단어들을 모두 인덱싱하고 주어진 문서에 존재하는 단어듸 빈도수를 사용하여 문서를 표현 + 사전 (Dictionary) : 단어 + .. 2021. 7. 22. 이전 1 2 다음