본문 바로가기
TOP BOTTOM

ML/자연어처리4

자연어처리(NLP) 과정 NLP(Natural Language Processing) ① 토큰화 (Tokenization) ② 불용어 제거 (Stop word elimination) ③ 어간 추출(Stemming) ④ 문서 표현(Representation) 1. 과정 1) 토큰화 (Tokenization) : 문자열에서 단어로 분리시키는 단계 2) 불용어 제거 (Stop word elimination) : 전치사, 관사, 너무 자주 등장하는 단어 등 문장이나 문서의 특징을 표현하는데 불필요한 단어를 삭제하는 단계 3) 어간 추출 (Stemming) : 단어의 기본 형태를 추출하는 단계 - 형태소 분석기 - 단어를 기본형으로 표현하여 같은 단어가 표현형 때문에 다른 단어로 인덱싱되지 않도록 함 4) 문서 표현 (Representat.. 2021. 11. 29.
[konlpy] 에러TypeError: No matching overloads found for kr.lucypark.okt.OktInterface.tokenize(float,java.lang.Boolean,java.lang.Boolean) konlpy로 형태소 분석을 실행할 수 있었는데, 큰 데이터를 실행시켜서 다음과 같은 에러가 발생한 줄 알았다. (DataFrame을 처리 중...) 아래 사이트에서 NaN일 경우 이 오류가 발생한다고 함 + 한 사용자도 용량이 컸을 때 이 오류가 발생해서 질문함. 이에 대해서 type mismatch이고, 데이터에 float 이 있으면 해당 오류가 발생한다고 답변됐고, 이게 맞는 것 같다. 중단된 부분을 찾아보니 아래와 같이 NaN으로 되어 있었다. 따라서 type이 str일 경우에만 Okt().pos(데이터)를 실행시켜 주었다. 참고 글 https://github.com/konlpy/konlpy/issues/288 2021. 11. 15.
[Python] KoNLPy 설치(Jupyter notebook) KoNLPy[코엔엘파이] 설치 (anaconda의 가상 환경 - Jupyter notebook에서 실행하는 경우) - KoNLPy는 JVM 위에서 실행되므로 설치가 다소 귀찮았음(에러로 1시간 소요...ㅠ) (에러가 2종류나 발생.. JVMNotFoundException + 파일 에러...) KoNLPy 공식 홈페이지 : https://konlpy-ko.readthedocs.io/ko/v0.4.3/ KoNLPy 공식 홈페이지 설치 방법 : https://konlpy-ko.readthedocs.io/ko/v0.4.3/install/ 1. Java 설치 (1.7 version 이상) - cmd에서 java version 확인 java -version 참고) https://library1008.tistory... 2021. 7. 22.
자연어 분석(NLP) 자연어 분석(NLP; Natural Language Processing) eg) bert 1. 과정 1) 토큰화(Tokenization) : 문자열에서 단어로 분리시키는 단계 2) 불용어 제거(Stopword elimination) : 전치사, 관사, ㅋㅋㅋ 등 문장이나 문서의 특징을 표현하는데 불필요한 단서를 삭제하는 단계 3) 어간 추출(Stemming) : 단어의 기본 형태를 추출하는 단계(원형화) eg) 먹자. 먹을까. 먹었다. 먹습니다. -> 먹다 - 형태소 분석기 4) 문서 표현(Representation) : 주어진 문서나 문장을 하나의 벡터로 표현하는 단계 - 단어들을 모두 인덱싱하고 주어진 문서에 존재하는 단어듸 빈도수를 사용하여 문서를 표현 + 사전 (Dictionary) : 단어 + .. 2021. 7. 22.