본문 바로가기
TOP BOTTOM

ML8

자연어처리(NLP) 과정 NLP(Natural Language Processing) ① 토큰화 (Tokenization) ② 불용어 제거 (Stop word elimination) ③ 어간 추출(Stemming) ④ 문서 표현(Representation) 1. 과정 1) 토큰화 (Tokenization) : 문자열에서 단어로 분리시키는 단계 2) 불용어 제거 (Stop word elimination) : 전치사, 관사, 너무 자주 등장하는 단어 등 문장이나 문서의 특징을 표현하는데 불필요한 단어를 삭제하는 단계 3) 어간 추출 (Stemming) : 단어의 기본 형태를 추출하는 단계 - 형태소 분석기 - 단어를 기본형으로 표현하여 같은 단어가 표현형 때문에 다른 단어로 인덱싱되지 않도록 함 4) 문서 표현 (Representat.. 2021. 11. 29.
[konlpy] 에러TypeError: No matching overloads found for kr.lucypark.okt.OktInterface.tokenize(float,java.lang.Boolean,java.lang.Boolean) konlpy로 형태소 분석을 실행할 수 있었는데, 큰 데이터를 실행시켜서 다음과 같은 에러가 발생한 줄 알았다. (DataFrame을 처리 중...) 아래 사이트에서 NaN일 경우 이 오류가 발생한다고 함 + 한 사용자도 용량이 컸을 때 이 오류가 발생해서 질문함. 이에 대해서 type mismatch이고, 데이터에 float 이 있으면 해당 오류가 발생한다고 답변됐고, 이게 맞는 것 같다. 중단된 부분을 찾아보니 아래와 같이 NaN으로 되어 있었다. 따라서 type이 str일 경우에만 Okt().pos(데이터)를 실행시켜 주었다. 참고 글 https://github.com/konlpy/konlpy/issues/288 2021. 11. 15.
[Pandas] DataFrame 행/열 출력 개수 지정: set_option 행/열 출력 개수 지정 import pandas as pd pd.set_option('display.max_row', 행_개수) pd.set_option('display.max_columns', 열_개수) 참고 글 출처 : https://m.blog.naver.com/wideeyed/221330331096 [pandas] DataFrame 더 많은 행과 열 출력하기 DataFrame 더 많은 행과 열을 출력하는 방법을 알아보자. DataFrame를 출력해 보면 행과 열이 많은 경... blog.naver.com 2021. 11. 12.
shp 파일[shapefile], 파이썬에서 shp 파일 읽는 법 - geopandas, shapefile, fiona, osgeo 참고 글 1. https://likedalhyang.tistory.com/43 - shp 파일 2. https://gis.stackexchange.com/questions/113799/how-to-read-a-shapefile-in-python - shp 파일을 python에서 읽는 방법 관련 글(내 블로그) 1. geopandas란 2. geopandas 설치 오류 1. shp 파일 shp 파일의 구성 - 5개의 파일로 이루어져 있고, 이 파일들이 모두 있어야 shapefile로 사용할 수 있음 ① shp - 지리 사상의 기하학 정보 저장 ② shx - 지리 사상의 기하학 정보의 인덱스 저장(shp 파일의 인덱스) ③ dbf - 지리 사상의 속성 정보를 제공하는 dBASE 파일(table) ④ sbx .. 2021. 11. 10.
[Python] 코드 실행 시간 측정 참고 글 https://blockdmask.tistory.com/549 [python] 파이썬 시간 측정, 프로그램 시간 측정 방법 안녕하세요. BlockDMask입니다. 파이썬으로 개발을 하다 보면 내가 만든 함수, 프로그램의 성능이 어느 정도인지 수행 시간이 궁금한 경우가 있습니다. 그럴 때 아래 설명할 파이썬 코드 실행 시간 blockdmask.tistory.com import time, datetime start = time.time() # 코드 #print("time : ", time.time(), start) time_result = str(datetime.timedelta(seconds=time.time()-start)).split(".") print("소요 시간 : ",time_result.. 2021. 11. 9.
geopandas 설치 오류 1. 잘못된 시도...ㅠ - 쥬피터 노트북에서 설치 시 에러 2. 권리자 권한으로 설치 Anaconda Prompt -> 관리자 권한 conda install -c conda-forge geopandas https://m.blog.naver.com/leeyubin2000/221547856689 잘 설치될 줄 알았는데 오류 발생.... OSError: could not find or load spatialindex_c-64.dll 위 블로그에서 오류날 경우 소개해 준 블로그 글에선 pipwin을 설치해서 다른 라이브러리들을 더 설치해주라고 했는데... 귀찮았다.... https://codedragon.tistory.com/9671 이 블로그에서는 whl 파일을 다운로드 받아서 pyproj, shapely,.. 2021. 8. 6.
[Python] KoNLPy 설치(Jupyter notebook) KoNLPy[코엔엘파이] 설치 (anaconda의 가상 환경 - Jupyter notebook에서 실행하는 경우) - KoNLPy는 JVM 위에서 실행되므로 설치가 다소 귀찮았음(에러로 1시간 소요...ㅠ) (에러가 2종류나 발생.. JVMNotFoundException + 파일 에러...) KoNLPy 공식 홈페이지 : https://konlpy-ko.readthedocs.io/ko/v0.4.3/ KoNLPy 공식 홈페이지 설치 방법 : https://konlpy-ko.readthedocs.io/ko/v0.4.3/install/ 1. Java 설치 (1.7 version 이상) - cmd에서 java version 확인 java -version 참고) https://library1008.tistory... 2021. 7. 22.