본문 바로가기
TOP BOTTOM

분류 전체보기49

자연어처리(NLP) 과정 NLP(Natural Language Processing) ① 토큰화 (Tokenization) ② 불용어 제거 (Stop word elimination) ③ 어간 추출(Stemming) ④ 문서 표현(Representation) 1. 과정 1) 토큰화 (Tokenization) : 문자열에서 단어로 분리시키는 단계 2) 불용어 제거 (Stop word elimination) : 전치사, 관사, 너무 자주 등장하는 단어 등 문장이나 문서의 특징을 표현하는데 불필요한 단어를 삭제하는 단계 3) 어간 추출 (Stemming) : 단어의 기본 형태를 추출하는 단계 - 형태소 분석기 - 단어를 기본형으로 표현하여 같은 단어가 표현형 때문에 다른 단어로 인덱싱되지 않도록 함 4) 문서 표현 (Representat.. 2021. 11. 29.
[konlpy] 에러TypeError: No matching overloads found for kr.lucypark.okt.OktInterface.tokenize(float,java.lang.Boolean,java.lang.Boolean) konlpy로 형태소 분석을 실행할 수 있었는데, 큰 데이터를 실행시켜서 다음과 같은 에러가 발생한 줄 알았다. (DataFrame을 처리 중...) 아래 사이트에서 NaN일 경우 이 오류가 발생한다고 함 + 한 사용자도 용량이 컸을 때 이 오류가 발생해서 질문함. 이에 대해서 type mismatch이고, 데이터에 float 이 있으면 해당 오류가 발생한다고 답변됐고, 이게 맞는 것 같다. 중단된 부분을 찾아보니 아래와 같이 NaN으로 되어 있었다. 따라서 type이 str일 경우에만 Okt().pos(데이터)를 실행시켜 주었다. 참고 글 https://github.com/konlpy/konlpy/issues/288 2021. 11. 15.
[Pandas] DataFrame 행/열 출력 개수 지정: set_option 행/열 출력 개수 지정 import pandas as pd pd.set_option('display.max_row', 행_개수) pd.set_option('display.max_columns', 열_개수) 참고 글 출처 : https://m.blog.naver.com/wideeyed/221330331096 [pandas] DataFrame 더 많은 행과 열 출력하기 DataFrame 더 많은 행과 열을 출력하는 방법을 알아보자. DataFrame를 출력해 보면 행과 열이 많은 경... blog.naver.com 2021. 11. 12.
헷갈리는 용어 정리 - 라이브러리/패키지/모듈, 함수/메서드, 매개변수/(전달)인자, 클래스/객체 1. 라이브러리/패키지/모듈 + 프레임워크/API/플랫폼,아키텍처 모든 패키지는 모듈이지만, 모든 모듈이 패키지는 아니다. 즉, 패키지는 모듈의 한 종류이다. '__path__' 속성을 지닌 모듈이 패키지라고 여겨진다. script == program == application ( script는 보통 간단하고 작은 programs을 의미함) 1) 라이브러리(library) : 모듈과 패키지의 모음 - 표준 라이브러리 (Standard Library) eg) time, sys, os, math, random, urlib 등 - 외부 라이브러리 (Third Party Library) eg) requests, scrapy, webbrowser - 엄밀히 정의하자면, 패키지보다 상위 개념 - 보통 module/.. 2021. 11. 11.
shp 파일[shapefile], 파이썬에서 shp 파일 읽는 법 - geopandas, shapefile, fiona, osgeo 참고 글 1. https://likedalhyang.tistory.com/43 - shp 파일 2. https://gis.stackexchange.com/questions/113799/how-to-read-a-shapefile-in-python - shp 파일을 python에서 읽는 방법 관련 글(내 블로그) 1. geopandas란 2. geopandas 설치 오류 1. shp 파일 shp 파일의 구성 - 5개의 파일로 이루어져 있고, 이 파일들이 모두 있어야 shapefile로 사용할 수 있음 ① shp - 지리 사상의 기하학 정보 저장 ② shx - 지리 사상의 기하학 정보의 인덱스 저장(shp 파일의 인덱스) ③ dbf - 지리 사상의 속성 정보를 제공하는 dBASE 파일(table) ④ sbx .. 2021. 11. 10.
좌표계 지리 정보를 이용하다 보면 좌표계가 적혀 있지 않은 경우도 있고 해서 정리했다. 참고 글 1. https://doqtqu.tistory.com/123 - WGS84, GRS80에 대해서 나와 있지만 정확한 지는 잘 모르겠음 - WGS84 : EPSG-5179 - GRS80 : EPSG-4326; UTM-K, 경위도좌표 2. https://www.osgeo.kr/17 - OSGeo 한국어지부 공식 홈페이지 3. https://m.blog.naver.com/whentlr/220205257624 4. https://yganalyst.github.io/spatial_analysis/spatial_analysis_3/ 5. http://www.gisdeveloper.co.kr/?p=8942 6. https://b.. 2021. 11. 9.
[Python] 코드 실행 시간 측정 참고 글 https://blockdmask.tistory.com/549 [python] 파이썬 시간 측정, 프로그램 시간 측정 방법 안녕하세요. BlockDMask입니다. 파이썬으로 개발을 하다 보면 내가 만든 함수, 프로그램의 성능이 어느 정도인지 수행 시간이 궁금한 경우가 있습니다. 그럴 때 아래 설명할 파이썬 코드 실행 시간 blockdmask.tistory.com import time, datetime start = time.time() # 코드 #print("time : ", time.time(), start) time_result = str(datetime.timedelta(seconds=time.time()-start)).split(".") print("소요 시간 : ",time_result.. 2021. 11. 9.