본문 바로가기
TOP BOTTOM

전체 글43

모두의 SQL - 누구나 쉽게 배우는 데이터 분석 기초 | 김도연 | 길벗 더보기 1장 관계형 데이터베이스와 SQL 01 이제는 데이터의 시대 02 관계형 데이터베이스의 구성 요소와 테이블 2장 실습 환경 만들기 01 Oracle Database Express 설치하기 02 Oracle SQL Developer 설치하기 03 Oracle SQL Developer의 기본 사용법 3장 SELECT : 데이터 조회의 기본 01 SELECT 문의 기본 문법 02 WHERE 조건 절을 활용한 데이터 검색 . 4장 함수 : 함수로 데이터를 쉽게 가공하기 01 함수란? 02 단일 행 함수 : 데이터 값을 하나씩 계산하고 조작하기 03 그룹 함수 : 그룹으로 요약하기 5장 ERD : 데이터베이스 개체 설계도 01 키와 제약 조건 : 개체 속성 표기법 02 관계 : 개체 관계 표기법 6장 조인.. 2021. 12. 1.
자연어처리(NLP) 과정 NLP(Natural Language Processing) ① 토큰화 (Tokenization) ② 불용어 제거 (Stop word elimination) ③ 어간 추출(Stemming) ④ 문서 표현(Representation) 1. 과정 1) 토큰화 (Tokenization) : 문자열에서 단어로 분리시키는 단계 2) 불용어 제거 (Stop word elimination) : 전치사, 관사, 너무 자주 등장하는 단어 등 문장이나 문서의 특징을 표현하는데 불필요한 단어를 삭제하는 단계 3) 어간 추출 (Stemming) : 단어의 기본 형태를 추출하는 단계 - 형태소 분석기 - 단어를 기본형으로 표현하여 같은 단어가 표현형 때문에 다른 단어로 인덱싱되지 않도록 함 4) 문서 표현 (Representat.. 2021. 11. 29.
[konlpy] 에러TypeError: No matching overloads found for kr.lucypark.okt.OktInterface.tokenize(float,java.lang.Boolean,java.lang.Boolean) konlpy로 형태소 분석을 실행할 수 있었는데, 큰 데이터를 실행시켜서 다음과 같은 에러가 발생한 줄 알았다. (DataFrame을 처리 중...) 아래 사이트에서 NaN일 경우 이 오류가 발생한다고 함 + 한 사용자도 용량이 컸을 때 이 오류가 발생해서 질문함. 이에 대해서 type mismatch이고, 데이터에 float 이 있으면 해당 오류가 발생한다고 답변됐고, 이게 맞는 것 같다. 중단된 부분을 찾아보니 아래와 같이 NaN으로 되어 있었다. 따라서 type이 str일 경우에만 Okt().pos(데이터)를 실행시켜 주었다. 참고 글 https://github.com/konlpy/konlpy/issues/288 2021. 11. 15.
[Pandas] DataFrame 행/열 출력 개수 지정: set_option 행/열 출력 개수 지정 import pandas as pd pd.set_option('display.max_row', 행_개수) pd.set_option('display.max_columns', 열_개수) 참고 글 출처 : https://m.blog.naver.com/wideeyed/221330331096 [pandas] DataFrame 더 많은 행과 열 출력하기 DataFrame 더 많은 행과 열을 출력하는 방법을 알아보자. DataFrame를 출력해 보면 행과 열이 많은 경... blog.naver.com 2021. 11. 12.
헷갈리는 용어 정리 - 라이브러리/패키지/모듈, 함수/메서드, 매개변수/(전달)인자, 클래스/객체 1. 라이브러리/패키지/모듈 + 프레임워크/API/플랫폼,아키텍처 모든 패키지는 모듈이지만, 모든 모듈이 패키지는 아니다. 즉, 패키지는 모듈의 한 종류이다. '__path__' 속성을 지닌 모듈이 패키지라고 여겨진다. script == program == application ( script는 보통 간단하고 작은 programs을 의미함) 1) 라이브러리(library) : 모듈과 패키지의 모음 - 표준 라이브러리 (Standard Library) eg) time, sys, os, math, random, urlib 등 - 외부 라이브러리 (Third Party Library) eg) requests, scrapy, webbrowser - 엄밀히 정의하자면, 패키지보다 상위 개념 - 보통 module/.. 2021. 11. 11.
shp 파일[shapefile], 파이썬에서 shp 파일 읽는 법 - geopandas, shapefile, fiona, osgeo 참고 글 1. https://likedalhyang.tistory.com/43 - shp 파일 2. https://gis.stackexchange.com/questions/113799/how-to-read-a-shapefile-in-python - shp 파일을 python에서 읽는 방법 관련 글(내 블로그) 1. geopandas란 2. geopandas 설치 오류 1. shp 파일 shp 파일의 구성 - 5개의 파일로 이루어져 있고, 이 파일들이 모두 있어야 shapefile로 사용할 수 있음 ① shp - 지리 사상의 기하학 정보 저장 ② shx - 지리 사상의 기하학 정보의 인덱스 저장(shp 파일의 인덱스) ③ dbf - 지리 사상의 속성 정보를 제공하는 dBASE 파일(table) ④ sbx .. 2021. 11. 10.
좌표계 지리 정보를 이용하다 보면 좌표계가 적혀 있지 않은 경우도 있고 해서 정리했다. 참고 글 1. https://doqtqu.tistory.com/123 - WGS84, GRS80에 대해서 나와 있지만 정확한 지는 잘 모르겠음 - WGS84 : EPSG-5179 - GRS80 : EPSG-4326; UTM-K, 경위도좌표 2. https://www.osgeo.kr/17 - OSGeo 한국어지부 공식 홈페이지 3. https://m.blog.naver.com/whentlr/220205257624 4. https://yganalyst.github.io/spatial_analysis/spatial_analysis_3/ 5. http://www.gisdeveloper.co.kr/?p=8942 6. https://b.. 2021. 11. 9.