본문 바로가기

TOP

ML10

pip 저장소 설정(nexus) 간단하게 이렇게 해줘도 되지만pip install --index-url=http:///repository/[이름]/simple \--trusted-host 라이브러리명 -vvv매번 뒤에껄 쓰고 싶지 않다면 아래와 같이 설정해주면 된다. (2번부터 확인) 1. 기본 PyPi 저장소https://pypi.org/simple설정 없을 때, pip은 이 URL을 기본 인덱스로 사용2. 현재 서버에서 pip가 어떤 설정 파일을 참조하는지 확인하기보통 아래와 같은 경로에서 참조함리눅스 (Linux) - 사용자별 설정: ~/.pip/pip.conf - 시스템 전체: /etc/pip.conf원도우 (Windows) - 사용자별 설정: %APPDATA%\pip\pip.ini - 시스템 전체: C:\Pro.. 2025. 9. 14.

.ipynb_checkpoints git에서 제거 초기에 gitignore에 .ipynb_checkpoints를 등록하지 않았더니 git 원격저장소에 계속 저장되고 있어 이를 지우고 싶었다. 1. ipynb_checkpoints 디렉토리의 의미Jupyter Notebook에서 자동으로 생성하는 숨김 플더 => Git 같은 버전 관리에서는 필요 없는 파일이라 보통 .gitignore에 추가함 이미 추가되어 remote(원격 저장소)에도 올라간 경우 하위 디렉토리들에도 .ipynb_checkpoints가 있을 수 있음2. git 원격저장소에서 해당 디렉토리 제거하는 방법1) .gitignore에 추가# 아래 추가.ipynb_checkpoints/# 이후 .gitignore addgit add .gitignore이렇게 한다고 해서 이미 원격지에 저장된 게 지.. 2025. 9. 14.

자연어처리(NLP) 과정 NLP(Natural Language Processing) ① 토큰화 (Tokenization) ② 불용어 제거 (Stop word elimination) ③ 어간 추출(Stemming) ④ 문서 표현(Representation) 1. 과정 1) 토큰화 (Tokenization) : 문자열에서 단어로 분리시키는 단계 2) 불용어 제거 (Stop word elimination) : 전치사, 관사, 너무 자주 등장하는 단어 등 문장이나 문서의 특징을 표현하는데 불필요한 단어를 삭제하는 단계 3) 어간 추출 (Stemming) : 단어의 기본 형태를 추출하는 단계 - 형태소 분석기 - 단어를 기본형으로 표현하여 같은 단어가 표현형 때문에 다른 단어로 인덱싱되지 않도록 함 4) 문서 표현 (Representat.. 2021. 11. 29.

[konlpy] 에러TypeError: No matching overloads found for kr.lucypark.okt.OktInterface.tokenize(float,java.lang.Boolean,java.lang.Boolean) konlpy로 형태소 분석을 실행할 수 있었는데, 큰 데이터를 실행시켜서 다음과 같은 에러가 발생한 줄 알았다. (DataFrame을 처리 중...) 아래 사이트에서 NaN일 경우 이 오류가 발생한다고 함 + 한 사용자도 용량이 컸을 때 이 오류가 발생해서 질문함. 이에 대해서 type mismatch이고, 데이터에 float 이 있으면 해당 오류가 발생한다고 답변됐고, 이게 맞는 것 같다. 중단된 부분을 찾아보니 아래와 같이 NaN으로 되어 있었다. 따라서 type이 str일 경우에만 Okt().pos(데이터)를 실행시켜 주었다. 참고 글 https://github.com/konlpy/konlpy/issues/288 2021. 11. 15.

이전 1 2 3 다음

티스토리툴바