[Day41] EDA
기본적인 EDA와 몰랐던 함수의 기능들을 정리한다.
오늘 한 일
opencv 문제
가장 먼저 jupyter notebook에서 !pip install -r requirements.txt
를 실행하여 관련 패키지를 다운 받았다. 여기서 import cv2
에서 다음과 같은 에러가 발생하였다.
# ImportError: libGL.so.1: cannot open shared object file: No such file or directory
이 문제를 해결하기 위해서 먼저 jupyter notebook에서 Terminal로 들어가서
apt install libgl1-mesa-glx
를 실행하여 해결하였다.
전체적인 과정
- 가장 먼저 데이터의 전처리를 진행 하였다.
- train.csv파일에 있는 path컬럼에 있는 폴더의 이미지를 새로운 컬럼에 추가하고 각각의 mask 여부를 의미하는 컬럼을 추가하였다.
- 여기서 데이터를 살펴본 결과
od.listdir
로 파일을 확인하게 되면 숨긴 파일까지 모두 보이게 된다. 따라서import glob
을 하여glob.glob()
함수를 이용하여 이미지 파일의 경로를 탐색하였다. - ❗ 이미지의 확장자는
.jpg
,.jpeg
,.png
로 있어서 특정 확장자의 이미지 파일로 검색을 하면 안된다. - labeling이 따로 되어 있지 않아서 label이라는 컬럼을 새로 추가한다.
- 기본적인 EDA를 진행 하였다.
내일 할 일
- 우선 기본적인 EDA와 전처리가 끝이 났다.
- 먼저 가장 기본적인 모델을 통해서 정확도를 확인하고 여러 복잡한 모델을 사용하여 정확도의 변화를 관찰해 보자.
- 모델은 처음에는 참고하여 만들고 미리 학습된 모델 사용도 고려해 본다.
- 정확도의 변화가 어떻게 일어나는지 정확기 기술하기.
'AI > 부스트 캠프 AI tech' 카테고리의 다른 글
[Day44] Training & Inference (0) | 2021.04.03 |
---|---|
[Day43] Model (0) | 2021.03.31 |
[Day42] Data Feeding (0) | 2021.03.31 |
[Day40] 행렬 분해 (0) | 2021.03.19 |
[Day39] 양자화 & 지식 증류 (0) | 2021.03.18 |
[Day38] 가속화 & pruning (0) | 2021.03.17 |
[Day37] 시간복잡도 & entropy (0) | 2021.03.16 |
[Day35] Muti-modal & 3D understanding (0) | 2021.03.12 |