N-analyst 2021. 3. 29. 21:38

[Day41] EDA

기본적인 EDA와 몰랐던 함수의 기능들을 정리한다.

 

오늘 한 일

opencv 문제

가장 먼저 jupyter notebook에서 !pip install -r requirements.txt를 실행하여 관련 패키지를 다운 받았다. 여기서 import cv2에서 다음과 같은 에러가 발생하였다.

# ImportError: libGL.so.1: cannot open shared object file: No such file or directory

이 문제를 해결하기 위해서 먼저 jupyter notebook에서 Terminal로 들어가서

apt install libgl1-mesa-glx를 실행하여 해결하였다.

 

 

전체적인 과정

  • 가장 먼저 데이터의 전처리를 진행 하였다.
  • train.csv파일에 있는 path컬럼에 있는 폴더의 이미지를 새로운 컬럼에 추가하고 각각의 mask 여부를 의미하는 컬럼을 추가하였다.
  • 여기서 데이터를 살펴본 결과 od.listdir로 파일을 확인하게 되면 숨긴 파일까지 모두 보이게 된다. 따라서 import glob을 하여 glob.glob()함수를 이용하여 이미지 파일의 경로를 탐색하였다.
  • ❗ 이미지의 확장자는 .jpg, .jpeg,.png로 있어서 특정 확장자의 이미지 파일로 검색을 하면 안된다.
  • labeling이 따로 되어 있지 않아서 label이라는 컬럼을 새로 추가한다.
  • 기본적인 EDA를 진행 하였다.

 

 

내일 할 일

  • 우선 기본적인 EDA와 전처리가 끝이 났다.
  • 먼저 가장 기본적인 모델을 통해서 정확도를 확인하고 여러 복잡한 모델을 사용하여 정확도의 변화를 관찰해 보자.
  • 모델은 처음에는 참고하여 만들고 미리 학습된 모델 사용도 고려해 본다.
  • 정확도의 변화가 어떻게 일어나는지 정확기 기술하기.