파일 인코딩 정보 확인하기

Python에서 문자열을 다루거나 한글이 포함된 파일을 다루게 되면

파일을 읽을 때 인코딩 문제가 발생하는 경우가 많이 있다.

 

 

필요 라이브러리 설치

  • 인코딩을 확인하기 위해 chardet 라이브러리를 설치
$ pip install chardet

 

 

사용 방법

Command-line Tool

$ chardetect 파일명1 파일명2

 

결과:

파일명1 : utf-8 with confidence 0.99
파일명2 : utf-8 with confidence 0.99

 

  • jupyter notebook에서 실행하게 된다면
!chardetect ./data/Auction_master_kr/Auction_regist.csv

 

결과:

./data/Auction_master_kr/Auction_regist.csv: utf-8 with confidence 0.99

 

위와 같이 사용하여 파일 데이터의 인코딩을 확인할 수 있다.

 

지원하는 인코딩 종류

ASCII, UTF-8, UTF-16 (2 변형), UTF-32 (4 변형) Big5, GB2312, EUC-TW, HZ-GB-2312,
ISO-2022-CN (중국어 번체 및 간체) EUC-JP, SHIFT_JIS, CP932, ISO-2022-JP (일본어) EUC-KR,
ISO-2022-KR (한국어) KOI8-R, MacCyrillic, IBM855, IBM866, ISO-8859-5,
windows-1251 (키릴 문자) ISO-8859-2, windows-1250 (헝가리어) ISO-8859-5,
windows-1251 (불가리아어) windows-1252 (영어) ISO-8859-7, windows-1253 (그리스어) ISO-8859-8, windows-1255 (시각적 및 논리적 히브리어) TIS-620 (태국)

 

 

+ Recent posts