Multi-modal tasks II (Visual data & Audio)
·
AI/이론
Multi-modal tasks II (Visual data & Audio)¶ ✅ Sound representation¶ Spectrogram or MFCC로 음향의 특징을 추출한다. 1️⃣ Fourier transform(푸리에 변환)¶ 📌 Short-time Fourier transform(STFT)¶ 시간축(t)에 대해서 Waveform 전체를 푸리에 변환을 하게 되면 주파수(f) 축으로 옮겨지게 된다. 대신에 이렇게 전부다 주파수 축으로 옮기게 되면 시간에 따른 변화를 우리가 파악할 수 없게 된다. 그래서 제안 된것이 STFT이다. 짧은 window 구간 내에서만 푸리에 변환을 적용하는 방법이다. 여기서 그냥 변환하는 것이 아니라 Hamming Window랑 곱해서 결과를 도출한다. 이렇게 함으로..