Speech/Music classification of audio files using machine learning techniques.
You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
 
 
 
 

87 lines
2.8 KiB

\section{Πως σκοπεύουμε να το κάνουμε εμείς}
Πλάνο επίθεσης
Μετά από μελέτη των προηγούμενων υλοποιήσεων και πειραματισμό με την
εξαγωγή διάφορων χαρακτηριστικών (features) [και καλά ;)] κλπ κλπ
αποφασίσαμε να ακολουθήσουμε την παρακάτω πορεία αντιμετώπισης του
προβλήματος:
\begin{enumerate}[noitemsep]
\item Τι παραθυροποίηση θα κάνουμε (λογικά την κλασική
hamming... φαίνεται να είναι ψιλοστάνταρ)
\item Ποια features σκοπεύουμε να χρησιμοποιήσουμε; (γιατί;)
Χαρακτηριστικά από το πεδίο του χρόνου, το πεδίο της συχνότητας, το
cepstral πεδίο, άλλα…
\item Γενικά MFCC + MPEG-7 audio descriptors + ίσως κάνα δυο ακόμα
είναι υπέρ-αρκετά
\item Τι μοντέλο/μοντέλα θα δοκιμάσουμε; (γιατί;)
\item Stack (python/R, τι βιβλιοθήκες/kits για τα μοντέλα;)
\end{enumerate}
Διάφορα features από τη βιβλιογραφία:
M. Kashif Saeed Khan · Wasfi G. Al-Khatib
Machine-learning based classification of speech and music
\begin{enumerate}[noitemsep]
\item Percentage of low energy frames
\item Roll off point
\item Spectral
flux
\item Zero crossing rate
\item Spectral centroid
\item 4Hz modulation
energy
\item Variance of the roll off point
\item Variance of the spectral
centroid
\item Variance of the spectral flux
\item Cepstral residual
\item Variance of the cepstral residual
\end{enumerate}
\begin{enumerate}[noitemsep]
\item Cepstral coefficients
\item Delta cepstral coefficients
\item Harmonic coefficients
\item 4 Hz harmonic coefficients
\item Log energy
\end{enumerate}
\begin{enumerate}[noitemsep]
\item Line spectral frequencies (LSF)
\item Differential LSF, the successive differences of LSF
\item LSF with the zero crossing count of the filtered input signal
\item LSF with Linear prediction zero crossing ratio, the ratio of the
zero crossing count (ZCC) of the input and the ZCC of the output of
the LP analysis filter
\end{enumerate}
---
Environmental sound recognition: a survey
sachin chachada
\begin{enumerate}[noitemsep]
\item Zero crossings
\item Amplitude
\item Power
\item Auto-regression
\item Adaptive time frequency decomposition
\item Short time Fourier
\item Brightness
\item Tonality
\item Loudness
\item Pitch
\item Chroma
\item Harmonicity
\item Perceptual filter bank
\item Advanced auditory model
\item (Cepstral) auto-regression
\item Rythm
\item Phase space
\item Eigen domain
\end{enumerate}
---