Frank Blanning
6 years ago
7 changed files with 155 additions and 2 deletions
@ -1 +1,2 @@ |
|||||
\section{Τι θα κάνουμε} |
\section{Τι θα κάνουμε} |
||||
|
|
||||
|
@ -1 +1,41 @@ |
|||||
\section{Πως το έκαναν άλλοι} |
\section{Πως το έκαναν άλλοι} |
||||
|
|
||||
|
Υπάρχει πληθώρα βιβλιογραφίας σχετική με το θέμα. Έχουν βρεθεί ήδη |
||||
|
αρκετές λύσεις, ενώ οι πιο πρόσφατες πετυχαίνουν αξιοσημείωτα |
||||
|
αποτελέσματα τόσο όσων αφορά την ταχύτητα του διαχωρισμού όσο και την |
||||
|
ακρίβεια των αποτελεσμάτων. |
||||
|
|
||||
|
Πιθανές αναφορές: |
||||
|
\begin{itemize}[noitemsep] |
||||
|
\item ποιά μοντέλα (δέντρα, πιθανοτικά, neural...) είναι |
||||
|
αποτελεσματικότερα με βάση τη βιβλιογραφία; Νομίζω ανάλογα με το |
||||
|
paper υπάρχουν διαφορετικά αποτελέσματα σχετικά με αυτό (άλλα |
||||
|
προτείνουν μπαγεσιανά και άλλα νευρωνικά) άρα παίζει ρόλο η επιλογή |
||||
|
των features και στο μοντέλο, να το πούμε αυτό.. Πχ κάποια features |
||||
|
έχουν μεγάλο correlation -> τα naive bayes δε τη παλεύουν σε αυτά… |
||||
|
|
||||
|
\item ποια features χρησιμοποιούνται; Τι σημαίνει το καθένα και πως |
||||
|
υπολογίζεται; Πόσο ακριβά είναι υπολογιστικά το καθένα; |
||||
|
|
||||
|
\item ποια είναι η γενικότερη πορεία που ακολουθείται;\\ |
||||
|
συνήθως: |
||||
|
|
||||
|
\begin{enumerate}[noitemsep] |
||||
|
\item παραθυροποίηση (τι τύπου; είναι επικαλυπτόμενα τα παράθυρα; |
||||
|
πόσα sec είναι το καθένα;) |
||||
|
\item feature extraction |
||||
|
\item μετασχηματισμός του χώρου (βλέπε PCA και άλλες μεθόδους) |
||||
|
\item training |
||||
|
\item πρόβλεψη |
||||
|
\end{enumerate} |
||||
|
|
||||
|
\item Άρα κατά τον σχεδιασμό πρέπει εκτός από τη μέθοδο της |
||||
|
παραθυροποίησης, τα features και το μοντέλο να επιλεχθούν επίσης |
||||
|
κάποιος μετασχηματισμός (δεν το κάνουν πάντα) ή και άλλες |
||||
|
παράμετροι. Τι άλλο preprocessing χρειάζεται; |
||||
|
|
||||
|
\end{itemize} |
||||
|
|
||||
|
Σύμφωνα με το paper ~\cite{cuckoo} το back propagation neural network πέτυχε |
||||
|
ακρίβεια 89.08\%, ενώ το SVM πέτυχε 90.12\% και η δική τους υλοποίηση |
||||
|
SVM (με τον αλγόριθμο cuckoo), CS-SVM, πέτυχε 92.75\%. |
||||
|
@ -1 +1,87 @@ |
|||||
\section{Πως σκοπεύουμε να το κάνουμε εμείς} |
\section{Πως σκοπεύουμε να το κάνουμε εμείς} |
||||
|
|
||||
|
Πλάνο επίθεσης |
||||
|
|
||||
|
Μετά από μελέτη των προηγούμενων υλοποιήσεων και πειραματισμό με την |
||||
|
εξαγωγή διάφορων χαρακτηριστικών (features) [και καλά ;)] κλπ κλπ |
||||
|
αποφασίσαμε να ακολουθήσουμε την παρακάτω πορεία αντιμετώπισης του |
||||
|
προβλήματος: |
||||
|
|
||||
|
\begin{enumerate}[noitemsep] |
||||
|
\item Τι παραθυροποίηση θα κάνουμε (λογικά την κλασική |
||||
|
hamming... φαίνεται να είναι ψιλοστάνταρ) |
||||
|
\item Ποια features σκοπεύουμε να χρησιμοποιήσουμε; (γιατί;) |
||||
|
Χαρακτηριστικά από το πεδίο του χρόνου, το πεδίο της συχνότητας, το |
||||
|
cepstral πεδίο, άλλα… |
||||
|
\item Γενικά MFCC + MPEG-7 audio descriptors + ίσως κάνα δυο ακόμα |
||||
|
είναι υπέρ-αρκετά |
||||
|
\item Τι μοντέλο/μοντέλα θα δοκιμάσουμε; (γιατί;) |
||||
|
\item Stack (python/R, τι βιβλιοθήκες/kits για τα μοντέλα;) |
||||
|
\end{enumerate} |
||||
|
|
||||
|
|
||||
|
Διάφορα features από τη βιβλιογραφία: |
||||
|
|
||||
|
M. Kashif Saeed Khan · Wasfi G. Al-Khatib |
||||
|
Machine-learning based classification of speech and music |
||||
|
|
||||
|
\begin{enumerate}[noitemsep] |
||||
|
\item Percentage of low energy frames |
||||
|
\item Roll off point |
||||
|
\item Spectral |
||||
|
flux |
||||
|
\item Zero crossing rate |
||||
|
\item Spectral centroid |
||||
|
\item 4Hz modulation |
||||
|
energy |
||||
|
\item Variance of the roll off point |
||||
|
\item Variance of the spectral |
||||
|
centroid |
||||
|
\item Variance of the spectral flux |
||||
|
\item Cepstral residual |
||||
|
\item Variance of the cepstral residual |
||||
|
\end{enumerate} |
||||
|
|
||||
|
\begin{enumerate}[noitemsep] |
||||
|
\item Cepstral coefficients |
||||
|
\item Delta cepstral coefficients |
||||
|
\item Harmonic coefficients |
||||
|
\item 4 Hz harmonic coefficients |
||||
|
\item Log energy |
||||
|
\end{enumerate} |
||||
|
\begin{enumerate}[noitemsep] |
||||
|
\item Line spectral frequencies (LSF) |
||||
|
\item Differential LSF, the successive differences of LSF |
||||
|
\item LSF with the zero crossing count of the filtered input signal |
||||
|
\item LSF with Linear prediction zero crossing ratio, the ratio of the |
||||
|
zero crossing count (ZCC) of the input and the ZCC of the output of |
||||
|
the LP analysis filter |
||||
|
\end{enumerate} |
||||
|
|
||||
|
--- |
||||
|
|
||||
|
Environmental sound recognition: a survey |
||||
|
sachin chachada |
||||
|
|
||||
|
\begin{enumerate}[noitemsep] |
||||
|
\item Zero crossings |
||||
|
\item Amplitude |
||||
|
\item Power |
||||
|
\item Auto-regression |
||||
|
\item Adaptive time frequency decomposition |
||||
|
\item Short time Fourier |
||||
|
\item Brightness |
||||
|
\item Tonality |
||||
|
\item Loudness |
||||
|
\item Pitch |
||||
|
\item Chroma |
||||
|
\item Harmonicity |
||||
|
\item Perceptual filter bank |
||||
|
\item Advanced auditory model |
||||
|
\item (Cepstral) auto-regression |
||||
|
\item Rythm |
||||
|
\item Phase space |
||||
|
\item Eigen domain |
||||
|
\end{enumerate} |
||||
|
|
||||
|
--- |
||||
|
@ -0,0 +1,8 @@ |
|||||
|
@article{ cuckoo, |
||||
|
author = "Wenlei Shi and Xinhai Fan", |
||||
|
title = "Speech classification based on cuckoo algorithm and support |
||||
|
vector machines", |
||||
|
journal = "2nd IEEE International Conference on Computational |
||||
|
Intelligence and Applications", |
||||
|
year = "2017" |
||||
|
} |
Binary file not shown.
Loading…
Reference in new issue