Frank Blanning
6 years ago
7 changed files with 155 additions and 2 deletions
@ -1 +1,2 @@ |
|||
\section{Τι θα κάνουμε} |
|||
\section{Τι θα κάνουμε} |
|||
|
|||
|
@ -1 +1,41 @@ |
|||
\section{Πως το έκαναν άλλοι} |
|||
\section{Πως το έκαναν άλλοι} |
|||
|
|||
Υπάρχει πληθώρα βιβλιογραφίας σχετική με το θέμα. Έχουν βρεθεί ήδη |
|||
αρκετές λύσεις, ενώ οι πιο πρόσφατες πετυχαίνουν αξιοσημείωτα |
|||
αποτελέσματα τόσο όσων αφορά την ταχύτητα του διαχωρισμού όσο και την |
|||
ακρίβεια των αποτελεσμάτων. |
|||
|
|||
Πιθανές αναφορές: |
|||
\begin{itemize}[noitemsep] |
|||
\item ποιά μοντέλα (δέντρα, πιθανοτικά, neural...) είναι |
|||
αποτελεσματικότερα με βάση τη βιβλιογραφία; Νομίζω ανάλογα με το |
|||
paper υπάρχουν διαφορετικά αποτελέσματα σχετικά με αυτό (άλλα |
|||
προτείνουν μπαγεσιανά και άλλα νευρωνικά) άρα παίζει ρόλο η επιλογή |
|||
των features και στο μοντέλο, να το πούμε αυτό.. Πχ κάποια features |
|||
έχουν μεγάλο correlation -> τα naive bayes δε τη παλεύουν σε αυτά… |
|||
|
|||
\item ποια features χρησιμοποιούνται; Τι σημαίνει το καθένα και πως |
|||
υπολογίζεται; Πόσο ακριβά είναι υπολογιστικά το καθένα; |
|||
|
|||
\item ποια είναι η γενικότερη πορεία που ακολουθείται;\\ |
|||
συνήθως: |
|||
|
|||
\begin{enumerate}[noitemsep] |
|||
\item παραθυροποίηση (τι τύπου; είναι επικαλυπτόμενα τα παράθυρα; |
|||
πόσα sec είναι το καθένα;) |
|||
\item feature extraction |
|||
\item μετασχηματισμός του χώρου (βλέπε PCA και άλλες μεθόδους) |
|||
\item training |
|||
\item πρόβλεψη |
|||
\end{enumerate} |
|||
|
|||
\item Άρα κατά τον σχεδιασμό πρέπει εκτός από τη μέθοδο της |
|||
παραθυροποίησης, τα features και το μοντέλο να επιλεχθούν επίσης |
|||
κάποιος μετασχηματισμός (δεν το κάνουν πάντα) ή και άλλες |
|||
παράμετροι. Τι άλλο preprocessing χρειάζεται; |
|||
|
|||
\end{itemize} |
|||
|
|||
Σύμφωνα με το paper ~\cite{cuckoo} το back propagation neural network πέτυχε |
|||
ακρίβεια 89.08\%, ενώ το SVM πέτυχε 90.12\% και η δική τους υλοποίηση |
|||
SVM (με τον αλγόριθμο cuckoo), CS-SVM, πέτυχε 92.75\%. |
|||
|
@ -1 +1,87 @@ |
|||
\section{Πως σκοπεύουμε να το κάνουμε εμείς} |
|||
|
|||
Πλάνο επίθεσης |
|||
|
|||
Μετά από μελέτη των προηγούμενων υλοποιήσεων και πειραματισμό με την |
|||
εξαγωγή διάφορων χαρακτηριστικών (features) [και καλά ;)] κλπ κλπ |
|||
αποφασίσαμε να ακολουθήσουμε την παρακάτω πορεία αντιμετώπισης του |
|||
προβλήματος: |
|||
|
|||
\begin{enumerate}[noitemsep] |
|||
\item Τι παραθυροποίηση θα κάνουμε (λογικά την κλασική |
|||
hamming... φαίνεται να είναι ψιλοστάνταρ) |
|||
\item Ποια features σκοπεύουμε να χρησιμοποιήσουμε; (γιατί;) |
|||
Χαρακτηριστικά από το πεδίο του χρόνου, το πεδίο της συχνότητας, το |
|||
cepstral πεδίο, άλλα… |
|||
\item Γενικά MFCC + MPEG-7 audio descriptors + ίσως κάνα δυο ακόμα |
|||
είναι υπέρ-αρκετά |
|||
\item Τι μοντέλο/μοντέλα θα δοκιμάσουμε; (γιατί;) |
|||
\item Stack (python/R, τι βιβλιοθήκες/kits για τα μοντέλα;) |
|||
\end{enumerate} |
|||
|
|||
|
|||
Διάφορα features από τη βιβλιογραφία: |
|||
|
|||
M. Kashif Saeed Khan · Wasfi G. Al-Khatib |
|||
Machine-learning based classification of speech and music |
|||
|
|||
\begin{enumerate}[noitemsep] |
|||
\item Percentage of low energy frames |
|||
\item Roll off point |
|||
\item Spectral |
|||
flux |
|||
\item Zero crossing rate |
|||
\item Spectral centroid |
|||
\item 4Hz modulation |
|||
energy |
|||
\item Variance of the roll off point |
|||
\item Variance of the spectral |
|||
centroid |
|||
\item Variance of the spectral flux |
|||
\item Cepstral residual |
|||
\item Variance of the cepstral residual |
|||
\end{enumerate} |
|||
|
|||
\begin{enumerate}[noitemsep] |
|||
\item Cepstral coefficients |
|||
\item Delta cepstral coefficients |
|||
\item Harmonic coefficients |
|||
\item 4 Hz harmonic coefficients |
|||
\item Log energy |
|||
\end{enumerate} |
|||
\begin{enumerate}[noitemsep] |
|||
\item Line spectral frequencies (LSF) |
|||
\item Differential LSF, the successive differences of LSF |
|||
\item LSF with the zero crossing count of the filtered input signal |
|||
\item LSF with Linear prediction zero crossing ratio, the ratio of the |
|||
zero crossing count (ZCC) of the input and the ZCC of the output of |
|||
the LP analysis filter |
|||
\end{enumerate} |
|||
|
|||
--- |
|||
|
|||
Environmental sound recognition: a survey |
|||
sachin chachada |
|||
|
|||
\begin{enumerate}[noitemsep] |
|||
\item Zero crossings |
|||
\item Amplitude |
|||
\item Power |
|||
\item Auto-regression |
|||
\item Adaptive time frequency decomposition |
|||
\item Short time Fourier |
|||
\item Brightness |
|||
\item Tonality |
|||
\item Loudness |
|||
\item Pitch |
|||
\item Chroma |
|||
\item Harmonicity |
|||
\item Perceptual filter bank |
|||
\item Advanced auditory model |
|||
\item (Cepstral) auto-regression |
|||
\item Rythm |
|||
\item Phase space |
|||
\item Eigen domain |
|||
\end{enumerate} |
|||
|
|||
--- |
|||
|
@ -0,0 +1,8 @@ |
|||
@article{ cuckoo, |
|||
author = "Wenlei Shi and Xinhai Fan", |
|||
title = "Speech classification based on cuckoo algorithm and support |
|||
vector machines", |
|||
journal = "2nd IEEE International Conference on Computational |
|||
Intelligence and Applications", |
|||
year = "2017" |
|||
} |
Binary file not shown.
Loading…
Reference in new issue