Browse Source

Added all google doc text plus some extra in the intro

master
Frank Blanning 6 years ago
parent
commit
1047e5baa6
  1. 14
      tex/1.intro.tex
  2. 1
      tex/2.what.tex
  3. 40
      tex/4.others.tex
  4. 86
      tex/5.how.tex
  5. 8
      tex/cites.bib
  6. BIN
      tex/main.pdf
  7. 4
      tex/main.tex

14
tex/1.intro.tex

@ -1,5 +1,19 @@
\section{Εισαγωγή} \section{Εισαγωγή}
Το ζητούμενο της εργασίας είναι η ανάπτυξη ενός μοντέλου μηχανικής
μάθησης το οποίο παρέχοντας ένα αρχείο ήχου θα μπορεί να ξεχωρίσει
ανάμεσα στα κομμάτια του χρόνου που περιέχουν ομιλία (speech) και
μουσική (music).
Πρόκειται για ένα πρόβλημα ταξινόμησης που είναι σημαντικό γιατί έχει
εφαρμογές σε πλατφόρμες κοινωνικών δικτύων για την αναγνώρισή
περιεχομένου με πνευματικά δικαιώματά, σε συστήματα αυτόματης
αναγνώρισης διαφημίσεων, μοντέρνα "έξυπνα" βοηθητικά ακοής κ.α. Η
πρόσφατη βιβλιογραφία περιέχει θεματολογία όπου στοχεύει είτε στην
ανάπτυξή αλγορίθμων για γρήγορη και φθηνή υπολογιστικά ταξινόμηση,
είτε στην αναγνώριση πολλής μεγάλης ακρίβειας. Αυτό διότι αυτή τη
στιγμή η αναγνώριση με ποσοστό επιτυχίας γύρω στο 98\% είναι κάτι
συνηθισμένο.
%%% Local Variables: %%% Local Variables:

1
tex/2.what.tex

@ -1 +1,2 @@
\section{Τι θα κάνουμε} \section{Τι θα κάνουμε}

40
tex/4.others.tex

@ -1 +1,41 @@
\section{Πως το έκαναν άλλοι} \section{Πως το έκαναν άλλοι}
Υπάρχει πληθώρα βιβλιογραφίας σχετική με το θέμα. Έχουν βρεθεί ήδη
αρκετές λύσεις, ενώ οι πιο πρόσφατες πετυχαίνουν αξιοσημείωτα
αποτελέσματα τόσο όσων αφορά την ταχύτητα του διαχωρισμού όσο και την
ακρίβεια των αποτελεσμάτων.
Πιθανές αναφορές:
\begin{itemize}[noitemsep]
\item ποιά μοντέλα (δέντρα, πιθανοτικά, neural...) είναι
αποτελεσματικότερα με βάση τη βιβλιογραφία; Νομίζω ανάλογα με το
paper υπάρχουν διαφορετικά αποτελέσματα σχετικά με αυτό (άλλα
προτείνουν μπαγεσιανά και άλλα νευρωνικά) άρα παίζει ρόλο η επιλογή
των features και στο μοντέλο, να το πούμε αυτό.. Πχ κάποια features
έχουν μεγάλο correlation -> τα naive bayes δε τη παλεύουν σε αυτά…
\item ποια features χρησιμοποιούνται; Τι σημαίνει το καθένα και πως
υπολογίζεται; Πόσο ακριβά είναι υπολογιστικά το καθένα;
\item ποια είναι η γενικότερη πορεία που ακολουθείται;\\
συνήθως:
\begin{enumerate}[noitemsep]
\item παραθυροποίηση (τι τύπου; είναι επικαλυπτόμενα τα παράθυρα;
πόσα sec είναι το καθένα;)
\item feature extraction
\item μετασχηματισμός του χώρου (βλέπε PCA και άλλες μεθόδους)
\item training
\item πρόβλεψη
\end{enumerate}
\item Άρα κατά τον σχεδιασμό πρέπει εκτός από τη μέθοδο της
παραθυροποίησης, τα features και το μοντέλο να επιλεχθούν επίσης
κάποιος μετασχηματισμός (δεν το κάνουν πάντα) ή και άλλες
παράμετροι. Τι άλλο preprocessing χρειάζεται;
\end{itemize}
Σύμφωνα με το paper ~\cite{cuckoo} το back propagation neural network πέτυχε
ακρίβεια 89.08\%, ενώ το SVM πέτυχε 90.12\% και η δική τους υλοποίηση
SVM (με τον αλγόριθμο cuckoo), CS-SVM, πέτυχε 92.75\%.

86
tex/5.how.tex

@ -1 +1,87 @@
\section{Πως σκοπεύουμε να το κάνουμε εμείς} \section{Πως σκοπεύουμε να το κάνουμε εμείς}
Πλάνο επίθεσης
Μετά από μελέτη των προηγούμενων υλοποιήσεων και πειραματισμό με την
εξαγωγή διάφορων χαρακτηριστικών (features) [και καλά ;)] κλπ κλπ
αποφασίσαμε να ακολουθήσουμε την παρακάτω πορεία αντιμετώπισης του
προβλήματος:
\begin{enumerate}[noitemsep]
\item Τι παραθυροποίηση θα κάνουμε (λογικά την κλασική
hamming... φαίνεται να είναι ψιλοστάνταρ)
\item Ποια features σκοπεύουμε να χρησιμοποιήσουμε; (γιατί;)
Χαρακτηριστικά από το πεδίο του χρόνου, το πεδίο της συχνότητας, το
cepstral πεδίο, άλλα…
\item Γενικά MFCC + MPEG-7 audio descriptors + ίσως κάνα δυο ακόμα
είναι υπέρ-αρκετά
\item Τι μοντέλο/μοντέλα θα δοκιμάσουμε; (γιατί;)
\item Stack (python/R, τι βιβλιοθήκες/kits για τα μοντέλα;)
\end{enumerate}
Διάφορα features από τη βιβλιογραφία:
M. Kashif Saeed Khan · Wasfi G. Al-Khatib
Machine-learning based classification of speech and music
\begin{enumerate}[noitemsep]
\item Percentage of low energy frames
\item Roll off point
\item Spectral
flux
\item Zero crossing rate
\item Spectral centroid
\item 4Hz modulation
energy
\item Variance of the roll off point
\item Variance of the spectral
centroid
\item Variance of the spectral flux
\item Cepstral residual
\item Variance of the cepstral residual
\end{enumerate}
\begin{enumerate}[noitemsep]
\item Cepstral coefficients
\item Delta cepstral coefficients
\item Harmonic coefficients
\item 4 Hz harmonic coefficients
\item Log energy
\end{enumerate}
\begin{enumerate}[noitemsep]
\item Line spectral frequencies (LSF)
\item Differential LSF, the successive differences of LSF
\item LSF with the zero crossing count of the filtered input signal
\item LSF with Linear prediction zero crossing ratio, the ratio of the
zero crossing count (ZCC) of the input and the ZCC of the output of
the LP analysis filter
\end{enumerate}
---
Environmental sound recognition: a survey
sachin chachada
\begin{enumerate}[noitemsep]
\item Zero crossings
\item Amplitude
\item Power
\item Auto-regression
\item Adaptive time frequency decomposition
\item Short time Fourier
\item Brightness
\item Tonality
\item Loudness
\item Pitch
\item Chroma
\item Harmonicity
\item Perceptual filter bank
\item Advanced auditory model
\item (Cepstral) auto-regression
\item Rythm
\item Phase space
\item Eigen domain
\end{enumerate}
---

8
tex/cites.bib

@ -0,0 +1,8 @@
@article{ cuckoo,
author = "Wenlei Shi and Xinhai Fan",
title = "Speech classification based on cuckoo algorithm and support
vector machines",
journal = "2nd IEEE International Conference on Computational
Intelligence and Applications",
year = "2017"
}

BIN
tex/main.pdf

Binary file not shown.

4
tex/main.tex

@ -21,6 +21,7 @@
\usepackage{amsfonts} \usepackage{amsfonts}
\usepackage{amssymb} \usepackage{amssymb}
\usepackage{array} \usepackage{array}
\usepackage{cite}
\setmainfont{Baskerville} \setmainfont{Baskerville}
\setmonofont{Consolas} \setmonofont{Consolas}
@ -116,5 +117,8 @@
\input{5.how.tex} \input{5.how.tex}
\input{6.etc.tex} \input{6.etc.tex}
\bibliography{cites}{}
\bibliographystyle{plain}
\end{document} \end{document}
Loading…
Cancel
Save