Added all google doc text plus some extra in the intro

7 years ago · 1047e5baa6
7 changed files with 155 additions and 2 deletions
--- a/tex/1.intro.tex
+++ b/tex/1.intro.tex
@ -1,5 +1,19 @@
 \section{Εισαγωγή}

+Το ζητούμενο της εργασίας είναι η ανάπτυξη ενός μοντέλου μηχανικής
+μάθησης το οποίο παρέχοντας ένα αρχείο ήχου θα μπορεί να ξεχωρίσει
+ανάμεσα στα κομμάτια του χρόνου που περιέχουν ομιλία (speech) και
+μουσική (music).
+
+Πρόκειται για ένα πρόβλημα ταξινόμησης που είναι σημαντικό γιατί έχει
+εφαρμογές σε πλατφόρμες κοινωνικών δικτύων για την αναγνώρισή
+περιεχομένου με πνευματικά δικαιώματά, σε συστήματα αυτόματης
+αναγνώρισης διαφημίσεων, μοντέρνα "έξυπνα" βοηθητικά ακοής κ.α. Η
+πρόσφατη βιβλιογραφία περιέχει θεματολογία όπου στοχεύει είτε στην
+ανάπτυξή αλγορίθμων για γρήγορη και φθηνή υπολογιστικά ταξινόμηση,
+είτε στην αναγνώριση πολλής μεγάλης ακρίβειας. Αυτό διότι αυτή τη
+στιγμή η αναγνώριση με ποσοστό επιτυχίας γύρω στο 98\% είναι κάτι
+συνηθισμένο.


 %%% Local Variables:
--- a/tex/2.what.tex
+++ b/tex/2.what.tex
@ -1 +1,2 @@
 \section{Τι θα κάνουμε}
+
--- a/tex/4.others.tex
+++ b/tex/4.others.tex
@ -1 +1,41 @@
 \section{Πως το έκαναν άλλοι}
+
+Υπάρχει πληθώρα βιβλιογραφίας σχετική με το θέμα. Έχουν βρεθεί ήδη
+αρκετές λύσεις, ενώ οι πιο πρόσφατες πετυχαίνουν αξιοσημείωτα
+αποτελέσματα τόσο όσων αφορά την ταχύτητα του διαχωρισμού όσο και την
+ακρίβεια των αποτελεσμάτων.
+
+Πιθανές αναφορές:
+\begin{itemize}[noitemsep]
+\item ποιά μοντέλα (δέντρα, πιθανοτικά, neural...) είναι
+  αποτελεσματικότερα με βάση τη βιβλιογραφία; Νομίζω ανάλογα με το
+  paper υπάρχουν διαφορετικά αποτελέσματα σχετικά με αυτό (άλλα
+  προτείνουν μπαγεσιανά και άλλα νευρωνικά) άρα παίζει ρόλο η επιλογή
+  των features και στο μοντέλο, να το πούμε αυτό.. Πχ κάποια features
+  έχουν μεγάλο correlation -> τα naive bayes δε τη παλεύουν σε αυτά…
+  
+\item ποια features χρησιμοποιούνται; Τι σημαίνει το καθένα και πως
+  υπολογίζεται; Πόσο ακριβά είναι υπολογιστικά το καθένα;
+  
+\item ποια είναι η γενικότερη πορεία που ακολουθείται;\\
+  συνήθως:
+  
+  \begin{enumerate}[noitemsep]
+  \item παραθυροποίηση (τι τύπου; είναι επικαλυπτόμενα τα παράθυρα;
+    πόσα sec είναι το καθένα;)
+  \item feature extraction
+  \item μετασχηματισμός του χώρου (βλέπε PCA και άλλες μεθόδους)
+  \item training
+  \item πρόβλεψη
+  \end{enumerate}
+  
+\item Άρα κατά τον σχεδιασμό πρέπει εκτός από τη μέθοδο της
+  παραθυροποίησης, τα features και το μοντέλο να επιλεχθούν επίσης
+  κάποιος μετασχηματισμός (δεν το κάνουν πάντα) ή και άλλες
+  παράμετροι. Τι άλλο preprocessing χρειάζεται;
+    
+\end{itemize}
+
+Σύμφωνα με το paper ~\cite{cuckoo} το back propagation neural network πέτυχε
+ακρίβεια 89.08\%, ενώ το SVM πέτυχε 90.12\% και η δική τους υλοποίηση
+SVM (με τον αλγόριθμο cuckoo), CS-SVM, πέτυχε 92.75\%.
--- a/tex/5.how.tex
+++ b/tex/5.how.tex
@ -1 +1,87 @@
 \section{Πως σκοπεύουμε να το κάνουμε εμείς}
+
+Πλάνο επίθεσης
+
+Μετά από μελέτη των προηγούμενων υλοποιήσεων και πειραματισμό με την
+εξαγωγή διάφορων χαρακτηριστικών (features) [και καλά ;)] κλπ κλπ
+αποφασίσαμε να ακολουθήσουμε την παρακάτω πορεία αντιμετώπισης του
+προβλήματος:
+
+\begin{enumerate}[noitemsep]
+\item Τι παραθυροποίηση θα κάνουμε (λογικά την κλασική
+  hamming... φαίνεται να είναι ψιλοστάνταρ)
+\item Ποια features σκοπεύουμε να χρησιμοποιήσουμε; (γιατί;)
+  Χαρακτηριστικά από το πεδίο του χρόνου, το πεδίο της συχνότητας, το
+  cepstral πεδίο, άλλα…
+\item Γενικά MFCC + MPEG-7 audio descriptors + ίσως κάνα δυο ακόμα
+  είναι υπέρ-αρκετά
+\item Τι μοντέλο/μοντέλα θα δοκιμάσουμε; (γιατί;)
+\item Stack (python/R, τι βιβλιοθήκες/kits για τα μοντέλα;)
+\end{enumerate}
+
+
+Διάφορα features από τη βιβλιογραφία:
+
+M. Kashif Saeed Khan · Wasfi G. Al-Khatib
+Machine-learning based classification of speech and music
+
+\begin{enumerate}[noitemsep]
+\item Percentage of low energy frames
+\item Roll off point
+\item Spectral
+  flux
+\item Zero crossing rate
+\item Spectral centroid
+\item 4Hz modulation
+  energy
+\item Variance of the roll off point
+\item Variance of the spectral
+  centroid
+\item Variance of the spectral flux
+\item Cepstral residual
+\item Variance of the cepstral residual
+\end{enumerate}
+
+\begin{enumerate}[noitemsep]
+\item Cepstral coefficients
+\item Delta cepstral coefficients
+\item Harmonic coefficients
+\item 4 Hz harmonic coefficients
+\item Log energy
+\end{enumerate}
+\begin{enumerate}[noitemsep]
+\item Line spectral frequencies (LSF)
+\item Differential LSF, the successive differences of LSF
+\item LSF with the zero crossing count of the filtered input signal
+\item LSF with Linear prediction zero crossing ratio, the ratio of the
+  zero crossing count (ZCC) of the input and the ZCC of the output of
+  the LP analysis filter
+\end{enumerate}
+
+---
+
+Environmental sound recognition: a survey
+sachin chachada
+
+\begin{enumerate}[noitemsep]
+\item Zero crossings
+\item Amplitude
+\item Power
+\item Auto-regression
+\item Adaptive time frequency decomposition
+\item Short time Fourier
+\item Brightness
+\item Tonality
+\item Loudness
+\item Pitch
+\item Chroma
+\item Harmonicity
+\item Perceptual filter bank
+\item Advanced auditory model
+\item (Cepstral) auto-regression
+\item Rythm
+\item Phase space
+\item Eigen domain
+\end{enumerate}
+
+---
--- a/tex/cites.bib
+++ b/tex/cites.bib
@ -0,0 +1,8 @@
+@article{ cuckoo,
+author = "Wenlei Shi and Xinhai Fan",
+title = "Speech classification based on cuckoo algorithm and support
+                  vector machines",
+journal = "2nd IEEE International Conference on Computational
+                  Intelligence and Applications",	  
+year = "2017"
+}
--- a/tex/main.pdf
+++ b/tex/main.pdf
--- a/tex/main.tex
+++ b/tex/main.tex
@ -21,6 +21,7 @@
  \usepackage{amsfonts}
  \usepackage{amssymb}
  \usepackage{array}
+  \usepackage{cite}

  \setmainfont{Baskerville}
  \setmonofont{Consolas}
@ -116,5 +117,8 @@
  \input{5.how.tex}
  \input{6.etc.tex}

+  \bibliography{cites}{}
+  \bibliographystyle{plain}
+ 

 \end{document}