Added all google doc text plus some extra in the intro

8 years ago · 1047e5baa6
7 changed files with 155 additions and 2 deletions
--- a/tex/1.intro.tex
+++ b/tex/1.intro.tex
@ -1,5 +1,19 @@
 \section{Εισαγωγή}
 Το ζητούμενο της εργασίας είναι η ανάπτυξη ενός μοντέλου μηχανικής
 μάθησης το οποίο παρέχοντας ένα αρχείο ήχου θα μπορεί να ξεχωρίσει
 ανάμεσα στα κομμάτια του χρόνου που περιέχουν ομιλία (speech) και
 μουσική (music).
 Πρόκειται για ένα πρόβλημα ταξινόμησης που είναι σημαντικό γιατί έχει
 εφαρμογές σε πλατφόρμες κοινωνικών δικτύων για την αναγνώρισή
 περιεχομένου με πνευματικά δικαιώματά, σε συστήματα αυτόματης
 αναγνώρισης διαφημίσεων, μοντέρνα "έξυπνα" βοηθητικά ακοής κ.α. Η
 πρόσφατη βιβλιογραφία περιέχει θεματολογία όπου στοχεύει είτε στην
 ανάπτυξή αλγορίθμων για γρήγορη και φθηνή υπολογιστικά ταξινόμηση,
 είτε στην αναγνώριση πολλής μεγάλης ακρίβειας. Αυτό διότι αυτή τη
 στιγμή η αναγνώριση με ποσοστό επιτυχίας γύρω στο 98\% είναι κάτι
 συνηθισμένο.
 %%% Local Variables:
--- a/tex/2.what.tex
+++ b/tex/2.what.tex
@ -1 +1,2 @@
-\section{Τι θα κάνουμε}
+\section{Τι θα κάνουμε}
--- a/tex/4.others.tex
+++ b/tex/4.others.tex
@ -1 +1,41 @@
-\section{Πως το έκαναν άλλοι}
+\section{Πως το έκαναν άλλοι}
 Υπάρχει πληθώρα βιβλιογραφίας σχετική με το θέμα. Έχουν βρεθεί ήδη
 αρκετές λύσεις, ενώ οι πιο πρόσφατες πετυχαίνουν αξιοσημείωτα
 αποτελέσματα τόσο όσων αφορά την ταχύτητα του διαχωρισμού όσο και την
 ακρίβεια των αποτελεσμάτων.
 Πιθανές αναφορές:
 \begin{itemize}[noitemsep]
 \item ποιά μοντέλα (δέντρα, πιθανοτικά, neural...) είναι
  αποτελεσματικότερα με βάση τη βιβλιογραφία; Νομίζω ανάλογα με το
  paper υπάρχουν διαφορετικά αποτελέσματα σχετικά με αυτό (άλλα
  προτείνουν μπαγεσιανά και άλλα νευρωνικά) άρα παίζει ρόλο η επιλογή
  των features και στο μοντέλο, να το πούμε αυτό.. Πχ κάποια features
  έχουν μεγάλο correlation -> τα naive bayes δε τη παλεύουν σε αυτά…
 \item ποια features χρησιμοποιούνται; Τι σημαίνει το καθένα και πως
  υπολογίζεται; Πόσο ακριβά είναι υπολογιστικά το καθένα;
 \item ποια είναι η γενικότερη πορεία που ακολουθείται;\\
  συνήθως:
  \begin{enumerate}[noitemsep]
  \item παραθυροποίηση (τι τύπου; είναι επικαλυπτόμενα τα παράθυρα;
    πόσα sec είναι το καθένα;)
  \item feature extraction
  \item μετασχηματισμός του χώρου (βλέπε PCA και άλλες μεθόδους)
  \item training
  \item πρόβλεψη
  \end{enumerate}
 \item Άρα κατά τον σχεδιασμό πρέπει εκτός από τη μέθοδο της
  παραθυροποίησης, τα features και το μοντέλο να επιλεχθούν επίσης
  κάποιος μετασχηματισμός (δεν το κάνουν πάντα) ή και άλλες
  παράμετροι. Τι άλλο preprocessing χρειάζεται;
 \end{itemize}
 Σύμφωνα με το paper ~\cite{cuckoo} το back propagation neural network πέτυχε
 ακρίβεια 89.08\%, ενώ το SVM πέτυχε 90.12\% και η δική τους υλοποίηση
 SVM (με τον αλγόριθμο cuckoo), CS-SVM, πέτυχε 92.75\%.
--- a/tex/5.how.tex
+++ b/tex/5.how.tex
@ -1 +1,87 @@
 \section{Πως σκοπεύουμε να το κάνουμε εμείς}
 Πλάνο επίθεσης
 Μετά από μελέτη των προηγούμενων υλοποιήσεων και πειραματισμό με την
 εξαγωγή διάφορων χαρακτηριστικών (features) [και καλά ;)] κλπ κλπ
 αποφασίσαμε να ακολουθήσουμε την παρακάτω πορεία αντιμετώπισης του
 προβλήματος:
 \begin{enumerate}[noitemsep]
 \item Τι παραθυροποίηση θα κάνουμε (λογικά την κλασική
  hamming... φαίνεται να είναι ψιλοστάνταρ)
 \item Ποια features σκοπεύουμε να χρησιμοποιήσουμε; (γιατί;)
  Χαρακτηριστικά από το πεδίο του χρόνου, το πεδίο της συχνότητας, το
  cepstral πεδίο, άλλα…
 \item Γενικά MFCC + MPEG-7 audio descriptors + ίσως κάνα δυο ακόμα
  είναι υπέρ-αρκετά
 \item Τι μοντέλο/μοντέλα θα δοκιμάσουμε; (γιατί;)
 \item Stack (python/R, τι βιβλιοθήκες/kits για τα μοντέλα;)
 \end{enumerate}
 Διάφορα features από τη βιβλιογραφία:
 M. Kashif Saeed Khan · Wasfi G. Al-Khatib
 Machine-learning based classification of speech and music
 \begin{enumerate}[noitemsep]
 \item Percentage of low energy frames
 \item Roll off point
 \item Spectral
  flux
 \item Zero crossing rate
 \item Spectral centroid
 \item 4Hz modulation
  energy
 \item Variance of the roll off point
 \item Variance of the spectral
  centroid
 \item Variance of the spectral flux
 \item Cepstral residual
 \item Variance of the cepstral residual
 \end{enumerate}
 \begin{enumerate}[noitemsep]
 \item Cepstral coefficients
 \item Delta cepstral coefficients
 \item Harmonic coefficients
 \item 4 Hz harmonic coefficients
 \item Log energy
 \end{enumerate}
 \begin{enumerate}[noitemsep]
 \item Line spectral frequencies (LSF)
 \item Differential LSF, the successive differences of LSF
 \item LSF with the zero crossing count of the filtered input signal
 \item LSF with Linear prediction zero crossing ratio, the ratio of the
  zero crossing count (ZCC) of the input and the ZCC of the output of
  the LP analysis filter
 \end{enumerate}
 ---
 Environmental sound recognition: a survey
 sachin chachada
 \begin{enumerate}[noitemsep]
 \item Zero crossings
 \item Amplitude
 \item Power
 \item Auto-regression
 \item Adaptive time frequency decomposition
 \item Short time Fourier
 \item Brightness
 \item Tonality
 \item Loudness
 \item Pitch
 \item Chroma
 \item Harmonicity
 \item Perceptual filter bank
 \item Advanced auditory model
 \item (Cepstral) auto-regression
 \item Rythm
 \item Phase space
 \item Eigen domain
 \end{enumerate}
 ---
--- a/tex/cites.bib
+++ b/tex/cites.bib
@ -0,0 +1,8 @@
@article{ cuckoo,
 author = "Wenlei Shi and Xinhai Fan",
 title = "Speech classification based on cuckoo algorithm and support
                  vector machines",
 journal = "2nd IEEE International Conference on Computational
                  Intelligence and Applications",	  
 year = "2017"
 }
--- a/tex/main.pdf
+++ b/tex/main.pdf
--- a/tex/main.tex
+++ b/tex/main.tex
@ -21,6 +21,7 @@
  \usepackage{amsfonts}
  \usepackage{amssymb}
  \usepackage{array}
  \usepackage{cite}
  \setmainfont{Baskerville}
  \setmonofont{Consolas}
@ -115,6 +116,9 @@
  \input{4.others.tex}
  \input{5.how.tex}
  \input{6.etc.tex}
  \bibliography{cites}{}
  \bibliographystyle{plain}
 \end{document}
`@ -1 +1,2 @@`
	`\section{Τι θα κάνουμε}`	`\section{Τι θα κάνουμε}`