diff --git a/tex/1.intro.tex b/tex/1.intro.tex index 5ada0bd..754bf13 100644 --- a/tex/1.intro.tex +++ b/tex/1.intro.tex @@ -1,5 +1,19 @@ \section{Εισαγωγή} +Το ζητούμενο της εργασίας είναι η ανάπτυξη ενός μοντέλου μηχανικής +μάθησης το οποίο παρέχοντας ένα αρχείο ήχου θα μπορεί να ξεχωρίσει +ανάμεσα στα κομμάτια του χρόνου που περιέχουν ομιλία (speech) και +μουσική (music). + +Πρόκειται για ένα πρόβλημα ταξινόμησης που είναι σημαντικό γιατί έχει +εφαρμογές σε πλατφόρμες κοινωνικών δικτύων για την αναγνώρισή +περιεχομένου με πνευματικά δικαιώματά, σε συστήματα αυτόματης +αναγνώρισης διαφημίσεων, μοντέρνα "έξυπνα" βοηθητικά ακοής κ.α. Η +πρόσφατη βιβλιογραφία περιέχει θεματολογία όπου στοχεύει είτε στην +ανάπτυξή αλγορίθμων για γρήγορη και φθηνή υπολογιστικά ταξινόμηση, +είτε στην αναγνώριση πολλής μεγάλης ακρίβειας. Αυτό διότι αυτή τη +στιγμή η αναγνώριση με ποσοστό επιτυχίας γύρω στο 98\% είναι κάτι +συνηθισμένο. %%% Local Variables: diff --git a/tex/2.what.tex b/tex/2.what.tex index 46e61fc..223e401 100644 --- a/tex/2.what.tex +++ b/tex/2.what.tex @@ -1 +1,2 @@ -\section{Τι θα κάνουμε} \ No newline at end of file +\section{Τι θα κάνουμε} + diff --git a/tex/4.others.tex b/tex/4.others.tex index 81116cb..7db590b 100644 --- a/tex/4.others.tex +++ b/tex/4.others.tex @@ -1 +1,41 @@ -\section{Πως το έκαναν άλλοι} \ No newline at end of file +\section{Πως το έκαναν άλλοι} + +Υπάρχει πληθώρα βιβλιογραφίας σχετική με το θέμα. Έχουν βρεθεί ήδη +αρκετές λύσεις, ενώ οι πιο πρόσφατες πετυχαίνουν αξιοσημείωτα +αποτελέσματα τόσο όσων αφορά την ταχύτητα του διαχωρισμού όσο και την +ακρίβεια των αποτελεσμάτων. + +Πιθανές αναφορές: +\begin{itemize}[noitemsep] +\item ποιά μοντέλα (δέντρα, πιθανοτικά, neural...) είναι + αποτελεσματικότερα με βάση τη βιβλιογραφία; Νομίζω ανάλογα με το + paper υπάρχουν διαφορετικά αποτελέσματα σχετικά με αυτό (άλλα + προτείνουν μπαγεσιανά και άλλα νευρωνικά) άρα παίζει ρόλο η επιλογή + των features και στο μοντέλο, να το πούμε αυτό.. Πχ κάποια features + έχουν μεγάλο correlation -> τα naive bayes δε τη παλεύουν σε αυτά… + +\item ποια features χρησιμοποιούνται; Τι σημαίνει το καθένα και πως + υπολογίζεται; Πόσο ακριβά είναι υπολογιστικά το καθένα; + +\item ποια είναι η γενικότερη πορεία που ακολουθείται;\\ + συνήθως: + + \begin{enumerate}[noitemsep] + \item παραθυροποίηση (τι τύπου; είναι επικαλυπτόμενα τα παράθυρα; + πόσα sec είναι το καθένα;) + \item feature extraction + \item μετασχηματισμός του χώρου (βλέπε PCA και άλλες μεθόδους) + \item training + \item πρόβλεψη + \end{enumerate} + +\item Άρα κατά τον σχεδιασμό πρέπει εκτός από τη μέθοδο της + παραθυροποίησης, τα features και το μοντέλο να επιλεχθούν επίσης + κάποιος μετασχηματισμός (δεν το κάνουν πάντα) ή και άλλες + παράμετροι. Τι άλλο preprocessing χρειάζεται; + +\end{itemize} + +Σύμφωνα με το paper ~\cite{cuckoo} το back propagation neural network πέτυχε +ακρίβεια 89.08\%, ενώ το SVM πέτυχε 90.12\% και η δική τους υλοποίηση +SVM (με τον αλγόριθμο cuckoo), CS-SVM, πέτυχε 92.75\%. diff --git a/tex/5.how.tex b/tex/5.how.tex index eb6cb60..b01cd42 100644 --- a/tex/5.how.tex +++ b/tex/5.how.tex @@ -1 +1,87 @@ \section{Πως σκοπεύουμε να το κάνουμε εμείς} + +Πλάνο επίθεσης + +Μετά από μελέτη των προηγούμενων υλοποιήσεων και πειραματισμό με την +εξαγωγή διάφορων χαρακτηριστικών (features) [και καλά ;)] κλπ κλπ +αποφασίσαμε να ακολουθήσουμε την παρακάτω πορεία αντιμετώπισης του +προβλήματος: + +\begin{enumerate}[noitemsep] +\item Τι παραθυροποίηση θα κάνουμε (λογικά την κλασική + hamming... φαίνεται να είναι ψιλοστάνταρ) +\item Ποια features σκοπεύουμε να χρησιμοποιήσουμε; (γιατί;) + Χαρακτηριστικά από το πεδίο του χρόνου, το πεδίο της συχνότητας, το + cepstral πεδίο, άλλα… +\item Γενικά MFCC + MPEG-7 audio descriptors + ίσως κάνα δυο ακόμα + είναι υπέρ-αρκετά +\item Τι μοντέλο/μοντέλα θα δοκιμάσουμε; (γιατί;) +\item Stack (python/R, τι βιβλιοθήκες/kits για τα μοντέλα;) +\end{enumerate} + + +Διάφορα features από τη βιβλιογραφία: + +M. Kashif Saeed Khan · Wasfi G. Al-Khatib +Machine-learning based classification of speech and music + +\begin{enumerate}[noitemsep] +\item Percentage of low energy frames +\item Roll off point +\item Spectral + flux +\item Zero crossing rate +\item Spectral centroid +\item 4Hz modulation + energy +\item Variance of the roll off point +\item Variance of the spectral + centroid +\item Variance of the spectral flux +\item Cepstral residual +\item Variance of the cepstral residual +\end{enumerate} + +\begin{enumerate}[noitemsep] +\item Cepstral coefficients +\item Delta cepstral coefficients +\item Harmonic coefficients +\item 4 Hz harmonic coefficients +\item Log energy +\end{enumerate} +\begin{enumerate}[noitemsep] +\item Line spectral frequencies (LSF) +\item Differential LSF, the successive differences of LSF +\item LSF with the zero crossing count of the filtered input signal +\item LSF with Linear prediction zero crossing ratio, the ratio of the + zero crossing count (ZCC) of the input and the ZCC of the output of + the LP analysis filter +\end{enumerate} + +--- + +Environmental sound recognition: a survey +sachin chachada + +\begin{enumerate}[noitemsep] +\item Zero crossings +\item Amplitude +\item Power +\item Auto-regression +\item Adaptive time frequency decomposition +\item Short time Fourier +\item Brightness +\item Tonality +\item Loudness +\item Pitch +\item Chroma +\item Harmonicity +\item Perceptual filter bank +\item Advanced auditory model +\item (Cepstral) auto-regression +\item Rythm +\item Phase space +\item Eigen domain +\end{enumerate} + +--- diff --git a/tex/cites.bib b/tex/cites.bib new file mode 100644 index 0000000..77c31f3 --- /dev/null +++ b/tex/cites.bib @@ -0,0 +1,8 @@ +@article{ cuckoo, +author = "Wenlei Shi and Xinhai Fan", +title = "Speech classification based on cuckoo algorithm and support + vector machines", +journal = "2nd IEEE International Conference on Computational + Intelligence and Applications", +year = "2017" +} \ No newline at end of file diff --git a/tex/main.pdf b/tex/main.pdf index 9f7e646..1bbf00a 100644 Binary files a/tex/main.pdf and b/tex/main.pdf differ diff --git a/tex/main.tex b/tex/main.tex index 75a613f..d2f1d97 100644 --- a/tex/main.tex +++ b/tex/main.tex @@ -21,6 +21,7 @@ \usepackage{amsfonts} \usepackage{amssymb} \usepackage{array} + \usepackage{cite} \setmainfont{Baskerville} \setmonofont{Consolas} @@ -115,6 +116,9 @@ \input{4.others.tex} \input{5.how.tex} \input{6.etc.tex} + + \bibliography{cites}{} + \bibliographystyle{plain} \end{document} \ No newline at end of file