From 9134552e1fc5f77a8927f8a22499b6bb1b345bb9 Mon Sep 17 00:00:00 2001 From: Apostolof Date: Sun, 4 Nov 2018 20:18:50 +0200 Subject: [PATCH] More cleaning up, Finalization --- ...tations.tex => 2.past_implementations.tex} | 27 +++++++++++++++++++ tex/2.what.tex | 2 -- ...mentation.tex => 3.our_implementation.tex} | 11 +++++++- tex/3.why.tex | 1 - tex/4.1.radio.tex | 15 ----------- tex/4.2.Cuckoo.tex | 17 ------------ tex/4.2.robust.tex | 13 --------- tex/4.3.Cuckoo.tex | 17 ------------ tex/4.4.hybrid.tex | 14 ---------- tex/4.5.mirex.tex | 17 ------------ tex/4.6.speech.tex | 20 -------------- tex/6.etc.tex | 1 - tex/cites.bib | 14 +++++----- tex/main.tex | 5 ++-- 14 files changed, 47 insertions(+), 127 deletions(-) rename tex/{past_implementations.tex => 2.past_implementations.tex} (73%) delete mode 100644 tex/2.what.tex rename tex/{our_implementation.tex => 3.our_implementation.tex} (85%) delete mode 100644 tex/3.why.tex delete mode 100644 tex/4.1.radio.tex delete mode 100644 tex/4.2.Cuckoo.tex delete mode 100644 tex/4.2.robust.tex delete mode 100644 tex/4.3.Cuckoo.tex delete mode 100644 tex/4.4.hybrid.tex delete mode 100644 tex/4.5.mirex.tex delete mode 100644 tex/4.6.speech.tex delete mode 100644 tex/6.etc.tex diff --git a/tex/past_implementations.tex b/tex/2.past_implementations.tex similarity index 73% rename from tex/past_implementations.tex rename to tex/2.past_implementations.tex index 9df88eb..9ef2b39 100644 --- a/tex/past_implementations.tex +++ b/tex/2.past_implementations.tex @@ -49,6 +49,7 @@ similarity matrix) και στην λειτουργία του ίδιου του \item MFCCs (Mel Frequency Cepstral Coefficients) \end{enumerate} +% TODO: η παράγραφος δε βγάζει και πολύ νόημα μετά από ένα σημείο Έγινε ανάλυση κύριων συνιστωσών (Principal component analysis ή PCA) με στόχο να μειωθούν οι διαστάσεις των διανυσμάτων χαρακτηριστικών (feature vectors). Δημιουργήθηκαν οι πίνακες ομοιότητας υπολογίζοντας την ευκλείδεια απόσταση @@ -62,6 +63,32 @@ Detection και τα δείγματα αυτά προστίθενται στα ταξινομήθηκαν τα τμήματά του κατά πλειοψηφία. \vspace{1em} +Στο ~\cite{speech} προτείνεται πως τα features μπορεί να μην καλύπτουν +χαρακτηριστικά και της φωνής και της μουσικής, αλλά να βασίζονται κυρίως σε +χαρακτηριστικά ενός από τα δύο. Ενδιαφέρον παρουσιάζουν τα χαρακτηριστικά της +ομιλίας, τα οποία λόγω των μέσων που την παράγουν (τα χείλη, η γλώσσα και οι +φωνητικές χορδές) έχουν ιδιαίτερα γνωρίσματα. Η μελέτη αυτών των χαρακτηριστικών +και η χρήση τους ως features σε έναν classifier αποδεικνύεται πως μπορεί να +αυξήσει την επιτυχία του διαχωρισμού. + +Ενδεικτικά, πέρα από το καθιερωμένο feature των 4Hz modulation energy, λόγω του +ρυθμού των συλλαβών, κάποια άλλα speech specific features βασίζονται στην +αναγνώριση του ήχου που παράγεται στις φωνητικές χορδές κατά την εναλλαγή της +προφοράς ενός συμφώνου σε ένα φωνήεν ή στην μελέτη της αυτοσυσχέτησης του +σήματος μετά από φιλτράρισμα (Zero Frequency Filtered Signal) όπου εμφανίζονται +συγκεκριμένα χαρακτηριστικά μόνο στην ομιλία. + +\vspace{1em} +Πέρα από την επιλογή των features, η μέθοδος εκπαίδευσης έχει μεγάλη επίπτωση στην +τελική αποτελεσματικότητα του αλγορίθμου. Μερικές φορές χρήση σύνθετων μεθόδων +εκπαίδευσης μπορούν να επιφέρουν καλύτερα αποτελέσματα σε μεγαλύτερο ποσοστό +διότι επιτρέπουν την έξοδο από τοπικά ελάχιστα. Η σύνθετες μέθοδοι μπορεί να μην +είναι συμβατικές ή και να δανείζονται από παρατηρήσεις της φύσης, όπως ο +συνδυασμός ενός Support Vector Machine (SVM) με τον Cuckoo Algorithm ~\cite{cuckoo}. +Όπου, όπως το πουλί κούκος που γεννάει τα αυγά του σε ξένες φωλιές, στις +επαναλήψεις εκπαίδευσης του SVM κάποιες λύσεις πετιούνται και αντικαθίστανται από +νέες οι οποίες μπορεί να επιφέρουν καλύτερα αποτελέσματα. + Σύμφωνα με το ~\cite{cuckoo} το back propagation neural network πέτυχε ακρίβεια 89.08\%, ενώ το SVM πέτυχε 90.12\% και η δική τους υλοποίηση SVM (με τον αλγόριθμο cuckoo), CS-SVM, πέτυχε 92.75\%. diff --git a/tex/2.what.tex b/tex/2.what.tex deleted file mode 100644 index 223e401..0000000 --- a/tex/2.what.tex +++ /dev/null @@ -1,2 +0,0 @@ -\section{Τι θα κάνουμε} - diff --git a/tex/our_implementation.tex b/tex/3.our_implementation.tex similarity index 85% rename from tex/our_implementation.tex rename to tex/3.our_implementation.tex index bc59d15..e21202a 100644 --- a/tex/our_implementation.tex +++ b/tex/3.our_implementation.tex @@ -27,7 +27,7 @@ and error τεχνικών. Τα συγκεκριμένα χαρακτηριστικά εμφανίζουν τις μεγαλύτερες ακρίβειες στη ταξινόμηση ενώ ταυτόχρονα έχουν μικρή ετεροσυσχέτιση. Άλλα χαρακτηριστικά μπορεί -να προστεθούν στη πορεία μετά από αναλυτικότερη έρευνα της βιβλιογραφείας. +να προστεθούν στη πορεία μετά από αναλυτικότερη έρευνα της βιβλιογραφίας. \subsection{Μοντέλο ταξινόμησης} @@ -42,6 +42,15 @@ features να ισχύει το αντίθετο. Για τον λόγο αυτ όπως: Decision trees, Bayesian networks, Gaussian mixture model, Hidden Markov Model, SVMs, Artificial Neural networks, Genetic Algorithms. +\subsection{Preprocessing, άλλες τεχνικές} + +Περισσότερες και πιο εξεζητημένες τεχνικές θα χρησιμοποιηθούν στο πρακτικό +κομμάτι που θα υλοποιηθεί αργότερα. Κατά το preprocessing των δεδομένων μέθοδοι +όπως data rescaling, data standardization, data binarization, data cleaning, +data integration, data transformation ενδέχεται να φανούν χρήσιμες. Ακόμα, κατά +την εκπαίδευση διάφορες γνωστοί μέθοδοι validation όπως το k-fold cross-validation, +leave one out, bootstrap, hold out θα δοκιμαστούν. + \subsection{Stack} Τόσο για την εξερεύνηση του χώρου των χαρακτηριστικών όσο και για την εκπαίδευση diff --git a/tex/3.why.tex b/tex/3.why.tex deleted file mode 100644 index f702bb2..0000000 --- a/tex/3.why.tex +++ /dev/null @@ -1 +0,0 @@ -\section{Γιατί θα το κάνουμε} diff --git a/tex/4.1.radio.tex b/tex/4.1.radio.tex deleted file mode 100644 index a1f570f..0000000 --- a/tex/4.1.radio.tex +++ /dev/null @@ -1,15 +0,0 @@ - -Εφαρμογές κατηγοριοποίησης όπου δεν επιβάλεται η λειτουργία σε -πραγματικό χρόνο, η χρήση energy features είναι επιθυμητές λόγο της -μεγάλης ακρίβειας τους. Συγκεκριμένα η αναζήτηση της Minimum Energy -Density δείχνει να υπερέχει από άλλες μεθόδους energy features και -στην αποτελεσματικότητα της, και στην απλότητα του υπολογισμού της. Σε -συνδυασμό το κριτήριο την διαφοράς ενέργειάς στα διάφορα κανάλια μιας -πολυκάναλης εισόδου, στο ~/cite{radio} πέτυχαν ακρίβεια 100\% στα -κομμάτια εισόδου όπου περιείχαν καθαρά μουσική ή φωνή και όχι τον -συνδυασμό τους (όπως στις ραδιοφωνικές διατιμήσεις). - -%%% Local Variables: -%%% mode: latex -%%% TeX-master: "main" -%%% End: diff --git a/tex/4.2.Cuckoo.tex b/tex/4.2.Cuckoo.tex deleted file mode 100644 index dc2d24e..0000000 --- a/tex/4.2.Cuckoo.tex +++ /dev/null @@ -1,17 +0,0 @@ - -Πέρα από την επιλογή των features, η μέθοδος εκπαίδευσης έχει μεγάλη -επίπτωση στην τελική αποτελεσματικότητα του αλγορίθμου. Μερικές φορές -χρήση σύνθετων μεθόδων εκπαίδευσης μπορούν να επιφέρουν καλύτερα -αποτελέσματα σε μεγαλύτερο ποσοστό διότι επιτρέπουν την έξοδο από -τοπικά ελάχιστα. Η σύνθετες μέθοδοι μπορεί να μην είναι συμβατικοί, ή -και να δανείζονται από παρατηρήσεις στην φύση, όπως ο συνδυασμός ενός -Support Vector Machine (SVM) με τον Cuckoo Algorithm -~\site{cuckoo}. Όπου όπως το πουλί ο Κούκος γεννάει τα αυγά του σε -ξένες φωλιές, στις επανάληψης εκπαίδευσης του SVM κάποιες λύσεις -πετιούνται και αντικαθίστανται από νέες οι οποίες "μπορεί" να -επιφέρουν καλύτερα αποτελέσματα. - -%%% Local Variables: -%%% mode: latex -%%% TeX-master: "main" -%%% End: diff --git a/tex/4.2.robust.tex b/tex/4.2.robust.tex deleted file mode 100644 index f25b14b..0000000 --- a/tex/4.2.robust.tex +++ /dev/null @@ -1,13 +0,0 @@ -ROBUST SPEECH / MUSIC CLASSIFICATION IN AUDIO DOCUMENTS -Julien PINQUIER, Jean-Luc ROUAS and R´ egine ANDRE-OBRECHT - - -Χρησιμοποεί σαν κριτήρια (features): -- Την διαμόρφωση ενέργειας στα 4Hz του σήματος -- Την διαμόρφωση εντροπίας του σήματος -- Τον αριθμό των στατικών τμημάτων -- Την διάρκεια των τμημάτων - -Παρατηρήθηκε πειραματικά ότι τα πρώτα 3 κριτήρια δίνουν περίπου το ίδιο ποσοστό επιτυχών ταξινομήσεων(περίπου 84%) ενώ η μπαγιεσιανή προσέγγιση για το κριτήριο δίαρκειας τμημάτων έδωσε λίγο χαμηλότερο ποσοστό( 76.1%). - -Για να αυξηθούν αυτά τα ποσοστό προτάθηκε ένας ιεραρχικός αλγόριθμος ταξινόμησης στον οποίο τα κριτήρια διαμόρφωσης ενέργειας των 4Ηz του σήματος και διαμόρφωσης εντροπίας του σήματος συγχωνεύονται. Σε περίπτωση που οι 2 ταξινομητές συμφωνούν αποφασίζουν για το αν το τμήμα αποτελεί ομιλία ή όχι, ενώ σε περιπτώση που δεν συμφωνούν, η απόφαση οριστικοποιείται από το κριτήριο του αριθμού τμημάτων. Αποδεικνύεται ότι τα αποτελέσματα αυτού του αλγορίθμου δίνουν 90.1% σωστές ταξινομήσεις. \ No newline at end of file diff --git a/tex/4.3.Cuckoo.tex b/tex/4.3.Cuckoo.tex deleted file mode 100644 index dc2d24e..0000000 --- a/tex/4.3.Cuckoo.tex +++ /dev/null @@ -1,17 +0,0 @@ - -Πέρα από την επιλογή των features, η μέθοδος εκπαίδευσης έχει μεγάλη -επίπτωση στην τελική αποτελεσματικότητα του αλγορίθμου. Μερικές φορές -χρήση σύνθετων μεθόδων εκπαίδευσης μπορούν να επιφέρουν καλύτερα -αποτελέσματα σε μεγαλύτερο ποσοστό διότι επιτρέπουν την έξοδο από -τοπικά ελάχιστα. Η σύνθετες μέθοδοι μπορεί να μην είναι συμβατικοί, ή -και να δανείζονται από παρατηρήσεις στην φύση, όπως ο συνδυασμός ενός -Support Vector Machine (SVM) με τον Cuckoo Algorithm -~\site{cuckoo}. Όπου όπως το πουλί ο Κούκος γεννάει τα αυγά του σε -ξένες φωλιές, στις επανάληψης εκπαίδευσης του SVM κάποιες λύσεις -πετιούνται και αντικαθίστανται από νέες οι οποίες "μπορεί" να -επιφέρουν καλύτερα αποτελέσματα. - -%%% Local Variables: -%%% mode: latex -%%% TeX-master: "main" -%%% End: diff --git a/tex/4.4.hybrid.tex b/tex/4.4.hybrid.tex deleted file mode 100644 index 72a5f45..0000000 --- a/tex/4.4.hybrid.tex +++ /dev/null @@ -1,14 +0,0 @@ -Speech/Music Discrimination using Hybrid-Based Feature Extraction for Audio Data Indexing -Kun-Ching, Wang, Member, IEEE, Yung-Ming, Yang and Ying-Ru, Yang - -Χρησιμοποούν τα features: -- ΜFCC -- ZCR (zero crossing rate) -- SC (Spectral Centroid) -- SR (Spectral Rolloff) -- SF (Specral Flux) - -Τα features ΜFCC, ZCR και SF ταξινομούν με accuracy ~90\% το καθένα. Το feature SR με 83\%, ενώ το SC με 70\%. -Ο συνδυασμός όλων των features πετυχαίνει 93.5\% σωστή ταξινόμηση, ενώ με χρήση ενός SVM μοντέλου το ποστοστό φτάνει στο 95.68\%. - -Παρατηρείται ότι η σωστή ταξινόμηση της μουσική είναι αρκετά δυσκολότερη (με αυτά τα features) σε σχέση με αυτή της ομιλίας. Συγκεκριμένα στην ομιλία επιτυγχάνεται (με το SVM) accuracy 98.25\% ενώ στη μουσική 93.1\%. \ No newline at end of file diff --git a/tex/4.5.mirex.tex b/tex/4.5.mirex.tex deleted file mode 100644 index 0b2054d..0000000 --- a/tex/4.5.mirex.tex +++ /dev/null @@ -1,17 +0,0 @@ -MIREX 2015: METHODS FOR SPEECH / MUSIC DETECTION AND CLASSIFICATION - -Nikolaos Tsipas Lazaros Vrysis Charalampos Dimoulas George Papanikolaou - -Αναφέρεται ότι το πρόβλημα που δόθηκε αποτελεί 2 υποπροβλήματα: Το πρόβλημα εντοπισμού δειγμάτων και το πρόβλημα κατηγοριοποίησής τους. -Για τον εντοπισμό δειγμάτων μουσικής/φωνής εφαρμόστηκε ο αλγόριθμος Random Forest σε 2 εκδοχές του : Στην πρώτη, εφαρμόστηκε μαζί με έναν Silence detection αλγόριθμο ενώ στη δεύτερη βασίστηκε μόνο στις πληροφορίες ομοιογένειας ( self similarity ? ) και στην λειτουργία του ίδιου του ταξινομητή. Επίσης, για την ταξινόμηση προτάθηκαν 2 εναλλακτικές: Στην πρώτη χρησιμοποιήθηκε ένα προ-εκπαιδευμένο μοντέλο ενώ στην δεύτερη η εκπαίδευση γίνεται κατά την αξιολόγηση των δειγμάτων. - - Χρησιμοποιήθηκαν σαν κριτήρια ( features): -- RMS ενέργεια -- ZCR ( Zero - Crossing Rate) -- Spectral rolloff ( Συχνότητα Αποκοπής ;) -- Spectral flux ( Φασματική Ροή ;) -- Spectral flatness ( Φασματική Επιπεδότητα) -- Spectral flatness per Band( Φασματική Επιπεδότητα ανά συχνοτικές ομάδες) -- MFCCs - -Έπειτα χρησιμοποιήθηκε ο αλγόριθμος PCA για να μειωθούν οι διαστάσεις των διανυσμάτων κριτηρίων (feature vectors ? ) ενλω στη συνέχεια δημιουργήθηκαν οι πίνακες ομοιότητας υπολογίζοντας την ευκλίδεια απόσταση μεταξύ των δειγμάτων ήχου έτσι ώστε να χωριστούν τα τμήματα. Στη συνέχεια αυτά τα τμήματα κατηγοριοποιούνται ενώ ταυτόχρονα εφαρμόζεται ο αλγόριθμος για Silence Detection και τα δείγματα αυτά προστίθενται στα προηγούμενα. Για το πρόβλημα της κατηγοριοποίησης χρησιμοποιείται ό ίδιος αλγόριθμος Random Forest για την ταξινόμηση σε επίπεδο (frame)τμημάτων ήχου. Εφόσον για κάθε αρχείο ήχου έχουν εξαχθεί τα παραπάνω κριτήρια , κάθε τμήμα ήχου ταξινομείται στην κλάση που αποφασίζεται και έπειτα αλόκληρο το αρχείο ταξινομείται στην κλάση στην οποία ταξινομήθηκαν τα τμήματά του κατά πλειοψηφία. \ No newline at end of file diff --git a/tex/4.6.speech.tex b/tex/4.6.speech.tex deleted file mode 100644 index 3f4b875..0000000 --- a/tex/4.6.speech.tex +++ /dev/null @@ -1,20 +0,0 @@ - -Τα features μπορεί να μην καλύπτουν χαρακτηριστικά και της φωνής και -της μουσικής, αλλά να βασίζονται σε χαρακτηριστικά ενός από τα -δύο. Ενδιαφέρον παρουσιάζουν τα χαρακτηριστικά της ομιλίας, η οποία -λόγο των μέσων όπου την παράγουν (τα χείλη, η γλώσσα και οι φωνητικές -χορδές) έχουν περιορισμένα χαρακτηριστικά. Η μελέτη αυτών των -χαρακτηριστικών και τη χρήση τους ως features σε έναν classifier έχει -αποδειχθεί πως μπορεί να αυξήσει στην επιτυχία του διαχωρισμού -~/cite{Α}. Ενδεικτικά , πέρα από το καθιερωμένο feature των 4Hz -modulation energy λόγω του ρυθμού των συλλαβών, κάποια άλλα speech -specific features βασίζονται στην αναγνώριση του ήχου όπου παράγεται -στις φωνητικές χορδές κατά την εναλλαγή της προφοράς ενός συμφώνου σε -ένα φωνήεν ή στην μελέτη της αυτοσυσχέτησης του σήματος μετά από -φιλτράρισμα (Zero Frequency Filtered Signal) όπου παρουσιάζει -συγκεκριμένα χαρακτηριστικά μόνο στην ομιλία. - -%%% Local Variables: -%%% mode: latex -%%% TeX-master: "main" -%%% End: diff --git a/tex/6.etc.tex b/tex/6.etc.tex deleted file mode 100644 index 89e62af..0000000 --- a/tex/6.etc.tex +++ /dev/null @@ -1 +0,0 @@ -\section{Τι άλλο...;} diff --git a/tex/cites.bib b/tex/cites.bib index e9727f8..7be8f08 100644 --- a/tex/cites.bib +++ b/tex/cites.bib @@ -28,16 +28,16 @@ journal = "2nd IEEE International Conference on Computational year = "2017" } -@article{ radio, -author = "Stanisław Kacprzak, Błażej Chwiećko and Bartosz Ziółko", -title = "Speech/music discrimination for analysis of radio stations", -journal = "2017 International Conference on Systems, Signals and Image Processing (IWSSIP)", -year = "2017" -} - @article { hybrid, author = " Kun-Ching Wang, Yung-Ming Yang and Ying-Ru Yang", title = "Speech/music discrimination using hybrid-based feature extraction for audio data indexing", journal = " 2017 International Conference on System Science and Engineering (ICSSE)", year = "2017" +} + +@article{ radio, +author = "Stanisław Kacprzak, Błażej Chwiećko and Bartosz Ziółko", +title = "Speech/music discrimination for analysis of radio stations", +journal = "2017 International Conference on Systems, Signals and Image Processing (IWSSIP)", +year = "2017" } \ No newline at end of file diff --git a/tex/main.tex b/tex/main.tex index ae81181..32d43c0 100644 --- a/tex/main.tex +++ b/tex/main.tex @@ -38,9 +38,10 @@ \newpage \input{intro.tex} - \input{past_implementations.tex} - \input{our_implementation.tex} + \input{2.past_implementations.tex} + \input{3.our_implementation.tex} + \bibliographystyle{ieeetr} \bibliography{cites}{} \bibliographystyle{plain}