the-assignment/report/2.past_implementations.tex

\section{Προηγούμενες υλοποιήσεις}

Υπάρχει πληθώρα βιβλιογραφίας σχετική με το θέμα. Έχουν βρεθεί ήδη
αρκετές λύσεις, ενώ οι πιο πρόσφατες πετυχαίνουν αξιοσημείωτα
αποτελέσματα τόσο όσων αφορά την ταχύτητα του διαχωρισμού όσο και την ακρίβεια
των αποτελεσμάτων. Κάποιες από τις δημοσιεύσεις οι οποίες αφορούν το
συγκεκριμένο θέμα, καθώς και τα αποτελέσματά τους παρουσιάζονται παρακάτω.

\vspace{1em}
Στο ~\cite{robust} οι συγγραφείς χρησιμοποιούν τα εξής χαρακτηριστικά (features):
\begin{enumerate}[noitemsep]
\item Διαμόρφωση ενέργειας στα 4Hz του σήματος (4Hz modulation)
\item Διαμόρφωση εντροπίας του σήματος (entropy modulation)
\item Αριθμός των στατικών τμημάτων
\item Διάρκεια των τμημάτων
\end{enumerate}

Παρατηρήθηκε πειραματικά ότι τα πρώτα 3 χαρακτηριστικά δίνουν ξεχωριστά περίπου
το ίδιο ποσοστό επιτυχών ταξινομήσεων (περίπου 84\%) ενώ η Μπαγιεσιανή προσέγγιση
για το χαρακτηριστικό δίαρκειας τμημάτων έδωσε λίγο χαμηλότερο ποσοστό (76.1\%). 

Για να αυξηθεί το ποσοστό των συνολικών επιτυχών ταξινομήσεων προτάθηκε ένας
ιεραρχικός αλγόριθμος ταξινόμησης στον οποίο τα χαρακτηριστικά διαμόρφωσης
ενέργειας του σήματος στα 4Ηz και διαμόρφωσης εντροπίας του σήματος συγχωνεύονται.
Σε περίπτωση που οι 2 ταξινομητές συμφωνούν αποφασίζουν για το αν το τμήμα
αποτελεί ομιλία ή όχι, ενώ σε περίπτωση που δεν συμφωνούν, η απόφαση
οριστικοποιείται από το χαρακτηριστικό του αριθμού τμημάτων. Αποδεικνύεται ότι
τα αποτελέσματα αυτού του αλγορίθμου δίνουν 90.1\% σωστές ταξινομήσεις.

\vspace{1em}
Στο ~\cite{mirex} το πρόβλημα που δόθηκε αντιμετωπίζεται ως 2 υποπροβλήματα:
το πρόβλημα εντοπισμού δειγμάτων και το πρόβλημα κατηγοριοποίησής τους.
Για τον εντοπισμό δειγμάτων μουσικής/φωνής εφαρμόστηκε ο αλγόριθμος Random
Forest σε 2 εκδοχές του: στην πρώτη, εφαρμόστηκε μαζί με έναν Silence detection
αλγόριθμο ενώ στη δεύτερη βασίστηκε μόνο στις πληροφορίες ομοιογένειας (self
similarity matrix) και στην λειτουργία του ίδιου του ταξινομητή. Επίσης, για την
ταξινόμηση προτάθηκαν 2 εναλλακτικές: στην πρώτη χρησιμοποιήθηκε ένα
προ-εκπαιδευμένο μοντέλο ενώ στην δεύτερη η εκπαίδευση γίνεται κατά την
αξιολόγηση των δειγμάτων.

Χρησιμοποιήθηκαν τα χαρακτηριστικά (features):
\begin{enumerate}[noitemsep]
\item RMS ενέργεια
\item ZCR (Zero-Crossing Rate)
\item Spectral rolloff (Συχνότητα Αποκοπής)
\item Spectral flux (Φασματική Ροή)
\item Spectral flatness (Φασματική Επιπεδότητα)
\item Spectral flatness per Band (Φασματική Επιπεδότητα ανά συχνοτικές ομάδες)
\item MFCCs (Mel Frequency Cepstral Coefficients)
\end{enumerate}
ομιλία
% TODO: η παράγραφος δε βγάζει και πολύ νόημα μετά από ένα σημείο
Έγινε ανάλυση κύριων συνιστωσών (Principal component analysis ή PCA) με στόχο να
μειωθούν οι διαστάσεις των διανυσμάτων των χαρακτηριστικών (feature vectors).
Δημιουργήθηκαν οι πίνακες ομοιότητας υπολογίζοντας την ευκλείδεια απόσταση
μεταξύ των δειγμάτων ήχου έτσι ώστε να χωριστούν σε τμήματα. Στη συνέχεια τα
τμήματα αυτά κατηγοριοποιούνται ενώ ταυτόχρονα εφαρμόζεται ο αλγόριθμος Silence
Detection. Για το πρόβλημα της
κατηγοριοποίησης χρησιμοποιείται ο ίδιος αλγόριθμος Random Forest για
ταξινόμηση σε επίπεδο τμημάτων ήχου (frame). Εφόσον για κάθε αρχείο ήχου έχουν
εξαχθεί τα παραπάνω χαρακτηριστικά, κάθε τμήμα ήχου ταξινομείται στην κλάση που
αποφασίζεται και έπειτα ολόκληρο το αρχείο ταξινομείται στην κλάση στην οποία
ταξινομήθηκαν τα περισσότερα τμήματά του.

\vspace{1em}
Στο ~\cite{speech} προτείνεται πως τα χαρακτηριστικά μπορεί να μην καλύπτουν
χαρακτηριστικά και της ομιλίας και της μουσικής, αλλά να βασίζονται κυρίως σε
χαρακτηριστικά ενός από τα δύο. Ενδιαφέρον παρουσιάζουν τα χαρακτηριστικά της
ομιλίας, τα οποία λόγω των μέσων που την παράγουν (τα χείλη, η γλώσσα και οι
φωνητικές χορδές) έχουν ιδιαίτερα γνωρίσματα. Η μελέτη αυτών των χαρακτηριστικών
και η χρήση τους σε έναν ταξινομητή αποδεικνύεται πως μπορεί να
αυξήσει την επιτυχία του διαχωρισμού.

Ενδεικτικά, πέρα από το καθιερωμένο χαρακτηριστικό της διαμόρφωσης ενέργειας στα 4Hz (4Hz modulation energy), λόγω του
ρυθμού των συλλαβών, κάποια άλλα χαρακτηριστικά ειδικά για ομιλία βασίζονται στην
αναγνώριση του ήχου που παράγεται στις φωνητικές χορδές κατά την εναλλαγή της
προφοράς ενός συμφώνου σε ένα φωνήεν ή στην μελέτη της αυτοσυσχέτησης του
σήματος μετά από φιλτράρισμα (Zero Frequency Filtered Signal).

\vspace{1em}
Πέρα από την επιλογή των χαρακτηριστικών, η μέθοδος εκπαίδευσης έχει μεγάλη επίπτωση στην
τελική αποτελεσματικότητα του αλγορίθμου. Μερικές φορές χρήση σύνθετων μεθόδων
εκπαίδευσης μπορούν να επιφέρουν καλύτερα αποτελέσματα σε μεγαλύτερο ποσοστό
διότι επιτρέπουν την έξοδο από τοπικά ελάχιστα. Η σύνθετες μέθοδοι μπορεί να μην
είναι συμβατικές ή και να δανείζονται από παρατηρήσεις της φύσης, όπως ο
συνδυασμός ενός Support Vector Machine (SVM) με τον Cuckoo Algorithm ~\cite{cuckoo},
όπου, όπως το πουλί κούκος που γεννάει τα αυγά του σε ξένες φωλιές, στις
επαναλήψεις εκπαίδευσης του SVM κάποιες λύσεις πετιούνται και αντικαθίστανται από
νέες οι οποίες μπορεί να επιφέρουν καλύτερα αποτελέσματα.

\vspace{1em}
Στο ~\cite{hybrid} οι συγγραφείς χρησιμοποιούν τα χαρακτηριστικά:
\begin{enumerate}[noitemsep]
\item ΜFCCs (Mel Frequency Cepstral Coefficients)
\item ZCR (Zero-Crossing Rate)
\item SC (Spectral Centroid)
\item SR (Spectral Rolloff)
\item SF (Specral Flux)
\end{enumerate}

Τα χαρακτηριστικά ΜFCC, ZCR και SF ταξινομούν με ακρίβεια ~90\% το καθένα. Το SR με 83\%, ενώ το SC με 70\%. Ο συνδυασμός όλων των παραπάνω χαρακτηριστικών πετυχαίνει
93.5\% σωστή ταξινόμηση, ενώ με χρήση ενός SVM μοντέλου το ποσοστό φτάνει στο
95.68\%.

Παρατηρείται ότι η σωστή ταξινόμηση της μουσικής είναι αρκετά δυσκολότερη (με
τα συγκεκριμένα χαρακτηριστικά) σε σχέση με αυτή της ομιλίας. Ειδικότερα στην ομιλία
επιτυγχάνεται (με το SVM) ακρίβεια 98.25\% ενώ στη μουσική 93.1\%.

\vspace{1em}
Τέλος, σύμφωνα με το ~\cite{radio}, σε εφαρμογές κατηγοριοποίησης όπου δεν
επιβάλλεται η λειτουργία σε πραγματικό χρόνο, η χρήση χαρακτηριστικών ενέργειας είναι
επιθυμητή λόγω της μεγάλης ακρίβειας τους. Συγκεκριμένα η αναζήτηση της ελάχιστης πυκνότητας ενέργειας (Minimum
Energy Density) δείχνει να υπερέχει από άλλα χαρακτηριστικά ενέργειας τόσο στην
αποτελεσματικότητα της όσο και στην απλότητα του υπολογισμού της. Σε συνδυασμό με το
χαρακτηριστικό της διαφοράς ενέργειάς στα διάφορα κανάλια μιας πολυκάναλης
εισόδου, στο ~\cite{radio} πέτυχαν ακρίβεια 100\% στα κομμάτια εισόδου όπου
περιείχαν μόνο μουσική ή ομιλία και όχι τον συνδυασμό τους (όπως στις ραδιοφωνικές
διατιμήσεις).
Grammar and spell check, Complete ch. 3 6 years ago			`\section{Προηγούμενες υλοποιήσεις}`

			`Υπάρχει πληθώρα βιβλιογραφίας σχετική με το θέμα. Έχουν βρεθεί ήδη`
			`αρκετές λύσεις, ενώ οι πιο πρόσφατες πετυχαίνουν αξιοσημείωτα`
			`αποτελέσματα τόσο όσων αφορά την ταχύτητα του διαχωρισμού όσο και την ακρίβεια`
			`των αποτελεσμάτων. Κάποιες από τις δημοσιεύσεις οι οποίες αφορούν το`
			`συγκεκριμένο θέμα, καθώς και τα αποτελέσματά τους παρουσιάζονται παρακάτω.`

			`\vspace{1em}`
			`Στο ~\cite{robust} οι συγγραφείς χρησιμοποιούν τα εξής χαρακτηριστικά (features):`
			`\begin{enumerate}[noitemsep]`
			`\item Διαμόρφωση ενέργειας στα 4Hz του σήματος (4Hz modulation)`
			`\item Διαμόρφωση εντροπίας του σήματος (entropy modulation)`
			`\item Αριθμός των στατικών τμημάτων`
			`\item Διάρκεια των τμημάτων`
			`\end{enumerate}`

			`Παρατηρήθηκε πειραματικά ότι τα πρώτα 3 χαρακτηριστικά δίνουν ξεχωριστά περίπου`
			`το ίδιο ποσοστό επιτυχών ταξινομήσεων (περίπου 84\%) ενώ η Μπαγιεσιανή προσέγγιση`
			`για το χαρακτηριστικό δίαρκειας τμημάτων έδωσε λίγο χαμηλότερο ποσοστό (76.1\%).`

			`Για να αυξηθεί το ποσοστό των συνολικών επιτυχών ταξινομήσεων προτάθηκε ένας`
			`ιεραρχικός αλγόριθμος ταξινόμησης στον οποίο τα χαρακτηριστικά διαμόρφωσης`
			`ενέργειας του σήματος στα 4Ηz και διαμόρφωσης εντροπίας του σήματος συγχωνεύονται.`
			`Σε περίπτωση που οι 2 ταξινομητές συμφωνούν αποφασίζουν για το αν το τμήμα`
			`αποτελεί ομιλία ή όχι, ενώ σε περίπτωση που δεν συμφωνούν, η απόφαση`
			`οριστικοποιείται από το χαρακτηριστικό του αριθμού τμημάτων. Αποδεικνύεται ότι`
			`τα αποτελέσματα αυτού του αλγορίθμου δίνουν 90.1\% σωστές ταξινομήσεις.`

			`\vspace{1em}`
			`Στο ~\cite{mirex} το πρόβλημα που δόθηκε αντιμετωπίζεται ως 2 υποπροβλήματα:`
			`το πρόβλημα εντοπισμού δειγμάτων και το πρόβλημα κατηγοριοποίησής τους.`
			`Για τον εντοπισμό δειγμάτων μουσικής/φωνής εφαρμόστηκε ο αλγόριθμος Random`
			`Forest σε 2 εκδοχές του: στην πρώτη, εφαρμόστηκε μαζί με έναν Silence detection`
			`αλγόριθμο ενώ στη δεύτερη βασίστηκε μόνο στις πληροφορίες ομοιογένειας (self`
			`similarity matrix) και στην λειτουργία του ίδιου του ταξινομητή. Επίσης, για την`
			`ταξινόμηση προτάθηκαν 2 εναλλακτικές: στην πρώτη χρησιμοποιήθηκε ένα`
			`προ-εκπαιδευμένο μοντέλο ενώ στην δεύτερη η εκπαίδευση γίνεται κατά την`
			`αξιολόγηση των δειγμάτων.`

			`Χρησιμοποιήθηκαν τα χαρακτηριστικά (features):`
			`\begin{enumerate}[noitemsep]`
			`\item RMS ενέργεια`
			`\item ZCR (Zero-Crossing Rate)`
			`\item Spectral rolloff (Συχνότητα Αποκοπής)`
			`\item Spectral flux (Φασματική Ροή)`
			`\item Spectral flatness (Φασματική Επιπεδότητα)`
			`\item Spectral flatness per Band (Φασματική Επιπεδότητα ανά συχνοτικές ομάδες)`
			`\item MFCCs (Mel Frequency Cepstral Coefficients)`
			`\end{enumerate}`
final report 6 years ago			`ομιλία`
More cleaning up, Finalization 6 years ago			`% TODO: η παράγραφος δε βγάζει και πολύ νόημα μετά από ένα σημείο`
Grammar and spell check, Complete ch. 3 6 years ago			`Έγινε ανάλυση κύριων συνιστωσών (Principal component analysis ή PCA) με στόχο να`
final report 6 years ago			`μειωθούν οι διαστάσεις των διανυσμάτων των χαρακτηριστικών (feature vectors).`
Grammar and spell check, Complete ch. 3 6 years ago			`Δημιουργήθηκαν οι πίνακες ομοιότητας υπολογίζοντας την ευκλείδεια απόσταση`
final report 6 years ago			`μεταξύ των δειγμάτων ήχου έτσι ώστε να χωριστούν σε τμήματα. Στη συνέχεια τα`
Grammar and spell check, Complete ch. 3 6 years ago			`τμήματα αυτά κατηγοριοποιούνται ενώ ταυτόχρονα εφαρμόζεται ο αλγόριθμος Silence`
final report 6 years ago			`Detection. Για το πρόβλημα της`
			`κατηγοριοποίησης χρησιμοποιείται ο ίδιος αλγόριθμος Random Forest για`
			`ταξινόμηση σε επίπεδο τμημάτων ήχου (frame). Εφόσον για κάθε αρχείο ήχου έχουν`
Grammar and spell check, Complete ch. 3 6 years ago			`εξαχθεί τα παραπάνω χαρακτηριστικά, κάθε τμήμα ήχου ταξινομείται στην κλάση που`
			`αποφασίζεται και έπειτα ολόκληρο το αρχείο ταξινομείται στην κλάση στην οποία`
final report 6 years ago			`ταξινομήθηκαν τα περισσότερα τμήματά του.`
Grammar and spell check, Complete ch. 3 6 years ago
			`\vspace{1em}`
final report 6 years ago			`Στο ~\cite{speech} προτείνεται πως τα χαρακτηριστικά μπορεί να μην καλύπτουν`
			`χαρακτηριστικά και της ομιλίας και της μουσικής, αλλά να βασίζονται κυρίως σε`
More cleaning up, Finalization 6 years ago			`χαρακτηριστικά ενός από τα δύο. Ενδιαφέρον παρουσιάζουν τα χαρακτηριστικά της`
			`ομιλίας, τα οποία λόγω των μέσων που την παράγουν (τα χείλη, η γλώσσα και οι`
			`φωνητικές χορδές) έχουν ιδιαίτερα γνωρίσματα. Η μελέτη αυτών των χαρακτηριστικών`
final report 6 years ago			`και η χρήση τους σε έναν ταξινομητή αποδεικνύεται πως μπορεί να`
More cleaning up, Finalization 6 years ago			`αυξήσει την επιτυχία του διαχωρισμού.`

final report 6 years ago			`Ενδεικτικά, πέρα από το καθιερωμένο χαρακτηριστικό της διαμόρφωσης ενέργειας στα 4Hz (4Hz modulation energy), λόγω του`
			`ρυθμού των συλλαβών, κάποια άλλα χαρακτηριστικά ειδικά για ομιλία βασίζονται στην`
More cleaning up, Finalization 6 years ago			`αναγνώριση του ήχου που παράγεται στις φωνητικές χορδές κατά την εναλλαγή της`
			`προφοράς ενός συμφώνου σε ένα φωνήεν ή στην μελέτη της αυτοσυσχέτησης του`
final report 6 years ago			`σήματος μετά από φιλτράρισμα (Zero Frequency Filtered Signal).`
More cleaning up, Finalization 6 years ago
			`\vspace{1em}`
final report 6 years ago			`Πέρα από την επιλογή των χαρακτηριστικών, η μέθοδος εκπαίδευσης έχει μεγάλη επίπτωση στην`
More cleaning up, Finalization 6 years ago			`τελική αποτελεσματικότητα του αλγορίθμου. Μερικές φορές χρήση σύνθετων μεθόδων`
			`εκπαίδευσης μπορούν να επιφέρουν καλύτερα αποτελέσματα σε μεγαλύτερο ποσοστό`
			`διότι επιτρέπουν την έξοδο από τοπικά ελάχιστα. Η σύνθετες μέθοδοι μπορεί να μην`
			`είναι συμβατικές ή και να δανείζονται από παρατηρήσεις της φύσης, όπως ο`
final report 6 years ago			`συνδυασμός ενός Support Vector Machine (SVM) με τον Cuckoo Algorithm ~\cite{cuckoo},`
			`όπου, όπως το πουλί κούκος που γεννάει τα αυγά του σε ξένες φωλιές, στις`
More cleaning up, Finalization 6 years ago			`επαναλήψεις εκπαίδευσης του SVM κάποιες λύσεις πετιούνται και αντικαθίστανται από`
			`νέες οι οποίες μπορεί να επιφέρουν καλύτερα αποτελέσματα.`

Grammar and spell check, Complete ch. 3 6 years ago			`\vspace{1em}`
final report 6 years ago			`Στο ~\cite{hybrid} οι συγγραφείς χρησιμοποιούν τα χαρακτηριστικά:`
Grammar and spell check, Complete ch. 3 6 years ago			`\begin{enumerate}[noitemsep]`
			`\item ΜFCCs (Mel Frequency Cepstral Coefficients)`
			`\item ZCR (Zero-Crossing Rate)`
			`\item SC (Spectral Centroid)`
			`\item SR (Spectral Rolloff)`
			`\item SF (Specral Flux)`
			`\end{enumerate}`

final report 6 years ago			`Τα χαρακτηριστικά ΜFCC, ZCR και SF ταξινομούν με ακρίβεια ~90\% το καθένα. Το SR με 83\%, ενώ το SC με 70\%. Ο συνδυασμός όλων των παραπάνω χαρακτηριστικών πετυχαίνει`
Grammar and spell check, Complete ch. 3 6 years ago			`93.5\% σωστή ταξινόμηση, ενώ με χρήση ενός SVM μοντέλου το ποσοστό φτάνει στο`
			`95.68\%.`

			`Παρατηρείται ότι η σωστή ταξινόμηση της μουσικής είναι αρκετά δυσκολότερη (με`
final report 6 years ago			`τα συγκεκριμένα χαρακτηριστικά) σε σχέση με αυτή της ομιλίας. Ειδικότερα στην ομιλία`
			`επιτυγχάνεται (με το SVM) ακρίβεια 98.25\% ενώ στη μουσική 93.1\%.`
Grammar and spell check, Complete ch. 3 6 years ago
			`\vspace{1em}`
			`Τέλος, σύμφωνα με το ~\cite{radio}, σε εφαρμογές κατηγοριοποίησης όπου δεν`
final report 6 years ago			`επιβάλλεται η λειτουργία σε πραγματικό χρόνο, η χρήση χαρακτηριστικών ενέργειας είναι`
			`επιθυμητή λόγω της μεγάλης ακρίβειας τους. Συγκεκριμένα η αναζήτηση της ελάχιστης πυκνότητας ενέργειας (Minimum`
			`Energy Density) δείχνει να υπερέχει από άλλα χαρακτηριστικά ενέργειας τόσο στην`
			`αποτελεσματικότητα της όσο και στην απλότητα του υπολογισμού της. Σε συνδυασμό με το`
Grammar and spell check, Complete ch. 3 6 years ago			`χαρακτηριστικό της διαφοράς ενέργειάς στα διάφορα κανάλια μιας πολυκάναλης`
			`εισόδου, στο ~\cite{radio} πέτυχαν ακρίβεια 100\% στα κομμάτια εισόδου όπου`
final report 6 years ago			`περιείχαν μόνο μουσική ή ομιλία και όχι τον συνδυασμό τους (όπως στις ραδιοφωνικές`
Grammar and spell check, Complete ch. 3 6 years ago			`διατιμήσεις).`