You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
118 lines
11 KiB
118 lines
11 KiB
\section{Προηγούμενες υλοποιήσεις}
|
|
|
|
Υπάρχει πληθώρα βιβλιογραφίας σχετική με το θέμα. Έχουν βρεθεί ήδη
|
|
αρκετές λύσεις, ενώ οι πιο πρόσφατες πετυχαίνουν αξιοσημείωτα
|
|
αποτελέσματα τόσο όσων αφορά την ταχύτητα του διαχωρισμού όσο και την ακρίβεια
|
|
των αποτελεσμάτων. Κάποιες από τις δημοσιεύσεις οι οποίες αφορούν το
|
|
συγκεκριμένο θέμα, καθώς και τα αποτελέσματά τους παρουσιάζονται παρακάτω.
|
|
|
|
\vspace{1em}
|
|
Στο ~\cite{robust} οι συγγραφείς χρησιμοποιούν τα εξής χαρακτηριστικά (features):
|
|
\begin{enumerate}[noitemsep]
|
|
\item Διαμόρφωση ενέργειας στα 4Hz του σήματος (4Hz modulation)
|
|
\item Διαμόρφωση εντροπίας του σήματος (entropy modulation)
|
|
\item Αριθμός των στατικών τμημάτων
|
|
\item Διάρκεια των τμημάτων
|
|
\end{enumerate}
|
|
|
|
Παρατηρήθηκε πειραματικά ότι τα πρώτα 3 χαρακτηριστικά δίνουν ξεχωριστά περίπου
|
|
το ίδιο ποσοστό επιτυχών ταξινομήσεων (περίπου 84\%) ενώ η Μπαγιεσιανή προσέγγιση
|
|
για το χαρακτηριστικό δίαρκειας τμημάτων έδωσε λίγο χαμηλότερο ποσοστό (76.1\%).
|
|
|
|
Για να αυξηθεί το ποσοστό των συνολικών επιτυχών ταξινομήσεων προτάθηκε ένας
|
|
ιεραρχικός αλγόριθμος ταξινόμησης στον οποίο τα χαρακτηριστικά διαμόρφωσης
|
|
ενέργειας του σήματος στα 4Ηz και διαμόρφωσης εντροπίας του σήματος συγχωνεύονται.
|
|
Σε περίπτωση που οι 2 ταξινομητές συμφωνούν αποφασίζουν για το αν το τμήμα
|
|
αποτελεί ομιλία ή όχι, ενώ σε περίπτωση που δεν συμφωνούν, η απόφαση
|
|
οριστικοποιείται από το χαρακτηριστικό του αριθμού τμημάτων. Αποδεικνύεται ότι
|
|
τα αποτελέσματα αυτού του αλγορίθμου δίνουν 90.1\% σωστές ταξινομήσεις.
|
|
|
|
\vspace{1em}
|
|
Στο ~\cite{mirex} το πρόβλημα που δόθηκε αντιμετωπίζεται ως 2 υποπροβλήματα:
|
|
το πρόβλημα εντοπισμού δειγμάτων και το πρόβλημα κατηγοριοποίησής τους.
|
|
Για τον εντοπισμό δειγμάτων μουσικής/φωνής εφαρμόστηκε ο αλγόριθμος Random
|
|
Forest σε 2 εκδοχές του: στην πρώτη, εφαρμόστηκε μαζί με έναν Silence detection
|
|
αλγόριθμο ενώ στη δεύτερη βασίστηκε μόνο στις πληροφορίες ομοιογένειας (self
|
|
similarity matrix) και στην λειτουργία του ίδιου του ταξινομητή. Επίσης, για την
|
|
ταξινόμηση προτάθηκαν 2 εναλλακτικές: στην πρώτη χρησιμοποιήθηκε ένα
|
|
προ-εκπαιδευμένο μοντέλο ενώ στην δεύτερη η εκπαίδευση γίνεται κατά την
|
|
αξιολόγηση των δειγμάτων.
|
|
|
|
Χρησιμοποιήθηκαν τα χαρακτηριστικά (features):
|
|
\begin{enumerate}[noitemsep]
|
|
\item RMS ενέργεια
|
|
\item ZCR (Zero-Crossing Rate)
|
|
\item Spectral rolloff (Συχνότητα Αποκοπής)
|
|
\item Spectral flux (Φασματική Ροή)
|
|
\item Spectral flatness (Φασματική Επιπεδότητα)
|
|
\item Spectral flatness per Band (Φασματική Επιπεδότητα ανά συχνοτικές ομάδες)
|
|
\item MFCCs (Mel Frequency Cepstral Coefficients)
|
|
\end{enumerate}
|
|
|
|
% TODO: η παράγραφος δε βγάζει και πολύ νόημα μετά από ένα σημείο
|
|
Έγινε ανάλυση κύριων συνιστωσών (Principal component analysis ή PCA) με στόχο να
|
|
μειωθούν οι διαστάσεις των διανυσμάτων των χαρακτηριστικών (feature vectors).
|
|
Δημιουργήθηκαν οι πίνακες ομοιότητας υπολογίζοντας την ευκλείδεια απόσταση
|
|
μεταξύ των δειγμάτων ήχου έτσι ώστε να χωριστούν σε τμήματα. Στη συνέχεια τα
|
|
τμήματα αυτά κατηγοριοποιούνται ενώ ταυτόχρονα εφαρμόζεται ο αλγόριθμος Silence
|
|
Detection. Για το πρόβλημα της
|
|
κατηγοριοποίησης χρησιμοποιείται ο ίδιος αλγόριθμος Random Forest για
|
|
ταξινόμηση σε επίπεδο τμημάτων ήχου (frame). Εφόσον για κάθε αρχείο ήχου έχουν
|
|
εξαχθεί τα παραπάνω χαρακτηριστικά, κάθε τμήμα ήχου ταξινομείται στην κλάση που
|
|
αποφασίζεται και έπειτα ολόκληρο το αρχείο ταξινομείται στην κλάση στην οποία
|
|
ταξινομήθηκαν τα περισσότερα τμήματά του.
|
|
|
|
\vspace{1em}
|
|
Στο ~\cite{speech} προτείνεται πως τα χαρακτηριστικά μπορεί να μην καλύπτουν
|
|
χαρακτηριστικά και της ομιλίας και της μουσικής, αλλά να βασίζονται κυρίως σε
|
|
χαρακτηριστικά ενός από τα δύο. Ενδιαφέρον παρουσιάζουν τα χαρακτηριστικά της
|
|
ομιλίας, τα οποία λόγω των μέσων που την παράγουν (τα χείλη, η γλώσσα και οι
|
|
φωνητικές χορδές) έχουν ιδιαίτερα γνωρίσματα. Η μελέτη αυτών των χαρακτηριστικών
|
|
και η χρήση τους σε έναν ταξινομητή αποδεικνύεται πως μπορεί να
|
|
αυξήσει την επιτυχία του διαχωρισμού.
|
|
|
|
Ενδεικτικά, πέρα από το καθιερωμένο χαρακτηριστικό της διαμόρφωσης ενέργειας στα 4Hz (4Hz modulation energy), λόγω του
|
|
ρυθμού των συλλαβών, κάποια άλλα χαρακτηριστικά ειδικά για ομιλία βασίζονται στην
|
|
αναγνώριση του ήχου που παράγεται στις φωνητικές χορδές κατά την εναλλαγή της
|
|
προφοράς ενός συμφώνου σε ένα φωνήεν ή στην μελέτη της αυτοσυσχέτησης του
|
|
σήματος μετά από φιλτράρισμα (Zero Frequency Filtered Signal).
|
|
|
|
\vspace{1em}
|
|
Πέρα από την επιλογή των χαρακτηριστικών, η μέθοδος εκπαίδευσης έχει μεγάλη επίπτωση στην
|
|
τελική αποτελεσματικότητα του αλγορίθμου. Μερικές φορές χρήση σύνθετων μεθόδων
|
|
εκπαίδευσης μπορούν να επιφέρουν καλύτερα αποτελέσματα σε μεγαλύτερο ποσοστό
|
|
διότι επιτρέπουν την έξοδο από τοπικά ελάχιστα. Η σύνθετες μέθοδοι μπορεί να μην
|
|
είναι συμβατικές ή και να δανείζονται από παρατηρήσεις της φύσης, όπως ο
|
|
συνδυασμός ενός Support Vector Machine (SVM) με τον Cuckoo Algorithm ~\cite{cuckoo},
|
|
όπου, όπως το πουλί κούκος που γεννάει τα αυγά του σε ξένες φωλιές, στις
|
|
επαναλήψεις εκπαίδευσης του SVM κάποιες λύσεις πετιούνται και αντικαθίστανται από
|
|
νέες οι οποίες μπορεί να επιφέρουν καλύτερα αποτελέσματα.
|
|
|
|
\vspace{1em}
|
|
Στο ~\cite{hybrid} οι συγγραφείς χρησιμοποιούν τα χαρακτηριστικά:
|
|
\begin{enumerate}[noitemsep]
|
|
\item ΜFCCs (Mel Frequency Cepstral Coefficients)
|
|
\item ZCR (Zero-Crossing Rate)
|
|
\item SC (Spectral Centroid)
|
|
\item SR (Spectral Rolloff)
|
|
\item SF (Specral Flux)
|
|
\end{enumerate}
|
|
|
|
Τα χαρακτηριστικά ΜFCC, ZCR και SF ταξινομούν με ακρίβεια ~90\% το καθένα. Το SR με 83\%, ενώ το SC με 70\%. Ο συνδυασμός όλων των παραπάνω χαρακτηριστικών πετυχαίνει
|
|
93.5\% σωστή ταξινόμηση, ενώ με χρήση ενός SVM μοντέλου το ποσοστό φτάνει στο
|
|
95.68\%.
|
|
|
|
Παρατηρείται ότι η σωστή ταξινόμηση της μουσικής είναι αρκετά δυσκολότερη (με
|
|
τα συγκεκριμένα χαρακτηριστικά) σε σχέση με αυτή της ομιλίας. Ειδικότερα στην ομιλία
|
|
επιτυγχάνεται (με το SVM) ακρίβεια 98.25\% ενώ στη μουσική 93.1\%.
|
|
|
|
\vspace{1em}
|
|
Τέλος, σύμφωνα με το ~\cite{radio}, σε εφαρμογές κατηγοριοποίησης όπου δεν
|
|
επιβάλλεται η λειτουργία σε πραγματικό χρόνο, η χρήση χαρακτηριστικών ενέργειας είναι
|
|
επιθυμητή λόγω της μεγάλης ακρίβειας τους. Συγκεκριμένα η αναζήτηση της ελάχιστης πυκνότητας ενέργειας (Minimum
|
|
Energy Density) δείχνει να υπερέχει από άλλα χαρακτηριστικά ενέργειας τόσο στην
|
|
αποτελεσματικότητα της όσο και στην απλότητα του υπολογισμού της. Σε συνδυασμό με το
|
|
χαρακτηριστικό της διαφοράς ενέργειάς στα διάφορα κανάλια μιας πολυκάναλης
|
|
εισόδου, στο ~\cite{radio} πέτυχαν ακρίβεια 100\% στα κομμάτια εισόδου όπου
|
|
περιείχαν μόνο μουσική ή ομιλία και όχι τον συνδυασμό τους (όπως στις ραδιοφωνικές
|
|
διατιμήσεις).
|
|
|