Speech/Music classification of audio files using machine learning techniques.
You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

119 lines
11 KiB

\section{Προηγούμενες υλοποιήσεις}
Υπάρχει πληθώρα βιβλιογραφίας σχετική με το θέμα. Έχουν βρεθεί ήδη
αρκετές λύσεις, ενώ οι πιο πρόσφατες πετυχαίνουν αξιοσημείωτα
αποτελέσματα τόσο όσων αφορά την ταχύτητα του διαχωρισμού όσο και την ακρίβεια
των αποτελεσμάτων. Κάποιες από τις δημοσιεύσεις οι οποίες αφορούν το
συγκεκριμένο θέμα, καθώς και τα αποτελέσματά τους παρουσιάζονται παρακάτω.
\vspace{1em}
Στο ~\cite{robust} οι συγγραφείς χρησιμοποιούν τα εξής χαρακτηριστικά (features):
\begin{enumerate}[noitemsep]
\item Διαμόρφωση ενέργειας στα 4Hz του σήματος (4Hz modulation)
\item Διαμόρφωση εντροπίας του σήματος (entropy modulation)
\item Αριθμός των στατικών τμημάτων
\item Διάρκεια των τμημάτων
\end{enumerate}
Παρατηρήθηκε πειραματικά ότι τα πρώτα 3 χαρακτηριστικά δίνουν ξεχωριστά περίπου
το ίδιο ποσοστό επιτυχών ταξινομήσεων (περίπου 84\%) ενώ η Μπαγιεσιανή προσέγγιση
για το χαρακτηριστικό δίαρκειας τμημάτων έδωσε λίγο χαμηλότερο ποσοστό (76.1\%).
Για να αυξηθεί το ποσοστό των συνολικών επιτυχών ταξινομήσεων προτάθηκε ένας
ιεραρχικός αλγόριθμος ταξινόμησης στον οποίο τα χαρακτηριστικά διαμόρφωσης
ενέργειας του σήματος στα 4Ηz και διαμόρφωσης εντροπίας του σήματος συγχωνεύονται.
Σε περίπτωση που οι 2 ταξινομητές συμφωνούν αποφασίζουν για το αν το τμήμα
αποτελεί ομιλία ή όχι, ενώ σε περίπτωση που δεν συμφωνούν, η απόφαση
οριστικοποιείται από το χαρακτηριστικό του αριθμού τμημάτων. Αποδεικνύεται ότι
τα αποτελέσματα αυτού του αλγορίθμου δίνουν 90.1\% σωστές ταξινομήσεις.
\vspace{1em}
Στο ~\cite{mirex} το πρόβλημα που δόθηκε αντιμετωπίζεται ως 2 υποπροβλήματα:
το πρόβλημα εντοπισμού δειγμάτων και το πρόβλημα κατηγοριοποίησής τους.
Για τον εντοπισμό δειγμάτων μουσικής/φωνής εφαρμόστηκε ο αλγόριθμος Random
Forest σε 2 εκδοχές του: στην πρώτη, εφαρμόστηκε μαζί με έναν Silence detection
αλγόριθμο ενώ στη δεύτερη βασίστηκε μόνο στις πληροφορίες ομοιογένειας (self
similarity matrix) και στην λειτουργία του ίδιου του ταξινομητή. Επίσης, για την
ταξινόμηση προτάθηκαν 2 εναλλακτικές: στην πρώτη χρησιμοποιήθηκε ένα
προ-εκπαιδευμένο μοντέλο ενώ στην δεύτερη η εκπαίδευση γίνεται κατά την
αξιολόγηση των δειγμάτων.
Χρησιμοποιήθηκαν τα χαρακτηριστικά (features):
\begin{enumerate}[noitemsep]
\item RMS ενέργεια
\item ZCR (Zero-Crossing Rate)
\item Spectral rolloff (Συχνότητα Αποκοπής)
\item Spectral flux (Φασματική Ροή)
\item Spectral flatness (Φασματική Επιπεδότητα)
\item Spectral flatness per Band (Φασματική Επιπεδότητα ανά συχνοτικές ομάδες)
\item MFCCs (Mel Frequency Cepstral Coefficients)
\end{enumerate}
6 years ago
ομιλία
% TODO: η παράγραφος δε βγάζει και πολύ νόημα μετά από ένα σημείο
Έγινε ανάλυση κύριων συνιστωσών (Principal component analysis ή PCA) με στόχο να
6 years ago
μειωθούν οι διαστάσεις των διανυσμάτων των χαρακτηριστικών (feature vectors).
Δημιουργήθηκαν οι πίνακες ομοιότητας υπολογίζοντας την ευκλείδεια απόσταση
6 years ago
μεταξύ των δειγμάτων ήχου έτσι ώστε να χωριστούν σε τμήματα. Στη συνέχεια τα
τμήματα αυτά κατηγοριοποιούνται ενώ ταυτόχρονα εφαρμόζεται ο αλγόριθμος Silence
6 years ago
Detection. Για το πρόβλημα της
κατηγοριοποίησης χρησιμοποιείται ο ίδιος αλγόριθμος Random Forest για
ταξινόμηση σε επίπεδο τμημάτων ήχου (frame). Εφόσον για κάθε αρχείο ήχου έχουν
εξαχθεί τα παραπάνω χαρακτηριστικά, κάθε τμήμα ήχου ταξινομείται στην κλάση που
αποφασίζεται και έπειτα ολόκληρο το αρχείο ταξινομείται στην κλάση στην οποία
6 years ago
ταξινομήθηκαν τα περισσότερα τμήματά του.
\vspace{1em}
6 years ago
Στο ~\cite{speech} προτείνεται πως τα χαρακτηριστικά μπορεί να μην καλύπτουν
χαρακτηριστικά και της ομιλίας και της μουσικής, αλλά να βασίζονται κυρίως σε
χαρακτηριστικά ενός από τα δύο. Ενδιαφέρον παρουσιάζουν τα χαρακτηριστικά της
ομιλίας, τα οποία λόγω των μέσων που την παράγουν (τα χείλη, η γλώσσα και οι
φωνητικές χορδές) έχουν ιδιαίτερα γνωρίσματα. Η μελέτη αυτών των χαρακτηριστικών
6 years ago
και η χρήση τους σε έναν ταξινομητή αποδεικνύεται πως μπορεί να
αυξήσει την επιτυχία του διαχωρισμού.
6 years ago
Ενδεικτικά, πέρα από το καθιερωμένο χαρακτηριστικό της διαμόρφωσης ενέργειας στα 4Hz (4Hz modulation energy), λόγω του
ρυθμού των συλλαβών, κάποια άλλα χαρακτηριστικά ειδικά για ομιλία βασίζονται στην
αναγνώριση του ήχου που παράγεται στις φωνητικές χορδές κατά την εναλλαγή της
προφοράς ενός συμφώνου σε ένα φωνήεν ή στην μελέτη της αυτοσυσχέτησης του
6 years ago
σήματος μετά από φιλτράρισμα (Zero Frequency Filtered Signal).
\vspace{1em}
6 years ago
Πέρα από την επιλογή των χαρακτηριστικών, η μέθοδος εκπαίδευσης έχει μεγάλη επίπτωση στην
τελική αποτελεσματικότητα του αλγορίθμου. Μερικές φορές χρήση σύνθετων μεθόδων
εκπαίδευσης μπορούν να επιφέρουν καλύτερα αποτελέσματα σε μεγαλύτερο ποσοστό
διότι επιτρέπουν την έξοδο από τοπικά ελάχιστα. Η σύνθετες μέθοδοι μπορεί να μην
είναι συμβατικές ή και να δανείζονται από παρατηρήσεις της φύσης, όπως ο
6 years ago
συνδυασμός ενός Support Vector Machine (SVM) με τον Cuckoo Algorithm ~\cite{cuckoo},
όπου, όπως το πουλί κούκος που γεννάει τα αυγά του σε ξένες φωλιές, στις
επαναλήψεις εκπαίδευσης του SVM κάποιες λύσεις πετιούνται και αντικαθίστανται από
νέες οι οποίες μπορεί να επιφέρουν καλύτερα αποτελέσματα.
\vspace{1em}
6 years ago
Στο ~\cite{hybrid} οι συγγραφείς χρησιμοποιούν τα χαρακτηριστικά:
\begin{enumerate}[noitemsep]
\item ΜFCCs (Mel Frequency Cepstral Coefficients)
\item ZCR (Zero-Crossing Rate)
\item SC (Spectral Centroid)
\item SR (Spectral Rolloff)
\item SF (Specral Flux)
\end{enumerate}
6 years ago
Τα χαρακτηριστικά ΜFCC, ZCR και SF ταξινομούν με ακρίβεια ~90\% το καθένα. Το SR με 83\%, ενώ το SC με 70\%. Ο συνδυασμός όλων των παραπάνω χαρακτηριστικών πετυχαίνει
93.5\% σωστή ταξινόμηση, ενώ με χρήση ενός SVM μοντέλου το ποσοστό φτάνει στο
95.68\%.
Παρατηρείται ότι η σωστή ταξινόμηση της μουσικής είναι αρκετά δυσκολότερη (με
6 years ago
τα συγκεκριμένα χαρακτηριστικά) σε σχέση με αυτή της ομιλίας. Ειδικότερα στην ομιλία
επιτυγχάνεται (με το SVM) ακρίβεια 98.25\% ενώ στη μουσική 93.1\%.
\vspace{1em}
Τέλος, σύμφωνα με το ~\cite{radio}, σε εφαρμογές κατηγοριοποίησης όπου δεν
6 years ago
επιβάλλεται η λειτουργία σε πραγματικό χρόνο, η χρήση χαρακτηριστικών ενέργειας είναι
επιθυμητή λόγω της μεγάλης ακρίβειας τους. Συγκεκριμένα η αναζήτηση της ελάχιστης πυκνότητας ενέργειας (Minimum
Energy Density) δείχνει να υπερέχει από άλλα χαρακτηριστικά ενέργειας τόσο στην
αποτελεσματικότητα της όσο και στην απλότητα του υπολογισμού της. Σε συνδυασμό με το
χαρακτηριστικό της διαφοράς ενέργειάς στα διάφορα κανάλια μιας πολυκάναλης
εισόδου, στο ~\cite{radio} πέτυχαν ακρίβεια 100\% στα κομμάτια εισόδου όπου
6 years ago
περιείχαν μόνο μουσική ή ομιλία και όχι τον συνδυασμό τους (όπως στις ραδιοφωνικές
διατιμήσεις).