Speech/Music classification of audio files using machine learning techniques.
You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

63 lines
7.5 KiB

\section{Πως το έκαναν άλλοι}
% make a table with times
Υπάρχει πληθώρα βιβλιογραφίας σχετική με το θέμα. Έχουν βρεθεί ήδη
αρκετές λύσεις, ενώ οι πιο πρόσφατες πετυχαίνουν αξιοσημείωτα
αποτελέσματα τόσο όσων αφορά την ταχύτητα του διαχωρισμού όσο και την
ακρίβεια των αποτελεσμάτων. Κάποιες από τις δημοσιεύσεις οι οποίες έχουν ασχοληθεί με το συγκικριμένο
θέμα, καθώς και τα αποτελέσματά τους παρουσιάζονται παρακάτω.
Στο ~\cite{robust} οι συγγραφείς χρησιμοποιούν σαν κριτήρια (features):
- Την διαμόρφωση ενέργειας στα 4Hz του σήματος
- Την διαμόρφωση εντροπίας του σήματος
- Τον αριθμό των στατικών τμημάτων
- Την διάρκεια των τμημάτων
Παρατηρήθηκε πειραματικά ότι τα πρώτα 3 κριτήρια δίνουν περίπου το ίδιο ποσοστό επιτυχών ταξινομήσεων(περίπου 84\%) ενώ η μπαγιεσιανή προσέγγιση για το κριτήριο δίαρκειας τμημάτων έδωσε λίγο χαμηλότερο ποσοστό( 76.1\%).
Για να αυξηθούν αυτά τα ποσοστό προτάθηκε ένας ιεραρχικός αλγόριθμος ταξινόμησης στον οποίο τα κριτήρια διαμόρφωσης ενέργειας των 4Ηz του σήματος και διαμόρφωσης εντροπίας του σήματος συγχωνεύονται. Σε περίπτωση που οι 2 ταξινομητές συμφωνούν αποφασίζουν για το αν το τμήμα αποτελεί ομιλία ή όχι, ενώ σε περιπτώση που δεν συμφωνούν, η απόφαση οριστικοποιείται από το κριτήριο του αριθμού τμημάτων. Αποδεικνύεται ότι τα αποτελέσματα αυτού του αλγορίθμου δίνουν 90.1\% σωστές ταξινομήσεις.
Επίσης σύμφωνα με το ~\cite{cuckoo} το back propagation neural network πέτυχε
ακρίβεια 89.08\%, ενώ το SVM πέτυχε 90.12\% και η δική τους υλοποίηση
SVM (με τον αλγόριθμο cuckoo), CS-SVM, πέτυχε 92.75\%.
Αναφέρεται στο ~\cite{mirex} ότι το πρόβλημα που δόθηκε αποτελεί 2 υποπροβλήματα: Το πρόβλημα εντοπισμού δειγμάτων και το πρόβλημα κατηγοριοποίησής τους.
Για τον εντοπισμό δειγμάτων μουσικής/φωνής εφαρμόστηκε ο αλγόριθμος Random Forest σε 2 εκδοχές του : Στην πρώτη, εφαρμόστηκε μαζί με έναν Silence detection αλγόριθμο ενώ στη δεύτερη βασίστηκε μόνο στις πληροφορίες ομοιογένειας ( self similarity matrix ) και στην λειτουργία του ίδιου του ταξινομητή. Επίσης, για την ταξινόμηση προτάθηκαν 2 εναλλακτικές: Στην πρώτη χρησιμοποιήθηκε ένα προ-εκπαιδευμένο μοντέλο ενώ στην δεύτερη η εκπαίδευση γίνεται κατά την αξιολόγηση των δειγμάτων.
Χρησιμοποιήθηκαν σαν κριτήρια ( features):
- RMS ενέργεια
- ZCR ( Zero - Crossing Rate)
- Spectral rolloff ( Συχνότητα Αποκοπής)
- Spectral flux ( Φασματική Ροή )
- Spectral flatness ( Φασματική Επιπεδότητα)
- Spectral flatness per Band( Φασματική Επιπεδότητα ανά συχνοτικές ομάδες)
- MFCCs
Έπειτα χρησιμοποιήθηκε ο αλγόριθμος PCA για να μειωθούν οι διαστάσεις των διανυσμάτων κριτηρίων (feature vectors ) ενλω στη συνέχεια δημιουργήθηκαν οι πίνακες ομοιότητας υπολογίζοντας την ευκλίδεια απόσταση μεταξύ των δειγμάτων ήχου έτσι ώστε να χωριστούν τα τμήματα. Στη συνέχεια αυτά τα τμήματα κατηγοριοποιούνται ενώ ταυτόχρονα εφαρμόζεται ο αλγόριθμος για Silence Detection και τα δείγματα αυτά προστίθενται στα προηγούμενα. Για το πρόβλημα της κατηγοριοποίησης χρησιμοποιείται ό ίδιος αλγόριθμος Random Forest για την ταξινόμηση σε επίπεδο (frame)τμημάτων ήχου. Εφόσον για κάθε αρχείο ήχου έχουν εξαχθεί τα παραπάνω κριτήρια , κάθε τμήμα ήχου ταξινομείται στην κλάση που αποφασίζεται και έπειτα αλόκληρο το αρχείο ταξινομείται στην κλάση στην οποία ταξινομήθηκαν τα τμήματά του κατά πλειοψηφία.
Στη συνέχεια, στο ~\cite{hybrid} οι συγγραφείς χρησιμοποούν τα features:
- ΜFCC
- ZCR (zero crossing rate)
- SC (Spectral Centroid)
- SR (Spectral Rolloff)
- SF (Specral Flux)
Τα features ΜFCC, ZCR και SF ταξινομούν με accuracy ~90\% το καθένα. Το feature SR με 83\%, ενώ το SC με 70\%.
Ο συνδυασμός όλων των features πετυχαίνει 93.5\% σωστή ταξινόμηση, ενώ με χρήση ενός SVM μοντέλου το ποστοστό φτάνει στο 95.68\%.
Παρατηρείται ότι η σωστή ταξινόμηση της μουσική είναι αρκετά δυσκολότερη (με αυτά τα features) σε σχέση με αυτή της ομιλίας. Συγκεκριμένα στην ομιλία επιτυγχάνεται (με το SVM) accuracy 98.25\% ενώ στη μουσική 93.1\%.
Τέλος, σύμφωνα με το ~\cite{radio}, εφαρμογές κατηγοριοποίησης όπου δεν
επιβάλεται η λειτουργία σε πραγματικό χρόνο, η χρήση energy features είναι
επιθυμητές λόγο της μεγάλης ακρίβειας τους. Συγκεκριμένα η αναζήτηση της Minimum
Energy Density δείχνει να υπερέχει από άλλες μεθόδους energy features και στην
αποτελεσματικότητα της, και στην απλότητα του υπολογισμού της. Σε συνδυασμό το
κριτήριο την διαφοράς ενέργειάς στα διάφορα κανάλια μιας πολυκάναλης εισόδου,
στο ~/cite{radio} πέτυχαν ακρίβεια 100\% στα κομμάτια εισόδου όπου περιείχαν
καθαρά μουσική ή φωνή και όχι τον συνδυασμό τους (όπως στις ραδιοφωνικές
διατιμήσεις).