Speech/Music classification of audio files using machine learning techniques.
You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
 
 
 
 

13 lines
1.7 KiB

ROBUST SPEECH / MUSIC CLASSIFICATION IN AUDIO DOCUMENTS
Julien PINQUIER, Jean-Luc ROUAS and R´ egine ANDRE-OBRECHT
Χρησιμοποεί σαν κριτήρια (features):
- Την διαμόρφωση ενέργειας στα 4Hz του σήματος
- Την διαμόρφωση εντροπίας του σήματος
- Τον αριθμό των στατικών τμημάτων
- Την διάρκεια των τμημάτων
Παρατηρήθηκε πειραματικά ότι τα πρώτα 3 κριτήρια δίνουν περίπου το ίδιο ποσοστό επιτυχών ταξινομήσεων(περίπου 84%) ενώ η μπαγιεσιανή προσέγγιση για το κριτήριο δίαρκειας τμημάτων έδωσε λίγο χαμηλότερο ποσοστό( 76.1%).
Για να αυξηθούν αυτά τα ποσοστό προτάθηκε ένας ιεραρχικός αλγόριθμος ταξινόμησης στον οποίο τα κριτήρια διαμόρφωσης ενέργειας των 4Ηz του σήματος και διαμόρφωσης εντροπίας του σήματος συγχωνεύονται. Σε περίπτωση που οι 2 ταξινομητές συμφωνούν αποφασίζουν για το αν το τμήμα αποτελεί ομιλία ή όχι, ενώ σε περιπτώση που δεν συμφωνούν, η απόφαση οριστικοποιείται από το κριτήριο του αριθμού τμημάτων. Αποδεικνύεται ότι τα αποτελέσματα αυτού του αλγορίθμου δίνουν 90.1% σωστές ταξινομήσεις.