From 85bc321889c4f779a797dda2c46577d0c5814fc6 Mon Sep 17 00:00:00 2001 From: Christina Theodoridou Date: Sat, 3 Nov 2018 16:01:53 +0200 Subject: [PATCH] MIREX 2015: METHODS FOR SPEECH / MUSIC DETECTION AND CLASSIFICATION --- tex/4.5.mirex.tex | 17 +++++++++++++++++ 1 file changed, 17 insertions(+) create mode 100644 tex/4.5.mirex.tex diff --git a/tex/4.5.mirex.tex b/tex/4.5.mirex.tex new file mode 100644 index 0000000..0b2054d --- /dev/null +++ b/tex/4.5.mirex.tex @@ -0,0 +1,17 @@ +MIREX 2015: METHODS FOR SPEECH / MUSIC DETECTION AND CLASSIFICATION + +Nikolaos Tsipas Lazaros Vrysis Charalampos Dimoulas George Papanikolaou + +Αναφέρεται ότι το πρόβλημα που δόθηκε αποτελεί 2 υποπροβλήματα: Το πρόβλημα εντοπισμού δειγμάτων και το πρόβλημα κατηγοριοποίησής τους. +Για τον εντοπισμό δειγμάτων μουσικής/φωνής εφαρμόστηκε ο αλγόριθμος Random Forest σε 2 εκδοχές του : Στην πρώτη, εφαρμόστηκε μαζί με έναν Silence detection αλγόριθμο ενώ στη δεύτερη βασίστηκε μόνο στις πληροφορίες ομοιογένειας ( self similarity ? ) και στην λειτουργία του ίδιου του ταξινομητή. Επίσης, για την ταξινόμηση προτάθηκαν 2 εναλλακτικές: Στην πρώτη χρησιμοποιήθηκε ένα προ-εκπαιδευμένο μοντέλο ενώ στην δεύτερη η εκπαίδευση γίνεται κατά την αξιολόγηση των δειγμάτων. + + Χρησιμοποιήθηκαν σαν κριτήρια ( features): +- RMS ενέργεια +- ZCR ( Zero - Crossing Rate) +- Spectral rolloff ( Συχνότητα Αποκοπής ;) +- Spectral flux ( Φασματική Ροή ;) +- Spectral flatness ( Φασματική Επιπεδότητα) +- Spectral flatness per Band( Φασματική Επιπεδότητα ανά συχνοτικές ομάδες) +- MFCCs + +Έπειτα χρησιμοποιήθηκε ο αλγόριθμος PCA για να μειωθούν οι διαστάσεις των διανυσμάτων κριτηρίων (feature vectors ? ) ενλω στη συνέχεια δημιουργήθηκαν οι πίνακες ομοιότητας υπολογίζοντας την ευκλίδεια απόσταση μεταξύ των δειγμάτων ήχου έτσι ώστε να χωριστούν τα τμήματα. Στη συνέχεια αυτά τα τμήματα κατηγοριοποιούνται ενώ ταυτόχρονα εφαρμόζεται ο αλγόριθμος για Silence Detection και τα δείγματα αυτά προστίθενται στα προηγούμενα. Για το πρόβλημα της κατηγοριοποίησης χρησιμοποιείται ό ίδιος αλγόριθμος Random Forest για την ταξινόμηση σε επίπεδο (frame)τμημάτων ήχου. Εφόσον για κάθε αρχείο ήχου έχουν εξαχθεί τα παραπάνω κριτήρια , κάθε τμήμα ήχου ταξινομείται στην κλάση που αποφασίζεται και έπειτα αλόκληρο το αρχείο ταξινομείται στην κλάση στην οποία ταξινομήθηκαν τα τμήματά του κατά πλειοψηφία. \ No newline at end of file