@ -8,7 +8,7 @@ Kun-Ching, Wang, Member, IEEE, Yung-Ming, Yang and Ying-Ru, Yang
- SR (Spectral Rolloff)
- SR (Spectral Rolloff)
- SF (Specral Flux)
- SF (Specral Flux)
Τα features ΜFCC, ZCR και SF ταξινομούν με accuracy ~90% το καθένα. Το feature SR με 83%, ενώ το SC με 70%.
Τα features ΜFCC, ZCR και SF ταξινομούν με accuracy ~90\% το καθένα. Το feature SR με 83\%, ενώ το SC με 70\%.
Ο συνδυασμός όλων των features πετυχαίνει 93.5% σωστή ταξινόμηση, ενώ με χρήση ενός SVM μοντέλου το ποστοστό φτάνει στο 95.68%.
Ο συνδυασμός όλων των features πετυχαίνει 93.5\% σωστή ταξινόμηση, ενώ με χρήση ενός SVM μοντέλου το ποστοστό φτάνει στο 95.68\%.
Παρατηρείται ότι η σωστή ταξινόμηση της μουσική είναι αρκετά δυσκολότερη (με αυτά τα features) σε σχέση με αυτή της ομιλίας. Συγκεκριμένα στην ομιλία επιτυγχάνεται (με το SVM) accuracy 98.25% ενώ στη μουσική 93.1%.
Παρατηρείται ότι η σωστή ταξινόμηση της μουσική είναι αρκετά δυσκολότερη (με αυτά τα features) σε σχέση με αυτή της ομιλίας. Συγκεκριμένα στην ομιλία επιτυγχάνεται (με το SVM) accuracy 98.25\% ενώ στη μουσική 93.1\%.
Υπάρχει πληθώρα βιβλιογραφίας σχετική με το θέμα. Έχουν βρεθεί ήδη
Υπάρχει πληθώρα βιβλιογραφίας σχετική με το θέμα. Έχουν βρεθεί ήδη
αρκετές λύσεις, ενώ οι πιο πρόσφατες πετυχαίνουν αξιοσημείωτα
αρκετές λύσεις, ενώ οι πιο πρόσφατες πετυχαίνουν αξιοσημείωτα
αποτελέσματα τόσο όσων αφορά την ταχύτητα του διαχωρισμού όσο και την
αποτελέσματα τόσο όσων αφορά την ταχύτητα του διαχωρισμού όσο και την
ακρίβεια των αποτελεσμάτων.
ακρίβεια των αποτελεσμάτων. Κάποιες από τις δημοσιεύσεις οι οποίες έχουν ασχοληθεί με το συγκικριμένο
θέμα, καθώς και τα αποτελέσματά τους παρουσιάζονται παρακάτω.
Στο ~\cite{robust} οι συγγραφείς χρησιμοποιούν σαν κριτήρια (features):
- Την διαμόρφωση ενέργειας στα 4Hz του σήματος
- Την διαμόρφωση εντροπίας του σήματος
- Τον αριθμό των στατικών τμημάτων
- Την διάρκεια των τμημάτων
Πιθανές αναφορές:
Παρατηρήθηκε πειραματικά ότι τα πρώτα 3 κριτήρια δίνουν περίπου το ίδιο ποσοστό επιτυχών ταξινομήσεων(περίπου 84\%) ενώ η μπαγιεσιανή προσέγγιση για το κριτήριο δίαρκειας τμημάτων έδωσε λίγο χαμηλότερο ποσοστό( 76.1\%).
\begin{itemize}[noitemsep]
\item ποιά μοντέλα (δέντρα, πιθανοτικά, neural...) είναι
αποτελεσματικότερα με βάση τη βιβλιογραφία; Νομίζω ανάλογα με το
paper υπάρχουν διαφορετικά αποτελέσματα σχετικά με αυτό (άλλα
προτείνουν μπαγεσιανά και άλλα νευρωνικά) άρα παίζει ρόλο η επιλογή
των features και στο μοντέλο, να το πούμε αυτό.. Πχ κάποια features
έχουν μεγάλο correlation -> τα naive bayes δε τη παλεύουν σε αυτά…
\item ποια features χρησιμοποιούνται; Τι σημαίνει το καθένα και πως
Για να αυξηθούν αυτά τα ποσοστό προτάθηκε ένας ιεραρχικός αλγόριθμος ταξινόμησης στον οποίο τα κριτήρια διαμόρφωσης ενέργειας των 4Ηz του σήματος και διαμόρφωσης εντροπίας του σήματος συγχωνεύονται. Σε περίπτωση που οι 2 ταξινομητές συμφωνούν αποφασίζουν για το αν το τμήμα αποτελεί ομιλία ή όχι, ενώ σε περιπτώση που δεν συμφωνούν, η απόφαση οριστικοποιείται από το κριτήριο του αριθμού τμημάτων. Αποδεικνύεται ότι τα αποτελέσματα αυτού του αλγορίθμου δίνουν 90.1\% σωστές ταξινομήσεις.
υπολογίζεται; Πόσο ακριβά είναι υπολογιστικά το καθένα;
\item ποια είναι η γενικότερη πορεία που ακολουθείται;\\
Επίσης σύμφωνα με το ~\cite{cuckoo} το back propagation neural network πέτυχε
συνήθως:
ακρίβεια 89.08\%, ενώ το SVM πέτυχε 90.12\% και η δική τους υλοποίηση
SVM (με τον αλγόριθμο cuckoo), CS-SVM, πέτυχε 92.75\%.
\begin{enumerate}[noitemsep]
\item παραθυροποίηση (τι τύπου; είναι επικαλυπτόμενα τα παράθυρα;
πόσα sec είναι το καθένα;)
\item feature extraction
\item μετασχηματισμός του χώρου (βλέπε PCA και άλλες μεθόδους)
\item training
\item πρόβλεψη
\end{enumerate}
\item Άρα κατά τον σχεδιασμό πρέπει εκτός από τη μέθοδο της
Αναφέρεται στο ~\cite{mirex} ότι το πρόβλημα που δόθηκε αποτελεί 2 υποπροβλήματα: Το πρόβλημα εντοπισμού δειγμάτων και το πρόβλημα κατηγοριοποίησής τους.
παραθυροποίησης, τα features και το μοντέλο να επιλεχθούν επίσης
Για τον εντοπισμό δειγμάτων μουσικής/φωνής εφαρμόστηκε ο αλγόριθμος Random Forest σε 2 εκδοχές του : Στην πρώτη, εφαρμόστηκε μαζί με έναν Silence detection αλγόριθμο ενώ στη δεύτερη βασίστηκε μόνο στις πληροφορίες ομοιογένειας ( self similarity matrix ) και στην λειτουργία του ίδιου του ταξινομητή. Επίσης, για την ταξινόμηση προτάθηκαν 2 εναλλακτικές: Στην πρώτη χρησιμοποιήθηκε ένα προ-εκπαιδευμένο μοντέλο ενώ στην δεύτερη η εκπαίδευση γίνεται κατά την αξιολόγηση των δειγμάτων.
κάποιος μετασχηματισμός (δεν το κάνουν πάντα) ή και άλλες
παράμετροι. Τι άλλο preprocessing χρειάζεται;
\end{itemize}
Χρησιμοποιήθηκαν σαν κριτήρια ( features):
- RMS ενέργεια
- ZCR ( Zero - Crossing Rate)
- Spectral rolloff ( Συχνότητα Αποκοπής)
- Spectral flux ( Φασματική Ροή )
- Spectral flatness ( Φασματική Επιπεδότητα)
- Spectral flatness per Band( Φασματική Επιπεδότητα ανά συχνοτικές ομάδες)
- MFCCs
Σύμφωνα με το paper ~\cite{cuckoo} το back propagation neural network πέτυχε
Έπειτα χρησιμοποιήθηκε ο αλγόριθμος PCA για να μειωθούν οι διαστάσεις των διανυσμάτων κριτηρίων (feature vectors ) ενλω στη συνέχεια δημιουργήθηκαν οι πίνακες ομοιότητας υπολογίζοντας την ευκλίδεια απόσταση μεταξύ των δειγμάτων ήχου έτσι ώστε να χωριστούν τα τμήματα. Στη συνέχεια αυτά τα τμήματα κατηγοριοποιούνται ενώ ταυτόχρονα εφαρμόζεται ο αλγόριθμος για Silence Detection και τα δείγματα αυτά προστίθενται στα προηγούμενα. Για το πρόβλημα της κατηγοριοποίησης χρησιμοποιείται ό ίδιος αλγόριθμος Random Forest για την ταξινόμηση σε επίπεδο (frame)τμημάτων ήχου. Εφόσον για κάθε αρχείο ήχου έχουν εξαχθεί τα παραπάνω κριτήρια , κάθε τμήμα ήχου ταξινομείται στην κλάση που αποφασίζεται και έπειτα αλόκληρο το αρχείο ταξινομείται στην κλάση στην οποία ταξινομήθηκαν τα τμήματά του κατά πλειοψηφία.
ακρίβεια 89.08\%, ενώ το SVM πέτυχε 90.12\% και η δική τους υλοποίηση
SVM (με τον αλγόριθμο cuckoo), CS-SVM, πέτυχε 92.75\%.
Στη συνέχεια, στο ~\cite{hybrid} οι συγγραφείς χρησιμοποούν τα features:
- ΜFCC
- ZCR (zero crossing rate)
- SC (Spectral Centroid)
- SR (Spectral Rolloff)
- SF (Specral Flux)
Τα features ΜFCC, ZCR και SF ταξινομούν με accuracy ~90\% το καθένα. Το feature SR με 83\%, ενώ το SC με 70\%.
Ο συνδυασμός όλων των features πετυχαίνει 93.5\% σωστή ταξινόμηση, ενώ με χρήση ενός SVM μοντέλου το ποστοστό φτάνει στο 95.68\%.
Παρατηρείται ότι η σωστή ταξινόμηση της μουσική είναι αρκετά δυσκολότερη (με αυτά τα features) σε σχέση με αυτή της ομιλίας. Συγκεκριμένα στην ομιλία επιτυγχάνεται (με το SVM) accuracy 98.25\% ενώ στη μουσική 93.1\%.
Τέλος, σύμφωνα με το ~\cite{radio}, εφαρμογές κατηγοριοποίησης όπου δεν
επιβάλεται η λειτουργία σε πραγματικό χρόνο, η χρήση energy features είναι
επιθυμητές λόγο της μεγάλης ακρίβειας τους. Συγκεκριμένα η αναζήτηση της Minimum
Energy Density δείχνει να υπερέχει από άλλες μεθόδους energy features και στην
αποτελεσματικότητα της, και στην απλότητα του υπολογισμού της. Σε συνδυασμό το
κριτήριο την διαφοράς ενέργειάς στα διάφορα κανάλια μιας πολυκάναλης εισόδου,
στο ~/cite{radio} πέτυχαν ακρίβεια 100\% στα κομμάτια εισόδου όπου περιείχαν
καθαρά μουσική ή φωνή και όχι τον συνδυασμό τους (όπως στις ραδιοφωνικές