Apostolos Fanakis
6 years ago
14 changed files with 47 additions and 127 deletions
@ -1,2 +0,0 @@ |
|||||
\section{Τι θα κάνουμε} |
|
||||
|
|
@ -1 +0,0 @@ |
|||||
\section{Γιατί θα το κάνουμε} |
|
@ -1,15 +0,0 @@ |
|||||
|
|
||||
Εφαρμογές κατηγοριοποίησης όπου δεν επιβάλεται η λειτουργία σε |
|
||||
πραγματικό χρόνο, η χρήση energy features είναι επιθυμητές λόγο της |
|
||||
μεγάλης ακρίβειας τους. Συγκεκριμένα η αναζήτηση της Minimum Energy |
|
||||
Density δείχνει να υπερέχει από άλλες μεθόδους energy features και |
|
||||
στην αποτελεσματικότητα της, και στην απλότητα του υπολογισμού της. Σε |
|
||||
συνδυασμό το κριτήριο την διαφοράς ενέργειάς στα διάφορα κανάλια μιας |
|
||||
πολυκάναλης εισόδου, στο ~/cite{radio} πέτυχαν ακρίβεια 100\% στα |
|
||||
κομμάτια εισόδου όπου περιείχαν καθαρά μουσική ή φωνή και όχι τον |
|
||||
συνδυασμό τους (όπως στις ραδιοφωνικές διατιμήσεις). |
|
||||
|
|
||||
%%% Local Variables: |
|
||||
%%% mode: latex |
|
||||
%%% TeX-master: "main" |
|
||||
%%% End: |
|
@ -1,17 +0,0 @@ |
|||||
|
|
||||
Πέρα από την επιλογή των features, η μέθοδος εκπαίδευσης έχει μεγάλη |
|
||||
επίπτωση στην τελική αποτελεσματικότητα του αλγορίθμου. Μερικές φορές |
|
||||
χρήση σύνθετων μεθόδων εκπαίδευσης μπορούν να επιφέρουν καλύτερα |
|
||||
αποτελέσματα σε μεγαλύτερο ποσοστό διότι επιτρέπουν την έξοδο από |
|
||||
τοπικά ελάχιστα. Η σύνθετες μέθοδοι μπορεί να μην είναι συμβατικοί, ή |
|
||||
και να δανείζονται από παρατηρήσεις στην φύση, όπως ο συνδυασμός ενός |
|
||||
Support Vector Machine (SVM) με τον Cuckoo Algorithm |
|
||||
~\site{cuckoo}. Όπου όπως το πουλί ο Κούκος γεννάει τα αυγά του σε |
|
||||
ξένες φωλιές, στις επανάληψης εκπαίδευσης του SVM κάποιες λύσεις |
|
||||
πετιούνται και αντικαθίστανται από νέες οι οποίες "μπορεί" να |
|
||||
επιφέρουν καλύτερα αποτελέσματα. |
|
||||
|
|
||||
%%% Local Variables: |
|
||||
%%% mode: latex |
|
||||
%%% TeX-master: "main" |
|
||||
%%% End: |
|
@ -1,13 +0,0 @@ |
|||||
ROBUST SPEECH / MUSIC CLASSIFICATION IN AUDIO DOCUMENTS |
|
||||
Julien PINQUIER, Jean-Luc ROUAS and R´ egine ANDRE-OBRECHT |
|
||||
|
|
||||
|
|
||||
Χρησιμοποεί σαν κριτήρια (features): |
|
||||
- Την διαμόρφωση ενέργειας στα 4Hz του σήματος |
|
||||
- Την διαμόρφωση εντροπίας του σήματος |
|
||||
- Τον αριθμό των στατικών τμημάτων |
|
||||
- Την διάρκεια των τμημάτων |
|
||||
|
|
||||
Παρατηρήθηκε πειραματικά ότι τα πρώτα 3 κριτήρια δίνουν περίπου το ίδιο ποσοστό επιτυχών ταξινομήσεων(περίπου 84%) ενώ η μπαγιεσιανή προσέγγιση για το κριτήριο δίαρκειας τμημάτων έδωσε λίγο χαμηλότερο ποσοστό( 76.1%). |
|
||||
|
|
||||
Για να αυξηθούν αυτά τα ποσοστό προτάθηκε ένας ιεραρχικός αλγόριθμος ταξινόμησης στον οποίο τα κριτήρια διαμόρφωσης ενέργειας των 4Ηz του σήματος και διαμόρφωσης εντροπίας του σήματος συγχωνεύονται. Σε περίπτωση που οι 2 ταξινομητές συμφωνούν αποφασίζουν για το αν το τμήμα αποτελεί ομιλία ή όχι, ενώ σε περιπτώση που δεν συμφωνούν, η απόφαση οριστικοποιείται από το κριτήριο του αριθμού τμημάτων. Αποδεικνύεται ότι τα αποτελέσματα αυτού του αλγορίθμου δίνουν 90.1% σωστές ταξινομήσεις. |
|
@ -1,17 +0,0 @@ |
|||||
|
|
||||
Πέρα από την επιλογή των features, η μέθοδος εκπαίδευσης έχει μεγάλη |
|
||||
επίπτωση στην τελική αποτελεσματικότητα του αλγορίθμου. Μερικές φορές |
|
||||
χρήση σύνθετων μεθόδων εκπαίδευσης μπορούν να επιφέρουν καλύτερα |
|
||||
αποτελέσματα σε μεγαλύτερο ποσοστό διότι επιτρέπουν την έξοδο από |
|
||||
τοπικά ελάχιστα. Η σύνθετες μέθοδοι μπορεί να μην είναι συμβατικοί, ή |
|
||||
και να δανείζονται από παρατηρήσεις στην φύση, όπως ο συνδυασμός ενός |
|
||||
Support Vector Machine (SVM) με τον Cuckoo Algorithm |
|
||||
~\site{cuckoo}. Όπου όπως το πουλί ο Κούκος γεννάει τα αυγά του σε |
|
||||
ξένες φωλιές, στις επανάληψης εκπαίδευσης του SVM κάποιες λύσεις |
|
||||
πετιούνται και αντικαθίστανται από νέες οι οποίες "μπορεί" να |
|
||||
επιφέρουν καλύτερα αποτελέσματα. |
|
||||
|
|
||||
%%% Local Variables: |
|
||||
%%% mode: latex |
|
||||
%%% TeX-master: "main" |
|
||||
%%% End: |
|
@ -1,14 +0,0 @@ |
|||||
Speech/Music Discrimination using Hybrid-Based Feature Extraction for Audio Data Indexing |
|
||||
Kun-Ching, Wang, Member, IEEE, Yung-Ming, Yang and Ying-Ru, Yang |
|
||||
|
|
||||
Χρησιμοποούν τα features: |
|
||||
- ΜFCC |
|
||||
- ZCR (zero crossing rate) |
|
||||
- SC (Spectral Centroid) |
|
||||
- SR (Spectral Rolloff) |
|
||||
- SF (Specral Flux) |
|
||||
|
|
||||
Τα features ΜFCC, ZCR και SF ταξινομούν με accuracy ~90\% το καθένα. Το feature SR με 83\%, ενώ το SC με 70\%. |
|
||||
Ο συνδυασμός όλων των features πετυχαίνει 93.5\% σωστή ταξινόμηση, ενώ με χρήση ενός SVM μοντέλου το ποστοστό φτάνει στο 95.68\%. |
|
||||
|
|
||||
Παρατηρείται ότι η σωστή ταξινόμηση της μουσική είναι αρκετά δυσκολότερη (με αυτά τα features) σε σχέση με αυτή της ομιλίας. Συγκεκριμένα στην ομιλία επιτυγχάνεται (με το SVM) accuracy 98.25\% ενώ στη μουσική 93.1\%. |
|
@ -1,17 +0,0 @@ |
|||||
MIREX 2015: METHODS FOR SPEECH / MUSIC DETECTION AND CLASSIFICATION |
|
||||
|
|
||||
Nikolaos Tsipas Lazaros Vrysis Charalampos Dimoulas George Papanikolaou |
|
||||
|
|
||||
Αναφέρεται ότι το πρόβλημα που δόθηκε αποτελεί 2 υποπροβλήματα: Το πρόβλημα εντοπισμού δειγμάτων και το πρόβλημα κατηγοριοποίησής τους. |
|
||||
Για τον εντοπισμό δειγμάτων μουσικής/φωνής εφαρμόστηκε ο αλγόριθμος Random Forest σε 2 εκδοχές του : Στην πρώτη, εφαρμόστηκε μαζί με έναν Silence detection αλγόριθμο ενώ στη δεύτερη βασίστηκε μόνο στις πληροφορίες ομοιογένειας ( self similarity ? ) και στην λειτουργία του ίδιου του ταξινομητή. Επίσης, για την ταξινόμηση προτάθηκαν 2 εναλλακτικές: Στην πρώτη χρησιμοποιήθηκε ένα προ-εκπαιδευμένο μοντέλο ενώ στην δεύτερη η εκπαίδευση γίνεται κατά την αξιολόγηση των δειγμάτων. |
|
||||
|
|
||||
Χρησιμοποιήθηκαν σαν κριτήρια ( features): |
|
||||
- RMS ενέργεια |
|
||||
- ZCR ( Zero - Crossing Rate) |
|
||||
- Spectral rolloff ( Συχνότητα Αποκοπής ;) |
|
||||
- Spectral flux ( Φασματική Ροή ;) |
|
||||
- Spectral flatness ( Φασματική Επιπεδότητα) |
|
||||
- Spectral flatness per Band( Φασματική Επιπεδότητα ανά συχνοτικές ομάδες) |
|
||||
- MFCCs |
|
||||
|
|
||||
Έπειτα χρησιμοποιήθηκε ο αλγόριθμος PCA για να μειωθούν οι διαστάσεις των διανυσμάτων κριτηρίων (feature vectors ? ) ενλω στη συνέχεια δημιουργήθηκαν οι πίνακες ομοιότητας υπολογίζοντας την ευκλίδεια απόσταση μεταξύ των δειγμάτων ήχου έτσι ώστε να χωριστούν τα τμήματα. Στη συνέχεια αυτά τα τμήματα κατηγοριοποιούνται ενώ ταυτόχρονα εφαρμόζεται ο αλγόριθμος για Silence Detection και τα δείγματα αυτά προστίθενται στα προηγούμενα. Για το πρόβλημα της κατηγοριοποίησης χρησιμοποιείται ό ίδιος αλγόριθμος Random Forest για την ταξινόμηση σε επίπεδο (frame)τμημάτων ήχου. Εφόσον για κάθε αρχείο ήχου έχουν εξαχθεί τα παραπάνω κριτήρια , κάθε τμήμα ήχου ταξινομείται στην κλάση που αποφασίζεται και έπειτα αλόκληρο το αρχείο ταξινομείται στην κλάση στην οποία ταξινομήθηκαν τα τμήματά του κατά πλειοψηφία. |
|
@ -1,20 +0,0 @@ |
|||||
|
|
||||
Τα features μπορεί να μην καλύπτουν χαρακτηριστικά και της φωνής και |
|
||||
της μουσικής, αλλά να βασίζονται σε χαρακτηριστικά ενός από τα |
|
||||
δύο. Ενδιαφέρον παρουσιάζουν τα χαρακτηριστικά της ομιλίας, η οποία |
|
||||
λόγο των μέσων όπου την παράγουν (τα χείλη, η γλώσσα και οι φωνητικές |
|
||||
χορδές) έχουν περιορισμένα χαρακτηριστικά. Η μελέτη αυτών των |
|
||||
χαρακτηριστικών και τη χρήση τους ως features σε έναν classifier έχει |
|
||||
αποδειχθεί πως μπορεί να αυξήσει στην επιτυχία του διαχωρισμού |
|
||||
~/cite{Α}. Ενδεικτικά , πέρα από το καθιερωμένο feature των 4Hz |
|
||||
modulation energy λόγω του ρυθμού των συλλαβών, κάποια άλλα speech |
|
||||
specific features βασίζονται στην αναγνώριση του ήχου όπου παράγεται |
|
||||
στις φωνητικές χορδές κατά την εναλλαγή της προφοράς ενός συμφώνου σε |
|
||||
ένα φωνήεν ή στην μελέτη της αυτοσυσχέτησης του σήματος μετά από |
|
||||
φιλτράρισμα (Zero Frequency Filtered Signal) όπου παρουσιάζει |
|
||||
συγκεκριμένα χαρακτηριστικά μόνο στην ομιλία. |
|
||||
|
|
||||
%%% Local Variables: |
|
||||
%%% mode: latex |
|
||||
%%% TeX-master: "main" |
|
||||
%%% End: |
|
@ -1 +0,0 @@ |
|||||
\section{Τι άλλο...;} |
|
Loading…
Reference in new issue