diff --git a/tex/1.intro.tex b/tex/1.intro.tex index 754bf13..9089d60 100644 --- a/tex/1.intro.tex +++ b/tex/1.intro.tex @@ -1,17 +1,17 @@ \section{Εισαγωγή} Το ζητούμενο της εργασίας είναι η ανάπτυξη ενός μοντέλου μηχανικής -μάθησης το οποίο παρέχοντας ένα αρχείο ήχου θα μπορεί να ξεχωρίσει +μάθησης το οποίο, παρέχοντας ένα αρχείο ήχου, θα μπορεί να ξεχωρίσει ανάμεσα στα κομμάτια του χρόνου που περιέχουν ομιλία (speech) και μουσική (music). -Πρόκειται για ένα πρόβλημα ταξινόμησης που είναι σημαντικό γιατί έχει -εφαρμογές σε πλατφόρμες κοινωνικών δικτύων για την αναγνώρισή +Πρόκειται για ένα πρόβλημα ταξινόμησης που είναι σημαντικό καθώς έχει +εφαρμογές σε πλατφόρμες κοινωνικών δικτύων για την αναγνώριση περιεχομένου με πνευματικά δικαιώματά, σε συστήματα αυτόματης αναγνώρισης διαφημίσεων, μοντέρνα "έξυπνα" βοηθητικά ακοής κ.α. Η πρόσφατη βιβλιογραφία περιέχει θεματολογία όπου στοχεύει είτε στην ανάπτυξή αλγορίθμων για γρήγορη και φθηνή υπολογιστικά ταξινόμηση, -είτε στην αναγνώριση πολλής μεγάλης ακρίβειας. Αυτό διότι αυτή τη +είτε στην αναγνώριση πολύ μεγάλης ακρίβειας. Αυτό διότι αυτή τη στιγμή η αναγνώριση με ποσοστό επιτυχίας γύρω στο 98\% είναι κάτι συνηθισμένο. diff --git a/tex/4.others.tex b/tex/4.others.tex deleted file mode 100644 index 208fb7c..0000000 --- a/tex/4.others.tex +++ /dev/null @@ -1,62 +0,0 @@ -\section{Πως το έκαναν άλλοι} - -% make a table with times - -Υπάρχει πληθώρα βιβλιογραφίας σχετική με το θέμα. Έχουν βρεθεί ήδη -αρκετές λύσεις, ενώ οι πιο πρόσφατες πετυχαίνουν αξιοσημείωτα -αποτελέσματα τόσο όσων αφορά την ταχύτητα του διαχωρισμού όσο και την -ακρίβεια των αποτελεσμάτων. Κάποιες από τις δημοσιεύσεις οι οποίες έχουν ασχοληθεί με το συγκικριμένο -θέμα, καθώς και τα αποτελέσματά τους παρουσιάζονται παρακάτω. - - -Στο ~\cite{robust} οι συγγραφείς χρησιμοποιούν σαν κριτήρια (features): -- Την διαμόρφωση ενέργειας στα 4Hz του σήματος -- Την διαμόρφωση εντροπίας του σήματος -- Τον αριθμό των στατικών τμημάτων -- Την διάρκεια των τμημάτων - -Παρατηρήθηκε πειραματικά ότι τα πρώτα 3 κριτήρια δίνουν περίπου το ίδιο ποσοστό επιτυχών ταξινομήσεων(περίπου 84\%) ενώ η μπαγιεσιανή προσέγγιση για το κριτήριο δίαρκειας τμημάτων έδωσε λίγο χαμηλότερο ποσοστό( 76.1\%). - -Για να αυξηθούν αυτά τα ποσοστό προτάθηκε ένας ιεραρχικός αλγόριθμος ταξινόμησης στον οποίο τα κριτήρια διαμόρφωσης ενέργειας των 4Ηz του σήματος και διαμόρφωσης εντροπίας του σήματος συγχωνεύονται. Σε περίπτωση που οι 2 ταξινομητές συμφωνούν αποφασίζουν για το αν το τμήμα αποτελεί ομιλία ή όχι, ενώ σε περιπτώση που δεν συμφωνούν, η απόφαση οριστικοποιείται από το κριτήριο του αριθμού τμημάτων. Αποδεικνύεται ότι τα αποτελέσματα αυτού του αλγορίθμου δίνουν 90.1\% σωστές ταξινομήσεις. - -Επίσης σύμφωνα με το ~\cite{cuckoo} το back propagation neural network πέτυχε -ακρίβεια 89.08\%, ενώ το SVM πέτυχε 90.12\% και η δική τους υλοποίηση -SVM (με τον αλγόριθμο cuckoo), CS-SVM, πέτυχε 92.75\%. - - -Αναφέρεται στο ~\cite{mirex} ότι το πρόβλημα που δόθηκε αποτελεί 2 υποπροβλήματα: Το πρόβλημα εντοπισμού δειγμάτων και το πρόβλημα κατηγοριοποίησής τους. -Για τον εντοπισμό δειγμάτων μουσικής/φωνής εφαρμόστηκε ο αλγόριθμος Random Forest σε 2 εκδοχές του : Στην πρώτη, εφαρμόστηκε μαζί με έναν Silence detection αλγόριθμο ενώ στη δεύτερη βασίστηκε μόνο στις πληροφορίες ομοιογένειας ( self similarity matrix ) και στην λειτουργία του ίδιου του ταξινομητή. Επίσης, για την ταξινόμηση προτάθηκαν 2 εναλλακτικές: Στην πρώτη χρησιμοποιήθηκε ένα προ-εκπαιδευμένο μοντέλο ενώ στην δεύτερη η εκπαίδευση γίνεται κατά την αξιολόγηση των δειγμάτων. - - Χρησιμοποιήθηκαν σαν κριτήρια ( features): -- RMS ενέργεια -- ZCR ( Zero - Crossing Rate) -- Spectral rolloff ( Συχνότητα Αποκοπής) -- Spectral flux ( Φασματική Ροή ) -- Spectral flatness ( Φασματική Επιπεδότητα) -- Spectral flatness per Band( Φασματική Επιπεδότητα ανά συχνοτικές ομάδες) -- MFCCs - -Έπειτα χρησιμοποιήθηκε ο αλγόριθμος PCA για να μειωθούν οι διαστάσεις των διανυσμάτων κριτηρίων (feature vectors ) ενλω στη συνέχεια δημιουργήθηκαν οι πίνακες ομοιότητας υπολογίζοντας την ευκλίδεια απόσταση μεταξύ των δειγμάτων ήχου έτσι ώστε να χωριστούν τα τμήματα. Στη συνέχεια αυτά τα τμήματα κατηγοριοποιούνται ενώ ταυτόχρονα εφαρμόζεται ο αλγόριθμος για Silence Detection και τα δείγματα αυτά προστίθενται στα προηγούμενα. Για το πρόβλημα της κατηγοριοποίησης χρησιμοποιείται ό ίδιος αλγόριθμος Random Forest για την ταξινόμηση σε επίπεδο (frame)τμημάτων ήχου. Εφόσον για κάθε αρχείο ήχου έχουν εξαχθεί τα παραπάνω κριτήρια , κάθε τμήμα ήχου ταξινομείται στην κλάση που αποφασίζεται και έπειτα αλόκληρο το αρχείο ταξινομείται στην κλάση στην οποία ταξινομήθηκαν τα τμήματά του κατά πλειοψηφία. - - -Στη συνέχεια, στο ~\cite{hybrid} οι συγγραφείς χρησιμοποούν τα features: -- ΜFCC -- ZCR (zero crossing rate) -- SC (Spectral Centroid) -- SR (Spectral Rolloff) -- SF (Specral Flux) - -Τα features ΜFCC, ZCR και SF ταξινομούν με accuracy ~90\% το καθένα. Το feature SR με 83\%, ενώ το SC με 70\%. -Ο συνδυασμός όλων των features πετυχαίνει 93.5\% σωστή ταξινόμηση, ενώ με χρήση ενός SVM μοντέλου το ποστοστό φτάνει στο 95.68\%. - -Παρατηρείται ότι η σωστή ταξινόμηση της μουσική είναι αρκετά δυσκολότερη (με αυτά τα features) σε σχέση με αυτή της ομιλίας. Συγκεκριμένα στην ομιλία επιτυγχάνεται (με το SVM) accuracy 98.25\% ενώ στη μουσική 93.1\%. - -Τέλος, σύμφωνα με το ~\cite{radio}, εφαρμογές κατηγοριοποίησης όπου δεν -επιβάλεται η λειτουργία σε πραγματικό χρόνο, η χρήση energy features είναι -επιθυμητές λόγο της μεγάλης ακρίβειας τους. Συγκεκριμένα η αναζήτηση της Minimum -Energy Density δείχνει να υπερέχει από άλλες μεθόδους energy features και στην -αποτελεσματικότητα της, και στην απλότητα του υπολογισμού της. Σε συνδυασμό το -κριτήριο την διαφοράς ενέργειάς στα διάφορα κανάλια μιας πολυκάναλης εισόδου, -στο ~/cite{radio} πέτυχαν ακρίβεια 100\% στα κομμάτια εισόδου όπου περιείχαν -καθαρά μουσική ή φωνή και όχι τον συνδυασμό τους (όπως στις ραδιοφωνικές -διατιμήσεις). diff --git a/tex/4.past_implementations.tex b/tex/4.past_implementations.tex new file mode 100644 index 0000000..82ae2c3 --- /dev/null +++ b/tex/4.past_implementations.tex @@ -0,0 +1,99 @@ +\section{Προηγούμενες υλοποιήσεις} + +% make a table with times + +Υπάρχει πληθώρα βιβλιογραφίας σχετική με το θέμα. Έχουν βρεθεί ήδη +αρκετές λύσεις, ενώ οι πιο πρόσφατες πετυχαίνουν αξιοσημείωτα +αποτελέσματα τόσο όσων αφορά την ταχύτητα του διαχωρισμού όσο και την ακρίβεια +των αποτελεσμάτων. Κάποιες από τις δημοσιεύσεις οι οποίες αφορούν το +συγκεκριμένο θέμα, καθώς και τα αποτελέσματά τους παρουσιάζονται παρακάτω. + +\vspace{1em} +Στο ~\cite{robust} οι συγγραφείς χρησιμοποιούν τα εξής χαρακτηριστικά (features): +\begin{enumerate}[noitemsep] +\item Διαμόρφωση ενέργειας στα 4Hz του σήματος (4Hz modulation) +\item Διαμόρφωση εντροπίας του σήματος (entropy modulation) +\item Αριθμός των στατικών τμημάτων +\item Διάρκεια των τμημάτων +\end{enumerate} + +Παρατηρήθηκε πειραματικά ότι τα πρώτα 3 χαρακτηριστικά δίνουν ξεχωριστά περίπου +το ίδιο ποσοστό επιτυχών ταξινομήσεων (περίπου 84\%) ενώ η Μπαγιεσιανή προσέγγιση +για το χαρακτηριστικό δίαρκειας τμημάτων έδωσε λίγο χαμηλότερο ποσοστό (76.1\%). + +Για να αυξηθεί το ποσοστό των συνολικών επιτυχών ταξινομήσεων προτάθηκε ένας +ιεραρχικός αλγόριθμος ταξινόμησης στον οποίο τα χαρακτηριστικά διαμόρφωσης +ενέργειας του σήματος στα 4Ηz και διαμόρφωσης εντροπίας του σήματος συγχωνεύονται. +Σε περίπτωση που οι 2 ταξινομητές συμφωνούν αποφασίζουν για το αν το τμήμα +αποτελεί ομιλία ή όχι, ενώ σε περίπτωση που δεν συμφωνούν, η απόφαση +οριστικοποιείται από το χαρακτηριστικό του αριθμού τμημάτων. Αποδεικνύεται ότι +τα αποτελέσματα αυτού του αλγορίθμου δίνουν 90.1\% σωστές ταξινομήσεις. + +\vspace{1em} +Στο ~\cite{mirex} το πρόβλημα που δόθηκε αντιμετωπίζεται ως 2 υποπροβλήματα: +το πρόβλημα εντοπισμού δειγμάτων και το πρόβλημα κατηγοριοποίησής τους. +Για τον εντοπισμό δειγμάτων μουσικής/φωνής εφαρμόστηκε ο αλγόριθμος Random +Forest σε 2 εκδοχές του: στην πρώτη, εφαρμόστηκε μαζί με έναν Silence detection +αλγόριθμο ενώ στη δεύτερη βασίστηκε μόνο στις πληροφορίες ομοιογένειας (self +similarity matrix) και στην λειτουργία του ίδιου του ταξινομητή. Επίσης, για την +ταξινόμηση προτάθηκαν 2 εναλλακτικές: στην πρώτη χρησιμοποιήθηκε ένα +προ-εκπαιδευμένο μοντέλο ενώ στην δεύτερη η εκπαίδευση γίνεται κατά την +αξιολόγηση των δειγμάτων. + +Χρησιμοποιήθηκαν τα χαρακτηριστικά (features): +\begin{enumerate}[noitemsep] +\item RMS ενέργεια +\item ZCR (Zero-Crossing Rate) +\item Spectral rolloff (Συχνότητα Αποκοπής) +\item Spectral flux (Φασματική Ροή) +\item Spectral flatness (Φασματική Επιπεδότητα) +\item Spectral flatness per Band (Φασματική Επιπεδότητα ανά συχνοτικές ομάδες) +\item MFCCs (Mel Frequency Cepstral Coefficients) +\end{enumerate} + +Έγινε ανάλυση κύριων συνιστωσών (Principal component analysis ή PCA) με στόχο να +μειωθούν οι διαστάσεις των διανυσμάτων χαρακτηριστικών (feature vectors). +Δημιουργήθηκαν οι πίνακες ομοιότητας υπολογίζοντας την ευκλείδεια απόσταση +μεταξύ των δειγμάτων ήχου έτσι ώστε να χωριστούν τα τμήματα. Στη συνέχεια τα +τμήματα αυτά κατηγοριοποιούνται ενώ ταυτόχρονα εφαρμόζεται ο αλγόριθμος Silence +Detection και τα δείγματα αυτά προστίθενται στα προηγούμενα. Για το πρόβλημα της +κατηγοριοποίησης χρησιμοποιείται ο ίδιος αλγόριθμος Random Forest για την +ταξινόμηση σε επίπεδο (frame) τμημάτων ήχου. Εφόσον για κάθε αρχείο ήχου έχουν +εξαχθεί τα παραπάνω χαρακτηριστικά, κάθε τμήμα ήχου ταξινομείται στην κλάση που +αποφασίζεται και έπειτα ολόκληρο το αρχείο ταξινομείται στην κλάση στην οποία +ταξινομήθηκαν τα τμήματά του κατά πλειοψηφία. + +\vspace{1em} +Σύμφωνα με το ~\cite{cuckoo} το back propagation neural network πέτυχε ακρίβεια +89.08\%, ενώ το SVM πέτυχε 90.12\% και η δική τους υλοποίηση SVM (με τον +αλγόριθμο cuckoo), CS-SVM, πέτυχε 92.75\%. + +\vspace{1em} +Στο ~\cite{hybrid} οι συγγραφείς χρησιμοποιούν τα features: +\begin{enumerate}[noitemsep] +\item ΜFCCs (Mel Frequency Cepstral Coefficients) +\item ZCR (Zero-Crossing Rate) +\item SC (Spectral Centroid) +\item SR (Spectral Rolloff) +\item SF (Specral Flux) +\end{enumerate} + +Τα χαρακτηριστικά ΜFCC, ZCR και SF ταξινομούν με accuracy ~90\% το καθένα. Το +feature SR με 83\%, ενώ το SC με 70\%. Ο συνδυασμός όλων των features πετυχαίνει +93.5\% σωστή ταξινόμηση, ενώ με χρήση ενός SVM μοντέλου το ποσοστό φτάνει στο +95.68\%. + +Παρατηρείται ότι η σωστή ταξινόμηση της μουσικής είναι αρκετά δυσκολότερη (με +αυτά τα features) σε σχέση με αυτή της ομιλίας. Συγκεκριμένα στην ομιλία +επιτυγχάνεται (με το SVM) accuracy 98.25\% ενώ στη μουσική 93.1\%. + +\vspace{1em} +Τέλος, σύμφωνα με το ~\cite{radio}, σε εφαρμογές κατηγοριοποίησης όπου δεν +επιβάλλεται η λειτουργία σε πραγματικό χρόνο, η χρήση energy features είναι +επιθυμητή λόγο της μεγάλης ακρίβειας τους. Συγκεκριμένα η αναζήτηση της Minimum +Energy Density δείχνει να υπερέχει από άλλες μεθόδους energy features και στην +αποτελεσματικότητα της, και στην απλότητα του υπολογισμού της. Σε συνδυασμό με το +χαρακτηριστικό της διαφοράς ενέργειάς στα διάφορα κανάλια μιας πολυκάναλης +εισόδου, στο ~\cite{radio} πέτυχαν ακρίβεια 100\% στα κομμάτια εισόδου όπου +περιείχαν μόνο μουσική ή φωνή και όχι τον συνδυασμό τους (όπως στις ραδιοφωνικές +διατιμήσεις). diff --git a/tex/5.how.tex b/tex/5.how.tex deleted file mode 100644 index b01cd42..0000000 --- a/tex/5.how.tex +++ /dev/null @@ -1,87 +0,0 @@ -\section{Πως σκοπεύουμε να το κάνουμε εμείς} - -Πλάνο επίθεσης - -Μετά από μελέτη των προηγούμενων υλοποιήσεων και πειραματισμό με την -εξαγωγή διάφορων χαρακτηριστικών (features) [και καλά ;)] κλπ κλπ -αποφασίσαμε να ακολουθήσουμε την παρακάτω πορεία αντιμετώπισης του -προβλήματος: - -\begin{enumerate}[noitemsep] -\item Τι παραθυροποίηση θα κάνουμε (λογικά την κλασική - hamming... φαίνεται να είναι ψιλοστάνταρ) -\item Ποια features σκοπεύουμε να χρησιμοποιήσουμε; (γιατί;) - Χαρακτηριστικά από το πεδίο του χρόνου, το πεδίο της συχνότητας, το - cepstral πεδίο, άλλα… -\item Γενικά MFCC + MPEG-7 audio descriptors + ίσως κάνα δυο ακόμα - είναι υπέρ-αρκετά -\item Τι μοντέλο/μοντέλα θα δοκιμάσουμε; (γιατί;) -\item Stack (python/R, τι βιβλιοθήκες/kits για τα μοντέλα;) -\end{enumerate} - - -Διάφορα features από τη βιβλιογραφία: - -M. Kashif Saeed Khan · Wasfi G. Al-Khatib -Machine-learning based classification of speech and music - -\begin{enumerate}[noitemsep] -\item Percentage of low energy frames -\item Roll off point -\item Spectral - flux -\item Zero crossing rate -\item Spectral centroid -\item 4Hz modulation - energy -\item Variance of the roll off point -\item Variance of the spectral - centroid -\item Variance of the spectral flux -\item Cepstral residual -\item Variance of the cepstral residual -\end{enumerate} - -\begin{enumerate}[noitemsep] -\item Cepstral coefficients -\item Delta cepstral coefficients -\item Harmonic coefficients -\item 4 Hz harmonic coefficients -\item Log energy -\end{enumerate} -\begin{enumerate}[noitemsep] -\item Line spectral frequencies (LSF) -\item Differential LSF, the successive differences of LSF -\item LSF with the zero crossing count of the filtered input signal -\item LSF with Linear prediction zero crossing ratio, the ratio of the - zero crossing count (ZCC) of the input and the ZCC of the output of - the LP analysis filter -\end{enumerate} - ---- - -Environmental sound recognition: a survey -sachin chachada - -\begin{enumerate}[noitemsep] -\item Zero crossings -\item Amplitude -\item Power -\item Auto-regression -\item Adaptive time frequency decomposition -\item Short time Fourier -\item Brightness -\item Tonality -\item Loudness -\item Pitch -\item Chroma -\item Harmonicity -\item Perceptual filter bank -\item Advanced auditory model -\item (Cepstral) auto-regression -\item Rythm -\item Phase space -\item Eigen domain -\end{enumerate} - ---- diff --git a/tex/5.our_implementation.tex b/tex/5.our_implementation.tex new file mode 100644 index 0000000..bc59d15 --- /dev/null +++ b/tex/5.our_implementation.tex @@ -0,0 +1,56 @@ +\section{Σχεδιασμός υλοποίησης} + +Μετά από μελέτη των προηγούμενων υλοποιήσεων και πειραματισμό με την εξαγωγή +διάφορων χαρακτηριστικών (features) στη Matlab αποφασίσαμε να ακολουθήσουμε την +παρακάτω πορεία αντιμετώπισης του προβλήματος. + +\subsection{Παραθυροποίηση} + +Για την παραθυροποίηση του σήματος θα γίνει χρήση Hamming παραθύρων με επικάλυψη +50\%. Η τελική χρονική διάρκεια των παραθύρων αναμένεται να είναι στο πεδίο του +μισού με ενός δευτερολέπτου (0.5-1 sec) και θα καθοριστεί στη πορεία μέσω trial +and error τεχνικών. + +\subsection{Χαρακτηριστικά} + +Τα χαρακτηριστικά που έχουν επιλεγεί είναι τα εξής: +\begin{enumerate}[noitemsep] +\item ΜFCCs (Mel Frequency Cepstral Coefficients) +\item Silence ratio +\item ZCR (Zero-Crossing Rate) +\item SC (Spectral Centroid) +\item SR (Spectral Rolloff) +\item SF (Specral Flux) +\item 4Hz modulation +\item Minimum Energy Density (MED) +\end{enumerate} + +Τα συγκεκριμένα χαρακτηριστικά εμφανίζουν τις μεγαλύτερες ακρίβειες στη +ταξινόμηση ενώ ταυτόχρονα έχουν μικρή ετεροσυσχέτιση. Άλλα χαρακτηριστικά μπορεί +να προστεθούν στη πορεία μετά από αναλυτικότερη έρευνα της βιβλιογραφείας. + +\subsection{Μοντέλο ταξινόμησης} + +Από την βιβλιογραφική έρευνα διαπιστώθηκε ότι οι διαφορετικές επιλογές +χαρακτηριστικών επηρεάζουν την ακρίβεια των μοντέλων. Έτσι με μία συγκεκριμένη +επιλογή χαρακτηριστικών μπορεί τα πιθανοτικά μοντέλα (Naive Bayes, GMM, κ.α.) να +είναι αποτελεσματικότερα των SVM ή των νευρωνικών. Αλλά με επιλογή διαφορετικών +features να ισχύει το αντίθετο. Για τον λόγο αυτό είναι απαραίτητο, αφού +αποφασιστεί το σετ των χαρακτηριστικών να γίνει εκπαίδευση και testing πολλών +μοντέλων πριν την τελική επιλογή. +Έτσι η πρόταση μας είναι η δοκιμή των περισσότερων ευραίως διαδεδομένων μοντέλων, +όπως: Decision trees, Bayesian networks, Gaussian mixture model, Hidden Markov +Model, SVMs, Artificial Neural networks, Genetic Algorithms. + +\subsection{Stack} + +Τόσο για την εξερεύνηση του χώρου των χαρακτηριστικών όσο και για την εκπαίδευση +και τον έλεγχο του μοντέλου θα χρησιμοποιηθεί το προγραμματιστικό περιβάλλον της +R. Το περιβάλλον αυτό είναι ειδικά σχεδιασμένο για στατιστικούς υπολογισμούς +(statistical computing) και αποτελεί (μαζί με την python) το στάνταρ της +βιομηχανίας μηχανικής μάθησης. Επίσης παρέχεται αφθονία βιβλιοθηκών έτοιμων +machine learning αλγορίθμων από τις οποίες θα χρησιμοποιηθούν μεταξύ άλλων οι: +'e1071', 'rpart', 'nnet', 'random forest'. + +Σε διάφορα στάδια της εργασίας ενδέχεται να χρησιμοποιηθεί και η γλώσσα Matlab +λόγω της ευκολίας που προσφέρει στους μαθηματικούς υπολογισμούς. diff --git a/tex/cites.bib b/tex/cites.bib index 590e0ba..6297121 100644 --- a/tex/cites.bib +++ b/tex/cites.bib @@ -1,3 +1,24 @@ +@article { robust, +autor = "Julien Pinquier, Jean-Luc Rouas and Régine André-Obrecht", +title = "ROBUST SPEECH/MUSIC CLASSIFICATION IN AUDIO DOCUMENTS", +journal = "7th International Conference on Spoken Language Processing [ICSLP2002]", +year = "2002" +} + +@article { mirex, +autor = "Nikolaos Tsipas, Lazaros Vrysis, Charalampos Dimoulas and George Papanikolaou", +title = "MIREX 2015: METHODS FOR SPEECH/MUSIC DETECTION AND CLASSIFICATION", +journal = "MIREX 2015 Conference", +year = "2015" +} + +@article { speech, +autor = "Baniriskhem K. Khonglah and S.R. Mahadeva Prasanna", +title = "Speech / music classification using speech-specific features", +journal = "Digital Signal Processing 48", +year = "2016" +} + @article{ cuckoo, author = "Wenlei Shi and Xinhai Fan", title = "Speech classification based on cuckoo algorithm and support @@ -14,6 +35,7 @@ journal = "2017 International Conference on Systems, Signals and Image Processin year = "2017" } +<<<<<<< HEAD @article { speech, author = "Baniriskhem K. Khonglah and S.R. Mahadeva Prasanna", title = "Speech / music classification using speech-specific features", @@ -43,3 +65,11 @@ year = "2017" } +======= +@article { hybrid, +autor = " Kun-Ching Wang, Yung-Ming Yang and Ying-Ru Yang", +title = "Speech/music discrimination using hybrid-based feature extraction for audio data indexing", +journal = " 2017 International Conference on System Science and Engineering (ICSSE)", +year = "2017" +} +>>>>>>> 7e0fde228c5c02314be28f60d4c807791c1e2763 diff --git a/tex/main.tex b/tex/main.tex index d2f1d97..2913ce3 100644 --- a/tex/main.tex +++ b/tex/main.tex @@ -23,10 +23,10 @@ \usepackage{array} \usepackage{cite} - \setmainfont{Baskerville} + \setmainfont{Lato} \setmonofont{Consolas} - \newfontfamily\titlefont{Helvetica} - \newfontfamily\headingfont{Helvetica Bold} + \newfontfamily\titlefont{Lato} + \newfontfamily\headingfont{Lato} \titleformat*{\section}{\large\headingfont} \titleformat*{\subsection}{\small\headingfont} @@ -37,7 +37,7 @@ Παραδοτεό 1} \author{Χριστίνα Θεοδωρίδου - 8055\\ Φρανκ Μπλάννινγκ - 6698\\ - Αποστόλης Φανάκης - xxxx} + Αποστόλης Φανάκης - 8261} \date{\today} \pagestyle{fancy} @@ -61,7 +61,7 @@ % \setlength{\headheight}{100pt} % } - \hypersetup{colorlinks=true, linkcolor=black ,urlcolor=blue} + \hypersetup{colorlinks=true, linkcolor=black, urlcolor=blue, citecolor=blue} \urlstyle{same} \begin{document} @@ -109,16 +109,10 @@ \newpage \input{1.intro.tex} - - - \input{2.what.tex} - \input{3.why.tex} - \input{4.others.tex} - \input{5.how.tex} - \input{6.etc.tex} + \input{4.past_implementations.tex} + \input{5.our_implementation.tex} \bibliography{cites}{} \bibliographystyle{plain} - \end{document} \ No newline at end of file