Browse Source

preprocessing and evaluation section added - needs fixes

master
Christina Theodoridou 6 years ago
parent
commit
3ae9943bdf
  1. 95
      presentation/features_and_preprocessing.tex
  2. BIN
      presentation/main.pdf
  3. 1
      presentation/main.tex
  4. 48
      presentation/models.tex

95
presentation/features_and_preprocessing.tex

@ -1,12 +1,12 @@
\section{Η υλοποίησή μας}
\section{Εργαλεία που χρησιμοποιήθηκαν}
Η υλοποίησή αναπτύχθηκε σε γλώσσα Python και χρησιμοποιήθηκαν πληθώρα βιβλιοθηκών όπως η essentia για την εξαγωγή χαρακτηριστικών, η sklearn για την προεπεξεργασία δεδομένων
ενώ στην εκπαίδευση των μοντέλων χρησιμοποιήθηκε η numpy. Χρησιμοποιήθηκε επίσης η seaborn για την εξαγωγή διαγραμμάτων και την οπτικοποίηση των χαρακτηριστικών. Παράλληλα, σε συνδυασμό με όλες αυτές χρησιμοποιήθηκαν και άλλες βιβλιοθήκες όπως η pandas, η matplotlib, η multiprocessing, η οs, η pyaudio κα. Για την εκπαίδευση, δοκιμάστηκαν τα μοντέλα svm, decision trees, multilayer perceptron, Naive bayes και random forest, τα οποία θα αναπτυχθούν στα επόμενα κεφάλαια. Το dataset που χρησιμοποιήθηκε για την εκπαίδευση του μοντέλου είναι το προτινόμενο GTZAN dataset \footnote{http://opihi.cs.uvic.ca/sound/music\_speech.tar.gz}, το οποίο αποτελείται απο 120 αρχεία διάρκειας 30 δευτερολέπτων. Κάθε κλάση (μουσική/φωνή) αποτελείται από 60 αρχεία ενώ δεν υπάρχουν αρχεία που να περιέχουν και τις δύο κλάσεις. Όλα τα δείγματα είναι στα 22050 Hz, Mono 16-bit και σε αρχεία μορφής .wav. Τέλος, χρησιμοποιήθηκε 4-fold cross validation για την εκτίμηση της απόδοσης του μοντέλου.
ενώ στην εκπαίδευση των μοντέλων χρησιμοποιήθηκε η numpy. Χρησιμοποιήθηκε επίσης η seaborn για την εξαγωγή διαγραμμάτων και την οπτικοποίηση των χαρακτηριστικών. Παράλληλα, σε συνδυασμό με όλες αυτές χρησιμοποιήθηκαν και άλλες βιβλιοθήκες όπως η pandas, η matplotlib, η multiprocessing, η οs, η pyaudio κα. Για την εκπαίδευση, δοκιμάστηκαν τα μοντέλα svm, decision trees, multilayer perceptron, Naive bayes και random forest, τα οποία θα αναπτυχθούν στα επόμενα κεφάλαια. Το dataset που χρησιμοποιήθηκε για την εκπαίδευση του μοντέλου είναι το προτινόμενο GTZAN dataset \footnote{http://opihi.cs.uvic.ca/sound/music\_speech.tar.gz}, το οποίο αποτελείται απο 120 αρχεία διάρκειας 30 δευτερολέπτων. Κάθε κλάση (μουσική/φωνή) αποτελείται από 60 αρχεία ενώ δεν υπάρχουν αρχεία που να περιέχουν και τις δύο κλάσεις. Όλα τα δείγματα είναι στα 22050 Hz, Mono 16-bit και σε αρχεία μορφής .wav.
\section{Χαρακτηριστικά και προεπεξεργασία δεδομένων}
\section{Χαρακτηριστικά}
Για την εξαγωγή των χαρακτηριστικών που φαίνονται στο από τα αρχεία ήχουν του σετ δεδομένων, αρχικά τμηματήσαμε κάθε σήμα αρχείου σε frames με μέγεθος 6144 δείγματα, το οποίο προέκυψε μετά από επαναλαμβανόμενες δοκιμές.
Έπειτα, τα frames αυτά, παραθυροποιήθηκαν με παράθυρο τύπου Hamming, ίσου μεγέθους. Στη συνέχεια, έγινε η εξαγωγή των χαρακτηριστικών στο πεδίο του χρόνου, καθώς και στο πεδίο της συχνότητας.Παράλληλα, έγινε και η εξαγωγή των συντελεστών MFCC έτσι ώστε να είναι εφικτός ο υπολογισμός της διαμόρφωσης της ενέργειας σήματος στα 4 Ηz. Τα χαρακτηριστικά που εξήχθηκαν είναι 27 και θα αναλυθούν στη συνέχεια. Ως προεπεξεργασία, τα δεδομένα κλιμακοποιήθηκαν έτσι ώστε να έχουν μέσο 0 και τυπική απόκλιση ίση με 1 για κάθε ένα. Τέλος, δίνεται η δυνατότητα στον κώδικά να εφαρμοστεί και η μέθοδος Principal Component Analysis - PCA,αν αυτή είναι αναγκαία, έτσι ώστε να μειωθούν οι τελικές διαστάσεις των χαρακτηριστικών. Στην συγκεκριμένη υλοποίηση, μειώνονται οι διαστάσεις από 27 σε 10, έτσι ώστε η διαφορά να είναι αξιοσημείωτη και να ελεγθεί τι γίνεται σε αυτήν την περίπτωση με την απόδοση.
Έπειτα, τα frames αυτά, παραθυροποιήθηκαν με παράθυρο τύπου Hamming, ίσου μεγέθους. Στη συνέχεια, έγινε η εξαγωγή των χαρακτηριστικών στο πεδίο του χρόνου, καθώς και στο πεδίο της συχνότητας.Παράλληλα, έγινε και η εξαγωγή των συντελεστών MFCC έτσι ώστε να είναι εφικτός ο υπολογισμός της διαμόρφωσης της ενέργειας σήματος στα 4 Ηz. Τα χαρακτηριστικά που εξήχθηκαν, τελικά, είναι τα παρακάτω 27 και θα αναλυθούν στη συνέχεια.
%pinakas me arxikes kai telikes diastaseis xarakthristikwn
% \begin{center}
@ -74,7 +74,7 @@ Qassim University, Saudi Arabia },είναι μία μετρική που χρη
\subsection{Flatness}
To flatness ή αλλιώς επιπεδότητα του ήχου, είναι μία μετρική η οποία χρησιμοποιείται στην ανάλυση ψηφιακών σημάτων για να χαρακτηρίσει το φάσμα ενός ηχητικού σήματος. Συνήθως μετριέται σε decibels(DB), και αποτελεί έναν τρόπο να ποσοτικοποιήσει το πόσο κοντά είναι ένας ήχος σε θόρυβο και πόσο σε τονικότητα. \footnote{https://en.wikipedia.org/wiki/Spectral\_flatness} Η αναφορά στην τονικότητα γίνεται με την έννοια του αρίθμού των κορυφών σε ένα φάσμα συχνοτήτων που θα υπήρχαν λόγω των πολλαπλών ημιτόνων σε αντίθεση με το επίπεδο φάσμα του λευκού θορύβου. Τα μουσικά σήματα, τείνουν να αποτελούνται από πολλαπλούς τόνους, ο καθένας με την δική του κατανομή αρμονικών ενώ στην φωνή δεν εμφανίζεται αυτό.
To flatness ή αλλιώς επιπεδότητα του ήχου, είναι μία μετρική η οποία χρησιμοποιείται στην ανάλυση ψηφιακών σημάτων για να χαρακτηρίσει το φάσμα ενός ηχητικού σήματος. Συνήθως μετριέται σε decibels (DB), και αποτελεί έναν τρόπο να ποσοτικοποιήσει το πόσο κοντά είναι ένας ήχος σε θόρυβο και πόσο σε τονικότητα. \footnote{https://en.wikipedia.org/wiki/Spectral\_flatness} Η αναφορά στην τονικότητα γίνεται με την έννοια του αρίθμού των κορυφών σε ένα φάσμα συχνοτήτων που θα υπήρχαν λόγω των πολλαπλών ημιτόνων σε αντίθεση με το επίπεδο φάσμα του λευκού θορύβου. Τα μουσικά σήματα, τείνουν να αποτελούνται από πολλαπλούς τόνους, ο καθένας με την δική του κατανομή αρμονικών ενώ στην φωνή δεν εμφανίζεται αυτό.
\subsection{Perceptual attack time}
@ -115,44 +115,69 @@ To flatness ή αλλιώς επιπεδότητα του ήχου, είναι
\end{figure}
\section{Προεπεξεργασία}
Για την προεπεξεργασία των δεδομένων, δοκιμάστηκαν διάφορες τεχνικές έτσι ώστε να βρεθεί ο βέλτιστος συνδυασμός μεθόδων. Οι μέθοδοι που δοκιμάστηκαν είναι οι κλιμακοποίηση, κανονικοποίηση, μείωση μεταβλητών (PCA?) και ο συνδυασμός τους μαζί με κάποιες παραμέτρους. Τα αποτελέσματα παρουσιάζονται στον πίνακα \ref{table:tab}
Στην κλιμακοποίηση όλα τα χαρακτηριστικά έχουν μέσο 0 και απόκλιση ίση με 1 ενώ στην κανονικοποίηση, μετατρέπονται οι τιμές τους ώστε να ανήκουν στο εύρος [0,1]
\begin{table}[H]
\begin{tabular}{|l|l|l|}
\hline
\textbf{Μέθοδος} & \textbf{Τρόπος προεπεξεργασίας} & \textbf{Ακρίβεια} \\ \hline
& Χωρίς προεπεξεργασία & 0.49 \\ \cline{2-3}
& Κλιμακοποίηση & \textbf{0.89} \\ \cline{2-3}
& Κανονικοποίηση & 0.49 \\ \cline{2-3}
& Κλιμακοποίηση και μετά κανονικοποίηση & 0.78 \\ \cline{2-3}
& Μείωση μεταβλητών και κλιμακοποίηση & 0.88 \\ \cline{2-3}
& perReduced Dataset(?) και κλιμακοποίηση & 0.81 \\ \cline{2-3}
& Μείωση μεταβλητών, κλιμακοποίηση και gamma=scale & 0.88 \\ \cline{2-3}
& Μείωση μεταβλητών, κλιμακοποίηση και sigmoid kernel & 0.58 \\ \cline{2-3}
\multirow{-9}{*}{SVM} & Μείωση μεταβλητών, κλιμακοποίηση και poly kernel dgr & 0.84 \\ \hline
Decision Tree & Μείωση μεταβλητών και κλιμακοποίηση & 0.75 \\ \hline
Multi-Layer Perceptron & Μείωση μεταβλητών, κλιμακοποίηση και rndState = 2 & 0.86 \\ \hline
Naive Bayes & Μείωση μεταβλητών και κλιμακοποίηση & 0.65 \\ \hline
\end{tabular}
\caption{Τρόποι προεπεξεργασίας για διάφορα μοντέλα}
\label{table:tab}
\end{table}
Eπιπλέον, ελέγξαμε όλα τα χαρακτηριστικά ένα προς ένα έτσι ώστε να δούμε εάν υπάρχει τρόπος να φτάσουμε την πλήρη ακρίβεια του μοντέλου μας με λιγότερα ή να φτάσουμε αρκετά κοντά ίσως ακόμα και με μόνο ένα χαρακτηριστικό.
Tα αποτελέσματα έδειξαν ότι κανένα χαρακτηριστικό από μόνο του δεν είναι ικανό να δώσει ικανοποιητικό ποσοστό ακρίβειας στο μοντέλο. Αν πάρουμε το καλύτερο σε όρους ακρίβειας και το δοκιμάσουμε σε συνδυασμό με τα επόμενα καλύτερα, φαίνεται ότι η ακρίβεια αυξάνεται λίγο αλλά όχι αρκετά.
Τέλος, αν επαναληφθεί ακόμα μία φορά η διαδικασία, φαίνεται ότι έχουμε και πάλι μια μικρή αύξηση στην ακρίβεια, η οποία όμως είναι αρκετά μακρυά από την ακρίβεια που επιτυγχάνεται εν τέλει.
\begin{table}[H]
\begin{tabular}{llll}
{\ul \textbf{Accuracy}} & {\ul \textbf{Individually}} & {\ul \textbf{with best 1}} & {\ul \textbf{with best 2}} \\
4Hz Mod & 0.58 & 0.66 & 0.73 \\
Flat & 0.63 & 0.71 & 0.75 \\
HFC & 0.58 & 0.65 & 0.72 \\
LAtt & 0.62 & 0.71 & 0.75 \\
SC & 0.59 & 0.66 & 0.73 \\
Scomp & 0.57 & 0.66 & 0.73 \\
SDec & 0.63 & 0.65 & 0.72 \\
SEFlat & 0.51 & 0.65 & 0.72 \\
SF & 0.55 & 0.69 & 0.75 \\
SFlat & 0.57 & 0.66 & 0.72 \\
SLAtt & 0.63 & 0.71 & 0.74 \\
SR & 0.60 & 0.66 & 0.72 \\
SSDec & \textbf{0.65} & - & - \\
ZCR & 0.58 & 0.65 & 0.72 \\
mfcc0 & 0.61 & 0.66 & 0.73 \\
mfcc1 & 0.58 & 0.67 & 0.73 \\
mfcc2 & 0.52 & 0.66 & 0.73 \\
mfcc3 & 0.56 & 0.69 & 0.76 \\
mfcc4 & 0.54 & 0.67 & 0.74 \\
mfcc5 & 0.57 & 0.70 & 0.75 \\
mfcc6 & 0.61 & \textbf{0.72} & - \\
mfcc7 & 0.57 & 0.68 & 0.75 \\
mfcc8 & 0.55 & 0.67 & 0.74 \\
mfcc9 & 0.54 & 0.67 & 0.73 \\
mfcc10 & 0.54 & 0.65 & 0.73 \\
mfcc11 & 0.51 & 0.66 & 0.73 \\
mfcc12 & 0.54 & 0.67 & 0.73
\begin{tabular}{|l|l|l|l|}
\hline
\textbf{Accuracy} & \textbf{Individually} & \textbf{with best 1} & \textbf{with best 2} \\\hline
4Hz Mod & 0.58 & 0.66 & 0.73 \\\hline
Flat & 0.63 & 0.71 & 0.75 \\\hline
HFC & 0.58 & 0.65 & 0.72 \\\hline
LAtt & 0.62 & 0.71 & 0.75 \\\hline
SC & 0.59 & 0.66 & 0.73 \\\hline
Scomp & 0.57 & 0.66 & 0.73 \\\hline
SDec & 0.63 & 0.65 & 0.72 \\\hline
SEFlat & 0.51 & 0.65 & 0.72 \\\hline
SF & 0.55 & 0.69 & 0.75 \\\hline
SFlat & 0.57 & 0.66 & 0.72 \\\hline
SLAtt & 0.63 & 0.71 & 0.74 \\\hline
SR & 0.60 & 0.66 & 0.72 \\\hline
SSDec & \textbf{0.65} & - & - \\\hline
ZCR & 0.58 & 0.65 & 0.72 \\\hline
mfcc0 & 0.61 & 0.66 & 0.73 \\\hline
mfcc1 & 0.58 & 0.67 & 0.73 \\\hline
mfcc2 & 0.52 & 0.66 & 0.73 \\\hline
mfcc3 & 0.56 & 0.69 & 0.76 \\\hline
mfcc4 & 0.54 & 0.67 & 0.74 \\\hline
mfcc5 & 0.57 & 0.70 & 0.75 \\\hline
mfcc6 & 0.61 & \textbf{0.72} & - \\\hline
mfcc7 & 0.57 & 0.68 & 0.75 \\\hline
mfcc8 & 0.55 & 0.67 & 0.74 \\\hline
mfcc9 & 0.54 & 0.67 & 0.73 \\\hline
mfcc10 & 0.54 & 0.65 & 0.73 \\\hline
mfcc11 & 0.51 & 0.66 & 0.73 \\\hline
mfcc12 & 0.54 & 0.67 & 0.73 \\\hline
\end{tabular}
\caption{Ακρίβεια μεμονωμένων χαρακτηριστικών και συνδυασμών τους}
\end{table}
%Διαγραμμα features-απόδοσης;
Άρα, είναι προφανές ότι δεν είναι κάποιο συγκεκριμένο χαρακτηριστικό το οποίο ευθύνεται για το μεγαλύτερο ποσοστό της ακρίβειας του μοντέλου αλλά ο συνδυασμός τους.

BIN
presentation/main.pdf

Binary file not shown.

1
presentation/main.tex

@ -14,6 +14,7 @@
\usepackage{hyperref}
\usepackage{enumitem}
\usepackage{cite}
\usepackage{multirow}
\usepackage{graphicx}
\usepackage[normalem]{ulem}
\usepackage{float}

48
presentation/models.tex

@ -1,6 +1,6 @@
\section{Machine Learning Model}
Στη συνέχεια αναφέρεται συνοπτικά η λειτουργία των μοντέλων που χρησιμοποιήθηκαν για την εκπαίδευση των δεδομένων(Οι ορισμοί είναι σύμφωνα με την ιστοσελίδα της analytics vidhya \footnote{https://www.analyticsvidhya.com/}) ενώ στο τέλος παρατίθεται ένας πίνακας στο οποίο φαίνονται οι διάφορες μέθοδοι και οι ακρίβειες που επιτεύχθησαν.
Στη συνέχεια αναφέρεται συνοπτικά η λειτουργία των μοντέλων που χρησιμοποιήθηκαν για την εκπαίδευση των δεδομένων (Οι ορισμοί είναι σύμφωνα με την ιστοσελίδα της analytics vidhya \footnote{https://www.analyticsvidhya.com/}) ενώ στο τέλος παρατίθεται ένας πίνακας στο οποίο φαίνονται οι διάφορες μέθοδοι και οι ακρίβειες που επιτεύχθησαν.
\subsection{Support Vector Machine - SVM}
@ -12,11 +12,11 @@
\subsection{Multilayer Perceptron}
Ένα perceptron, μπορεί να κατανοηθεί ως οτιδήποτε δέχεται πολλαπλές εισόδους και παράγει μία έξοδο. Ο τρόπος όμως με τον οποίο συσχετίζεται η είσοδος την έξοδο εμφανίζει ενδιαφέρον. Αρχικά σε κάθε είσοδο προστίθεται ένα βάρος, το οποίο σημαίνει ουσιαστικά το πόσο σημασία να δοθεί σε κάθε μία ενώ στην έξοδο ένα κατώφλι. Τέλος, προστίθεται και μία πόλωση η οποία μπορεί να θεωηθεί ως το ποσό ευελιξίας του perceptron. Για λόγους απόδοσης, χρησιμοποιούνται πολλά perceptrons σε layers, τα οποία είναι πλήρως συνδεδεμένα μεταξύ τους.
Ένα perceptron, μπορεί να κατανοηθεί ως οτιδήποτε δέχεται πολλαπλές εισόδους και παράγει μία έξοδο. Ο τρόπος όμως με τον οποίο συσχετίζεται η είσοδος την έξοδο εμφανίζει ενδιαφέρον. Αρχικά σε κάθε είσοδο προστίθεται ένα βάρος, το οποίο σημαίνει ουσιαστικά το πόσο σημασία να δοθεί σε κάθε μία ενώ στην έξοδο ένα κατώφλι.Τέλος, προστίθεται και μία πόλωση η οποία μπορεί να θεωηθεί ως το ποσό ευελιξίας του perceptron.Για λόγους απόδοσης, χρησιμοποιούνται πολλά perceptrons σε layers, τα οποία είναι πλήρως συνδεδεμένα μεταξύ τους.
\subsection{Naive Bayes}
Είναι μία τεχνική ταξινόμησης η οποία βασίζεται στο θεώρημα του Bayes \footnote{https://en.wikipedia.org/wiki/Bayes\%27\_theorem}με την υπόθεση ανεξαρτησίας ανάμεσα στους προβλέπτες. Με απλά λόγια, ο ταξινομητής Naive Bayes, υποθέτει ότι η ύπαρξη ενός συγκεκριμένου feature σε μια κλάση είναι ασυσχέτιστη με την υπάρξη οποιουδήποτε άλλου.
Είναι μία τεχνική ταξινόμησης η οποία βασίζεται στο θεώρημα του Bayes\footnote{https://en.wikipedia.org/wiki/Bayes\%27\_theorem}με την υπόθεση ανεξαρτησίας ανάμεσα στους προβλέπτες. Με απλά λόγια, ο ταξινομητής Naive Bayes, υποθέτει ότι η ύπαρξη ενός συγκεκριμένου feature σε μια κλάση είναι ασυσχέτιστη με την υπάρξη οποιουδήποτε άλλου.
\subsection{Random Forest}
@ -37,24 +37,48 @@ O Random Forest είναι ένας αλγόριθμος τύπου Bootstrap,
% \end{table}
\section{Αξιολόγηση μοντέλων}
Για την αξιολόγηση των μοντέλων, δοκιμάστηκαν πολλοί τρόποι για τις διάφορες μεθόδους ταξινόμησης μέχρι να βρεθεί ο βέλτιστος. Στον πίνακα \ref{table:tab1} φαίνονται ενδεικτικά για καποιους ταξινομητές οι τρόποι αξιολόγησης που δοκιμάστηκαν και οι αντίστοιχες ακρίβειες τους.
\begin{table}[H]
\begin{tabular}{|l|l|l|}
\hline
\textbf{Μέθοδος} & \textbf{Τρόπος αξιολόγησης} & \textbf{Ακρίβεια} \\ \hline
\multirow{4}{*}{SVM} & Κλιμακοποίηση + τυχαίο split & 0.94 \\ \cline{2-3}
& Κλιμακοποίηση + k-fold cross validation & \textbf{0.96} (best fold) \\ \cline{2-3}
& Κλιμακοποίηση + PCA + τυχαίο split & 0.92 \\ \cline{2-3}
& Κλιμακοποίηση + PCA + k-fold cross validation & 0.93(best fold) \\ \hline
\multirow{2}{*}{Random Forest} & Κλιμακοποίηση + k-fold cross validation & 0.95(best fold) \\ \cline{2-3}
& Κλιμακοποίηση + PCA + k-fold cross validation & 0.94(best fold) \\ \hline
\end{tabular}
\caption{Τρόποι αξιολόγησης για διάφορα μοντέλα}
\label{table:tab1}
\end{table}
Είναι φανερό ότι η καλύτερη ακρίβεια που επιτυγχάνεται είναι 0.96 με κλιμακοποίηση και k-fold cross validation. Συνεπώς, επιλέχθηκαν για την τελική υλοποίηση ενώ χρησιμοποιήθηκε για το k-fold cross validation, k=4.
\section{Συμπεράσματα}
Παρατίθεται στη συνέχεια ο πίνακας στον οποίο φαίνονται οι ακρίβειες των μοντέλων για την ταξινόμηση.
\begin{table}[H]
\begin{tabular}{ll}
{\ul \textbf{Method}} & {\ul \textbf{Αccuracy}} \\
SVM & \textbf{96.06} \\
Decision Tree & 86.51 \\
MultiLayer Perceptron & 90.34 \\
Naive Bayes & 70.25 \\
Random Forest & 95.49 \\
SVM (PCA(10)) & 90.02 \\
\begin{tabular}{|l|l|}
\hline
\textbf{Method} & \textbf{Αccuracy}\\\hline
SVM & \textbf{96.06} \\\hline
Decision Tree & 86.51 \\\hline
MultiLayer Perceptron & 90.34 \\\hline
Naive Bayes & 70.25 \\\hline
Random Forest & 95.49 \\\hline
SVM (PCA(10)) & 90.02 \\\hline
\end{tabular}
\caption{Ακρίβεια ταξινομητών}
\end{table}
Όπως φαίνεται, η καλύτερες μέθοδοι είναι τα Support Vector Machines και ο αλγόριθμος Random Forest με 96\% και 95\% ακρίβεια αντίστοιχα, ενώ κοντά βρίσκεται και ο αλγόριθμος του Multilayer perceptron. Παράλληλα, βλέπουμε ότι ο χειρότερος είναι ο Naive Bayes με περίπουτ 70\% ακρίβεια. Τέλος, η εφαρμογή του PCA είναι φανερό ότι μείωσε αρκετά την ακρίβεια του μοντέλου και για αυτόν τον λόγο συνίσταται μόνο στην περίπτωση που υπάρχει κάποιος χρονικός περιορισμός καθώς σε αυτήν την περίπτωση, λόγω της μείωσης των χαρακτηριστικών από 27 σε 10, το μοντέλο θα εκτελείται πιο γρήγορα.
Όπως φαίνεται, η καλύτερες μέθοδοι είναι τα Support Vector Machines και ο αλγόριθμος Random Forest με 96\% και 95\% ακρίβεια αντίστοιχα, ενώ κοντά βρίσκεται και ο αλγόριθμος του Multilayer perceptron. Παράλληλα, βλέπουμε ότι ο χειρότερος είναι ο Naive Bayes με περίπουτ 70\% ακρίβεια.Τέλος, η εφαρμογή του PCA είναι φανερό ότι μείωσε αρκετά την ακρίβεια του μοντέλου και για αυτόν τον λόγο συνίσταται μόνο στην περίπτωση που υπάρχει κάποιος χρονικός περιορισμός καθώς σε αυτήν την περίπτωση, λόγω της μείωσης των χαρακτηριστικών από 27 σε 10, το μοντέλο θα εκτελείται πιο γρήγορα.
%αναλυση γενικα για τον κωδικα (διαφανειες wrapper και execution} για τις συναρτησεις 4hz modulation, random forest, kFCrossValid
Loading…
Cancel
Save