Semester assignment for the course "Multimedia systems and virtual reality" of THMMY in AUTH university.
You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
 
 

311 lines
36 KiB

% !TeX spellcheck = el_GR-en_US
\documentclass[11pt]{article}
\usepackage{geometry}
\geometry{a4paper, top=2.5cm, bottom=2.5cm, left=2.2cm,
right=2.2cm}
\usepackage{fontspec}
% \usepackage{titlesec}
% \usepackage{titling}
\usepackage{float}
\usepackage{caption}
\usepackage{subcaption}
\usepackage[nonumeralsign]{xgreek}
\usepackage{fancyhdr}
\usepackage{hyperref}
\usepackage{enumitem}
\usepackage{cite}
\usepackage{graphicx}
\usepackage[normalem]{ulem}
\useunder{\uline}{\ul}{}
\usepackage{amsmath}
\usepackage{float}
\setmainfont{Lato}
\setmonofont{Consolas}
\title{Συστήματα Πολυμέσων και Εικονική Πραγματικότητα\\
Εργασία 2018-2019}
\author{Χριστίνα Θεοδωρίδου - 8055\\
Απόστολος Φανάκης - 8261}
\date{\today}
\pagestyle{fancy}
\lhead{Συστήματα Πολυμέσων και Εικονική Πραγματικότητα}
\rhead{~}
\renewcommand{\headrulewidth}{0.4pt}
\renewcommand{\footrulewidth}{0.4pt}
\setlength{\headheight}{14pt}
\hypersetup{colorlinks=true, linkcolor=black, urlcolor=blue, citecolor=blue}
\urlstyle{same}
\begin{document}
\maketitle
\tableofcontents
\newpage
\section{Εισαγωγή}
Στην εργασία αυτή παρουσιάζεται μια απλοποιημένη εκδοχή του κωδικοποιητή και αποκωδικοποιητή AAC. Στην παρούσα αναφορά, περιγράφεται ο τρόπος υλοποίησης των βαθμίδων στο MATLAB και ο τρόπος χρήσης των συναρτήσεων από τις οποίες αποτελούνται, μαζί με κάποια ενδεικτικά αποτελέσματα. Το αρχείο που χρησιμοποιήθηκε για τα πειράματα είναι το δοσμένο 'LicorDeCalandraca.wav', το οποίο είναι δειγματοληπτημένο στα 48KHz και έχει 2 κανάλια. Τέλος, κατά την εκτέλεση των προγραμμάτων χρησιμοποιούνται οι συναρτήσεις mdct4 και imdct4 οι οποίες έχουν ληφθεί από προτεινόμενη ιστοσελίδα. \footnote{http://www.ee.columbia.edu/\~marios/mdct/mdct\_giraffe.html}
\section{1o Επίπεδο}
Στο πρώτο επίπεδο υλοποιήσαμε τις βαθμίδες Sequence Segmentation Control και Filterbank. Επίσης, υλοποιήθηκαν και οι συναρτήσεις AACoder1, η οποία εκτελεί τις προηγούμενες ρουτίνες και αποθηκεύει τα αποτελέσματα σε ένα struct, και η αντίστροφή της iAACoder.
\subsection{\texttt{function frameType = SSC(frameT, nextFrameT, prevFrameType)}}
Η πρώτη συνάρτηση που υλοποιήθηκε αφορά την βαθμίδα Sequence Segmentation Control, και σκοπός της είναι να καθορίσει τον τύπο ενός frame. Το πρώτο όρισμά της είναι ένας πίνακας 2048x2 , που περιέχει 2 κανάλια ήχου στο χρόνο, του frame του οποίου τον τύπο θέλουμε να διαπιστώσουμε. Αντίστοιχα, το δεύτερο όρισμα περιέχει τα κανάλια του του αμέσως επόμενου frame ενώ το τρίτο, αφορά τον τύπο του αμέσως προηγούμενου frame, ο οποίος μπορεί να πάρει 1 από τις αλφαριθμητικές τιμές ``OLS'' (ONLY\_LONG\_SEQUENCE), ``LSS'' (LONG\_START\_SEQUENCE), ``ESH'' (EIGHT\_SHORT\_SEQUENCE) και ``LPS'' (LONG\_STOP\_SEQUENCE) , ανάλογα το περιεχόμενο του.
Tα frame τα οποία είναι στατικά χαρακτηρίζονται ως 'OLS' ενώ τα frames με διακυμάνσεις ως 'ESH'. Τα μεταβατικά παράθυρα μεταξύ αυτών των κύριων κατηγοριών είναι τα 'LSS' και 'LPS'. Ο τρόπος με τον οποίον γίνεται η κατηγοριοποίηση περιγράφεται αναλυτικά στο πρότυπο του AAC. Γενικά, με τα βήματα που ακολουθούνται εξάγεται αρχικά ένα συμπέρασμα για κάθε κανάλι ξεχωριστά και έπειτα με μια συνδυαστική λογική που επίσης περιγράφεται στο πρότυπο, γίνεται ο συνδυασμός των αποφάσεων για να προκύψει ο τελικός τύπος του παραθύρου.
% εξετάζεται το αμέσως επόμενο frame, δηλαδή το frame $i+1$. Τα βήματα που ακολουθούνται είναι τα εξής:
% \begin{enumerate}
% \item Τα δείγματά του, περνούν από το υψιπερατό φίλτρο
% $ H(z) = \frac{0.7548 - 0.7548z^{-1}}{1- 0.5095z^{-1}}$, με την βοήθεια της συνάρτησης filter.
% \item Για κάθε μία από τις 8 υποπεριοχές του (subframes), υπολογίζεται η ενέργειά τους $s_{l}^{2}$, $(l = 0,..,7)$ , δηλαδή το άθροισμα των τετραγώνων των δειγμάτων τους, και αποθηκεύεται στη μεταβλητή energyEstimations.
% \item Υπολογίζονται τα attack values, $ds_{l}^{2} = \frac{s_{l}^{2}}{(1/l) \cdot \Sigma_{k=0}^{l-1} s_{k}^{2}}$ και αποθηκεύονται στη μεταβλητή energyRatios.
% \item Το frame $i+1$ θα είναι ``ESH'' εάν ισχύουν ταυτόχρονα:
% \begin{itemize}
% \item $s_{l}^{2} > 10^{-3}$
% \item $ds_{l}^{2} > 10$
% \end{itemize}
% \end{enumerate}
% Ανάλογα με την ισχύ ή όχι των παραπάνω συνθηκών και δεδομένου του τύπου του προηγούμενου frame, είναι δυνατή η απόφαση του τύπου του frame i, με τη λογική που παρουσιάζεται στο πρότυπο και την εκφώνηση της εργασίας. Για αυτό τον λόγο, στη συνέχεια, συγκρίνονται οι τύποι του επόμενου και του προηγούμενου frame και λαμβάνεται η απόφαση για τον τύπου του κάθε καναλιού. Για την απόφαση του τύπου ολόκληρου του frame, είναι απαραίτητος ο συνδυασμός των αποφάσεων των τύπων των δύο καναλιών σύμφωνα και πάλι με δοθείσα λογική.
\subsection{\texttt{function frameF = filterbank(frameT, frameType, winType)}}
Η συνάρτηση αυτή αφορά την βαθμίδα filterbank και έχει ως ορίσματα ένα frame ήχου 2048x2, τον τύπο του καθώς και τον τύπο παραθύρου που θα χρησιμοποιηθεί. Η δε έξοδός του, είναι η αναπαράσταση του ίδιου του frame στο πεδίο της συχνότητας, σε όρους MDCT. Στην περίπτωση που το frame είναι τύπου ``ESH'', η συνάρτηση θα επιστρέψει 8 υποπίνακες 128x2 με τους συντελεστές του MDCT, έναν για κάθε subframe ενώ σε άλλη περίπτωση, θα επιστρέψει έναν πίνακα 1024x2.
Για να γίνει η μετάβαση αυτή ακολουθείται η διαδικασία που περιγράφεται στο πρότυπο. Αρχικά, στην υλοποιημένη συνάρτηση, δημιουργούνται οι τύποι των παραθύρων ``KBD'' και ``SIN'' που θα χρησιμοποιηθούν αργότερα, σε εκδοχές short και long για subframes και frames μήκους 256 και 2048 αντίστοιχα. Στη συνέχεια, σύμφωνα με το frameType και winType που δίνονται, εφαρμόζεται στο frameT το κατάλληλο παράθυρο, με τον τρόπο που υποδεικνύεται στην εκφώνηση και καλείται η συνάρτηση mdct4 \footnote{http://www.ee.columbia.edu/\~marios/mdct/mdct\_giraffe.html} έτσι ώστε να ληφθούν οι συντελεστές MDCT.
Στην περίπτωση που ο τύπος του frame είναι ``ESH'', πρώτα το χωρίζουμε σε 8 subframes και έπειτα εφαρμόζουμε την παραθυροποίηση και τον MDCT.
\subsection{\texttt{function frameT = iFilterbank(frameF, frameType, winType)}}
Η συνάρτηση της iFilterbank, αποτελεί την αντίστροφη της filterbank. Δέχεται, δηλαδή, σαν όρισμα τους συντελεστές MDCT ενός frame, τον τύπο του και τον τύπο του παραθύρου που θα χρησιμοποιηθεί ενώ ως έξοδο, επιστρέφει έναν πίνακα 2048x2 που αντιστοιχεί στο frame στο πεδίο του χρόνου.
Αντίστοιχα με την filterbank, πρώτα ορίζονται τα παράθυρα ``KBD'' και ``SIN''. Πριν εφαρμοστούν, όμως, κατάλληλα στο frame, εφαρμόζουμε την συνάρτηση imdct4 για να επιστρέψουμε στο πεδίο του χρόνου. Στην περίπτωση που ο τύπος τους είναι ``ESH'', πρώτα εφαρμόζεται η συνάρτηση imdct4 σε όλα τα subframes, έπειτα γίνεται η παραθυροποίησή τους και στο τέλος αθροίζονται με κατάλληλο τρόπο ώστε στην έξοδο να επιστραφεί ολόκληρο το frame.
\subsection{\texttt{function AACSeq1 = AACoder1(fNameIn)}}
Για να εφαρμοστούν οι παραπάνω βαθμίδες, υλοποιήσαμε τον κωδικοποιητή AACoder1, ο οποίος παίρνει σαν μοναδικό όρισμα το path του WAV αρχείου που επιθυμούμε να κωδικοποιήσουμε, το οποίο πρέπει να είναι δειγματοληπτημένο στα 48KHz και να έχει 2 κανάλια, ενώ σαν έξοδο επιστρέφει ένα struct με διάσταση k x 1, όπου k, ο αριθμός των frames του αρχείου.
Κατά την διάρκεια της κωδικοποίησης θεωρούμε έναν σταθερό τύπο παραθύρου, στην περίπτωσή μας το ``KBD''. Αφού διαβαστεί το αρχείο, το χωρίζουμε σε επικαλυπτόμενα frames των 2048 δειγμάτων, με επικάλυψη 50\%, τα τροφοδοτούμε στην συνάρτηση SSC για να βρούμε τους τύπους τους, και αποθηκεύουμε τα αποτελέσματα στη μεταβλητή frameTypes. Απαιτείται ξεχωριστή προσέγγιση για την εύρεση των τύπων των οριακών frames. Για το πρώτο απλά αρχικοποιούμε τον τύπο του ως ``OLS''. Οποιοδήποτε τύπο και να επιλέγαμε δεν έχει σημασία γιατί η εξάρτηση από τον τύπο του πρώτου frame εξαλείφεται. Για το τελευταίο, διαβάζουμε την τιμή του δεύτερου από το τέλος και σύμφωνα με αυτόν, το κατηγοριοποιούμε.
Στη συνέχεια, εφαρμόζουμε την filterbank σε όλα τα frames και αποθηκεύουμε για το κάθε ένα, τον τύπο του, τον τύπο του παραθύρου που χρησιμοποιήθηκε καθώς και τους συντελεστές MDCT για κάθε κανάλι. Όλα αυτά αποθηκεύονται στο struct AACSeq1.
\subsection{\texttt{function x = iAACoder1(AACSeq1, fNameOut)}}
Αποτελεί την αντίστροφη συνάρτηση της AACoder1, υλοποιεί δηλαδή έναν αποκωδικοποιητή. Δέχεται ως όρισμα, τον πίνακα με structs που επιστρέφεται από τον AACoder1 και το όνομα που θα δοθεί στο αποκωδικοποιημένο αρχείο μαζί με το path του, ενώ η έξοδός του είναι ένας πίνακας που περιέχει τα δείγματα του αποκωδικοποιημένου αρχείου ήχου.
Κατά την αποκωδικοποίηση, τροφοδοτούνται οι συντελεστές MDCT των καναλιών στην iFilterbank, μαζί με τον τύπο του κάθε frame και τον τύπο του παραθύρου και αφού προστεθούν όλα τα frames, επιστρέφεται το αρχείο ολόκληρο στο πεδίο του χρόνου και αποθηκεύεται.
\subsection{\texttt{function SNR = demoAAC1(fNameIn, fNameOut)}}
Στην συνάρτηση αυτή, επιδεικνύεται η λειτουργία του κωδικοποιητή και του αποκωδικοποιητή και επιστρέφεται ο σηματοθορυβικός λόγος μεταξύ του αποκωδικοποιημένου και του αρχικού αρχείου ήχου. Δέχεται ως ορίσματα το path του αρχείου που επιθυμούμε να κωδικοποιήσουμε και το όνομα που θα του δοθεί μετά την αποκωδικοποίηση. Για την εύρεση του σηματοθορυβικού λόγου χρησιμοποιείται η συνάρτηση του MATLAB snr.
Παρακάτω φαίνεται η λειτουργία των παραπάνω συναρτήσεων στο 2ο frame του δείγματος ήχου ``LicorDeCalandraca.wav'' που δίνεται. Ο λόγος του SNR είναι 301.6522 dB χρησιμοποιώντας παράθυρα τύπου ``KBD''.
\begin{figure}[H]
\centering
\includegraphics[width=0.75\columnwidth, height=4cm]{figures/frame_2_original.eps}
\caption{Το frame στο πεδίο του χρόνου πριν τροφοδοτηθεί σε συναρτήσεις}
\end{figure}
\begin{figure}[H]
\centering
\includegraphics[width=0.75\columnwidth, height=4cm]{figures/frame_2_left_filtered.eps}
\caption{Μετάβαση στο πεδίο της συχνότητας με την συνάρτηση filterbank, συντελεστές MDCT }
\end{figure}
\begin{figure}[H]
\centering
\includegraphics[width=0.75\columnwidth, height=4cm]{figures/frame_2_left_iFiltered.eps}
\caption{Η επιστροφή στο πεδίου του χρόνου μέσω της συνάρτησης iFilterbank}
\end{figure}
\begin{figure}[H]
\centering
\includegraphics[width=0.95\columnwidth, height=6cm]{figures/frame_2_comparison_filtered_and_ifiltered.eps}
\caption{Κοινό διάγραμμα αρχικού σήματος με το σήμα εξόδου της iFilterbank}
\label{ref:1}
\end{figure}
Όπως φαίνεται στο \ref{ref:1}, το αρχικό σήμα με το σήμα εξόδου της iFilterbank ταυτίζονται. Η γραμμή του ενός είναι συνειδητά πιο έντονη έτσι ώστε να είναι φανερή η ταύτιση. Αυτό είναι ένδειξη ότι οι υλοποιημένες συναρτήσεις εκτελούνται σωστά αφού ουσιαστικά δεν έχει χαθεί πληροφορία και η επανακατασκευή πρέπει να είναι σχεδόν τέλεια.
\section{2o Επίπεδο}
Στο 2ο επίπεδο, υλοποιείται η βαθμίδα Temporal Noise Shaping (TNS), ένας κωδικοποιητής και οι αντίστροφες συναρτήσεις τους.
\subsection{\texttt{function [frameFout, TNScoeffs] = TNS(frameFin, frameType)}}
Η συνάρτηση TNS υλοποιεί τη βαθμίδα Temporal Noise Shaping για ένα κανάλι. Δέχεται ως εισόδους τους κβαντισμένους συντελεστές MDCT των 2 καναλιών ενός frame και τον τύπο του ενώ επιστρέφει σαν έξοδο το frame στο πεδίο συχνότητας, σε όρους MDCT συντελεστών έπειτα από την εφαρμογή του TNS καθώς και τους κβαντισμένους συντελεστές του TNS.
Σαν πρώτο βήμα, αρχικοποιούμε τον πίνακα των μπαντών του ψυχοακουστικού μοντέλου όπως δίνεται στο πρότυπο. Στη συνέχεια, κατατάσσουμε του συντελεστές MDCT στις μπάντες
και βρίσκουμε την ενέργεια κάθε μπάντας. Έπειτα, υπολογίζουμε τους συντελεστές κανονικοποίησης, τους εξομαλύνουμε όπως υποδεικνύεται και κανονικοποιούμε τους συντελεστές MDCT ανάλογα με την ενέργεια της μπάντας στην οποία ανήκουν. Με την βοήθεια της συνάρτησης lpc του MATLAB, βρίσκουμε τους συντελεστές γραμμικής πρόβλεψης για κάθε frame (ή subframe αν ο τύπος του είναι "ESH") και τους κβαντίζουμε με τη βοήθεια της συνάρτησης quantiz για ομοιόμορφο κβαντιστή βήματος 0.1. Εφαρμόζουμε το FIR φίλτρο $H_{TNS}(z) = 1 - a_{1}z^{-1} - a_{2}z^{2} - a_{3}z^{-3} - a_{4}z^{-4}$ στους αρχικούς συντελεστές MDCT όπου $a_{i}$ οι κβαντισμένοι συντελεστές γραμμικής πρόβλεψης.
\subsection{\texttt{function frameFout = iTNS(frameFin, frameType, TNScoeffs)}}
Αποτελεί την αντίστροφη συνάρτηση της TNS. Δέχεται ως όρισμα το frame στο πεδίο του χρόνου σε όρους συντελεστών MDCT μετά το TNS, τον τύπο του και τους συντελεστές TNS, ενώ ως έξοδο επιστρέφει τους συντελεστές MDCT πριν το TNS. Για την εύρεση τους χρησιμοποιεί το αντίστροφο φίλτρο $H_{TNS}(z) = \frac{1}{1 - a_{1}z^{-1} - a_{2}z^{2} - a_{3}z^{-3} - a_{4}z^{-4}}$
\subsection{\texttt{function AACSeq2 = AACoder2(fNameIn)}}
Υλοποιεί έναν κωδικοποιητή ο οποίος ουσιαστικά εκτελεί την συνάρτηση TNS. Δέχεται ως όρισμα το path του δείγματος ήχου που επιθυμούμε να κωδικοποίησουμε και επιστρέφει ένα struct μεγέθους K x 1, όπου Κ το πλήθος των frames που έχουν κωδικοποιηθεί και παριέχει για το κάθε ένα τον τύπο του, τον τύπο παραθύρου που χρησιμοποιήθηκε κατά την κωδικοποίηση, τους συντελεστές MDCT και τους κβαντισμένους συντελεστές TNS για κάθε κανάλι.
Όπως και στον παραπάνω κωδικοποιητή, αρχικά διαβάζεται το αρχείο, χωρίζεται σε frames και με την βοήθεια της συνάρτησης SSC, καθορίζεται ο τύπος τους με την ίδια αντιμετώπιση για τα οριακά frames. Στη συνέχεια, τροφοδοτούνται τα frames ως είσοδοι στην συνάρτηση filterbank και στην συνάρτηση TNS και αποθηκεύονται τα αποτελέσματα στο struct.
\subsection{\texttt{function x = iAACoder2(AACSeq2, fNameOut)}}
Υλοποιεί την αντίστροφη του κωδικοποιητή AACoder1, δηλαδή έναν αποκωδικοποιητή. Δέχεται ως εισόδους το K x 1 struct του κωδικοποιημένου αρχείου καθώς και το όνομα που πρόκειται να πάρει μετά την αποκωδικοποίησή του. Ως έξοδο, επιστρέφει τα αποκωδικοποιημένα δείγματα του αρχείου και τα αποθηκεύει σε μορφή WAV. Για να το επιτύχει αυτό, χρησιμοποιεί τηις συναρτήσεις iTNS και iFilterbank.
\subsection{\texttt{function SNR = demoAAC2(fNameIn, fNameOut)}}
H συνάρτηση αυτή επιδεικνύει την κωδικοποίηση του 2ου επιπέδου. Δέχεται ως ορίσματα το path του αρχείου ήχου που πρίκειται να κωδικοποιηθεί και το όνομα που πρόκειται να πάρει μετά την αποκωδικοποίησή του ενώ επιστρέφει τον συνολικό σηματοθορυβικό λόγο σε dB. Χρησιμοποιεί τις συναρτήσεις AACoder2 και iAACoder2 για την κωδικοποίηση και αποκωδικοποίηση του αρχείου ενώ για την εύρεση του σηματοθορυβικού λόγου χρησιμοποιεί την συνάρτηση snr του MATLAB.
Παρακάτω βλέπουμε τα αποτελέσματα του κωδικοποιητή και αποκωδικοποιητή.
\begin{figure}[H]
\centering
\includegraphics[width=0.95\columnwidth,height=6cm]{figures/frame_2_comparison_iTNS.eps}
\caption{Κοινό διάγραμμα αρχικού σήματος με το σήμα εξόδου της iAACoder2}
\label{ref:2}
\end{figure}
Να σημειωθεί ότι ο σηματοθορυβικός λόγος ισούται με 301.5897 dB που σημαίνει ότι δεν έχει αλλάξει σχεδόν καθόλου, γεγονός που είναι λόγικο αφού μέχρι στιγμής έχουμε κβαντίσει μόνο τους συντελεστές γραμμικής πρόβλεψης και όχι το σήμα άρα δεν έχουμε χάσει πληροφορία. Οι μικρή απόκλιση ανάμεσα στους δύο σηματοθορυβικούς λόγος έγκειται στις μικροαποκλίσεις των πράξεων λόγω των στρογγυλοποιήσεων που εκτελεί το MATLAB. Στο \ref{ref:2} είναι φανερή η ταύτιση του αρχικού σήματος με το σήμα εξόδου του αποκωδικοποιητή, ένδειξη ότι υλοποιήθηκε σωστά. Το ένα σήμα σχεδιάστηκε με πιο έντονη γραμμή και πάλι προς σκοπό οπτικοποίησης των αποτελεσμάτων.
\section{3ο Επίπεδο}
Στο 3ο επίπεδο υλοποιείται το ψυχοακουστικό μοντέλο, οι βαθμίδες του κβαντιστή και του Huffman ένας κωδικοποιητής και οι αντίστροφές τους συναρτήσεις.
\subsection{\texttt{functionSMR = psycho(frameT, frameType, frameTprev1, frameTprev2)
} }
Υλοποιεί την βαθμίδα του ψυχοακουστικού μοντέλου για ένα κανάλι. Δέχεται ως είσοδο το frame στο πεδίο του χρόνου, τον τύπο του και τα 2 προηγούμενα του frames στο ίδιο κανάλι. Σαν έξοδο επιστρέφει τον λόγο σήματος προς μάσκα (Signal to Mask Ratio - SMR).
Ακολουθώντας την διαδικασία που περιγράφεται στο πρότυπο, βρίσκουμε το κατώφλι ακουστότητας που φαίνεται στο \ref{ref:9} ενώ στο \ref{ref:10} φαίνεται το SMR.
% Πρώτα αρχικοποιήσαμε τους πίνακες TNS από το πρότυπο και στη συνέχεια υπολογίσαμε όλα τα πιθανά αποτελέσματα της spreading function και το παράθυρο Hann, τόσο για long όσο και για short frames. Στη συνέχεια, πολλαπλασιάστηκε το κατάλληλο παράθυρο στο frame i, i-1, i-2 και υπολογίστηκε ο FFT , το πλάτος και η φάση για κάθε ένα από αυτά τα frames. Έπειτα, γίνεται πρόβλεψη για το πλάτος και την φάση του frame, όπως υποδεικνύεται στην εκφώνηση και υπολογίζεται η προβλεψιμότητα του. Υπολογίζοντας την ενέργεια και τη βεβαρυμένη προβλεψιμότητα για κάθε μπάντα μπορούμε να τις συνδυάσουμε με την spreading function και να κανονικοποιήσουμε το αποτέλεσμα ώστε να εξάγουμε από αυτό τον δείκτη τονικότητας. Βρίσκουμε το SNR, το μετατρέπουμε σε λόγο ενέργειας, όπως υποδεικνύεται, και υπολογίζουμε το κατώφλι ενέργειας. Τέλος, υπολογίζουμε το επίπεδο θορύβου σε κάθε μπάντα και το SMR.
\begin{figure}[H]
\centering
\includegraphics[width=0.95\columnwidth,height=6cm]{figures/psycho_thres_frame2_right.eps}
\caption{Κατώφλι ακουστότητας για το αριστερό κανάλι του 2ου frame}
\label{ref:6}
\end{figure}
\begin{figure}[H]
\centering
\includegraphics[width=0.95\columnwidth,height=6cm]{figures/smrl.eps}
\caption{Signal to Mask Ratio για το αριστερό κανάλι του 2ου frame}
\label{ref:10}
\end{figure}
\subsection{\texttt{function [S, sfc, G] = AACquantizer(frameF, frameType, SMR)}}
Υπολογίζει εσωτερικά το κατώφλι ακουστότητας T(b) και υλοποιεί τη βαθμίδα του κβαντιστή για κάθε κανάλι. Δέχεται ως εισόδους το frame στο πεδίο της συχνότητας σε όρους συντελεστών MDCT, τον τύπο του και το υπολογισμένο SMR. Σαν έξοδο επιστρέφει τον πίνακα s που περιέχει τα σύμβολα κβάντισης των συντελεστών ΜDCT του frame, τον πίνακα sfc με τις τιμές των Scalefactor για κάθε Scalefactor band και το G που είναι το global gain του frame.
% Βρίσκουμε αρχικά το κατώφλι ακουστότητας και έπειτα ακολουθώντας τα βήματα που υποδεικνύονται, αρχικά υπολογίζεται μια τιμή του συντελεστή Scalefactor Gain και υπολογίζεται το σφάλμα. Στη συνέχεια αυξάνεται σταδιακά ο συντελεστής και υπολογίζεται και πάλι το σφάλμα μέχρι να φτάσουμε το κατώφλι ακουστότητας.
Η συνάρτηση παίρνει ως είσοδο τους συντελεστές MDCT που φαίνονται στο \ref{ref:3}
\begin{figure}[H]
\centering
\includegraphics[width=0.95\columnwidth,height=6cm]{figures/frame_2_mdct_coef_before.eps}
\caption{Συντελεστές MDCT πριν τον κβαντισμό}
\label{ref:3}
\end{figure}
\begin{figure}[H]
\centering
\includegraphics[width=0.95\columnwidth,height=6cm]{figures/quant_levels.eps}
\caption{Επίπεδα κβαντισμού}
\label{ref:4}
\end{figure}
\begin{figure}[H]
\centering
\includegraphics[width=0.95\columnwidth,height=6cm]{figures/frame_2_SL.eps}
\caption{Κβαντισμένοι συντελεστές}
\label{ref:5}
\end{figure}
\subsection{\texttt{function frameF = iAACquantizer(S, sfc, G,} frameType)}
Υλοποιεί την αντίστροφη συνάρτηση της AACquantizer. Δέχεται ως ορίσματα τα σύμβολα κβάντισης των συντελεστών MDCT, τον πίνακα με τα scalefactors κάθε μπάντας και το global gain. Σαν έξοδο, με τους συντελεστές και το scalefactor προσπαθεί να επανακατασκαευάσει το frame στο πεδίο της συχνότητας σε όρους συντελεστών MDCT, το οποίο και επιστρέφει.
\subsection{\texttt{function [huffSec, huffCodebook] = encodeHuff(coeffSec, huffLUT, forcedCodebook)}}
Υλοποιεί τη βαθμίδα κωδικοποίσης Huffman. Δέχεται ως εισόδους
κβαντισμένους συντελεστές, τους Huffman look-up tables και τον δείκτη Codebook, όπως αυτός παρουσιάζεται στο πρότυπο.
Σαν έξοδο, επιστρέφει ένα string από '1' και '0' αντίστοιχο με την κωδικοποίηση Huffman, και το huffCodebook, τον αριθμό των Huffman codebook που χρησιμοποιήθηκαν.
Για την υλοποίησή της ακολουθήθηκαν οι οδηγίες από το πρότυπο ενώ για να χρησιμοποιηθούν οι look-up tables κλήθηκε η συνάρτηση loadLUT.m.
\subsection{\texttt{function decCoeffs = decodeHuff(huffSec, huffCodebook, huffLUT)}}
Υλοποιεί την αντίστροφη συνάρτηση της encodeHuff, δηλαδή αποτελεί έναν αποκωδικοποιητή Huffman. Δέχεται ως είσοδο το string με '1' και '0' που αντιστοιχεί στην κωδικοποίηση Huffman, τους δείκτες codebook που χρησιμοποιήθηκαν και τους Huffman look-up tables. Σαν έξοδο, επιστρέφει τους αποκωδικοποιημένους κβαντισμένους συντελεστές.
Η διαδικασία είναι και πάλι αυτή που παρουσιάζεται στο πρότυπο ενώ λόγο του zero padding που είναι απαραίτητο, το μήκος της εξόδου, δηλαδή των κβαντισμένων συντελεστών, ίσως είναι μεγαλύτερο από αυτό που θα έπρεπε. Σε αυτήν την περίπτωση οι τιμές που είναι εκτός του εύρους του αναμενόμενου μήκους, θα πρέπει να αγνοηθούν ενώ αναμένεται να είναι και μηδενικοί
\subsection{\texttt{function AACSeq3 = AACoder3(fNameIn, fnameAACoded)}}
Υλοποιεί έναν κωδικοποιητή ο οποίος δέχεται σαν είσοδο το path του αρχείου το οποίο πρόκειται να κωδικοποιηθεί και το path του .mat αρχείου που πρόκειται να εγγραφεί μετά την κωδικοποίηση. Ως έξοδο, επιστρέφει ένα struct με διάσταση k x 1, όπου k, ο αριθμός των frames του αρχείου, το οποίο περιέχει για κάθε frame, όπως και πριν τον τύπο του και το παράθυρο που χρησιμοποιήθηκε,ενώ για κάθε κανάλι επιστρέφει τους κβαντισμένους συντελεστές TNS, τα κατώφλια ακουστότητας λόγω του ψυχοακουστικού μοντέλου, τα κβαντισμένα global gains, τους κωδικοποιημένους με Huffman κβαντισμένους συντελεστές MDCT και scalefactors και το Huffman codebook.
Φορτώνει αρχικά τους πίνακες TNS, διαβάζει το αρχείο προς κωδικοποίηση και αφού το χωρίσει σε frames χρησιμοποεί στη συνέχεια τις συναρτήσεις SSC, filterbank, TNS, psycho, AACquantizer και encodeHuff για να το κωδικοποίησει. Τα αποτελέσματα φαίνονται παρακάτω:
\subsection{\texttt{function x = iAACoder3(AACSeq3, fNameOut)}}
Υλοποιεί τον αντίστοιχο αποκωδικοποιητή. Δέχεται ως εισόδους, το struct που προκύπτει από τον κωδικοποιητή AACoder3 και το όνομα μαζί με το path που πρόκειται να πάρει το αποκωδικοποιημένο αρχείο ενώ ως έξοδο επιστρέφει έναν πίνακα με το αποκωδικοποιημένο σήμα. Για την υλοποίηση του χρησιμοποιούνται οι συναρτήσεις decodeHuff, iAACquantizer, iTNS και iFilterbank.
\subsection{\texttt{function [SNR, bitrate, compression] = demoAAC3(fNameIn, fNameOut, frameAACoded)}}
Ουσιαστικά η συνάρτηση αυτή παρουσιάζει την λειτουργία των συναρτήσεων του επιπέδου 3. Δέχεται ως εισόδους το path του αρχείου που πρόκειται να κωδικοποιηθεί και το όνομα του αρχείου που πρόκειται να επιστραφεί μετά την αποκωδικοποίηση. Σαν έξοδο, επιστρέφει τον σηματοθορυβικό λόγο του σήματος μετά την κωδικοποίηση και αποκωδικοποίησή του, το bitrate και το ποσοστό συμπίεσης.
Αφού εκτελέστηκε η συνάρτηση, επέστρεψε τα εξής αποτελέσματα:
\begin{table}[]
\centering
\begin{tabular}{ll}
\textbf{SNR} & 5.1821 dB \\
\textbf{bitrate} & 3.1937e+05 \\
\textbf{compression} & 4.8094
\end{tabular}
\end{table}
Πιο συγκεκριμένα, είδαμε τα αποτελέσματα του κωδικοποιητή και αποκωδικοποιητή για το 2ο frame του δείγματος ήχου:
\begin{figure}[H]
\centering
\includegraphics[width=\columnwidth,height=6cm]{figures/decoded_encoded.eps}
\caption{Αρχικό (μαύρο) και αποκωδικοποιημένο (κόκκινο) σήμα}
\label{ref:7}
\end{figure}
\begin{figure}[H]
\centering
\includegraphics[width=\columnwidth,height=6cm]{figures/difference.eps}
\caption{Διαφορά σημάτων σε κάθε δείγμα}
\label{ref:8}
\end{figure}
\begin{figure}[H]
\centering
\includegraphics[width=\columnwidth,height=8cm]{figures/bar_abs_dif.eps}
\caption{Απόλυτη διαφορά σημάτων}
\label{ref:9}
\end{figure}
Όπως βλέπουμε το αποκωδικοποιημένο και το αρχικό σήμα δεν ταυτίζονται. Αυτό είναι απολύτως λογικό αφού το σήμα πλέον έχει αλλοιωθεί και δεν ήταν δυνατό να επανακατασκευαστεί πλήρως. Για τον λόγο αυτό είναι και ο σηματοθορυβικός λόγος πολύ μικρός πλέον σε σχέση με τους προηγούμενους.
\end{document}
%%% Local Variables:
%%% mode: latex.
%%% TeX-master: t
%%% End: