Audio informacijos suspaudimas 2/2

http://bestcm312classever.files.wordpress.com/2011/09/pic38_i5pifh2.gif

Kaip  ir buvo žadėta antroje dalyje apie garso informacijos suspaudimą MP3 failuose bei telefonuose

MP3

Tikriausiai populiariausias skaitmeninis audio formatas, muzikos mėgėjų dažnai peikiamas, bet ne be reikalo, kadangi tai yra formatas su kokybės praradimu(lossy). MP3 suspaudamas garsą išnaudoja mūsų klausos netobulumą pašalindamas tą garso informaciją kurią sunkiai arba išvis nesuvokiame.

Skaitmenizuotas garsas suskirstomas į kadrus po 1152 atskaitas(trukmė 26 ms, jeigu diskretizavimo dažnis 44,1 kHz). Jeigu yra kažkoks staigus garso perėjimas tas atskaitų dydis gali būti mažesnis(384). Skaičiuojamas kadro spektras, jis padalinamas į 32 juostas. Tolesnė analizė atliekama dažnio srityje.

http://upload.wikimedia.org/wikipedia/commons/thumb/2/28/Perceived_Human_Hearing.svg/705px-Perceived_Human_Hearing.svg.png

Žmogus jautrumas garsas priklauso nuo jų dažnio. Jautriausi esame 2 – 4 kHz dažnio garsams, būtent panašaus dažnio yra žmogaus kalba. Taigi MP3 stengsis garsus esančius šiuose dažniuose koduoti išlaikant aukščiausią bitų skaičių. Tuo tarpu dažniai esantis žemiau suvokimo ribos yra ignoruojami.

http://upload.wikimedia.org/wikipedia/commons/thumb/e/eb/Audio_Mask_Graph.png/800px-Audio_Mask_Graph.png

Dar kita mūsų klausos yda tai garso maskavimas. Jeigu yra stiprus kažkurio dažnio signalas, šalia šio signalo esantys dažniai yra  nesuvokiami. Maskuojamus dažnius jeigu šie yra virš girdinimo ribos MP3 enkoderis ignoruoja. Yra ir laikino maskavimo reiškinys, kai stiprus trumpas garsas maskuoja gretimus dažnius ėjusius prieš jį ar po jo.

Stereo garsas kaip ir  FLAC atveju gali būti perkeltas į du kanalus centrinį(K+D), šoninį (K-D). Taip antrajam kanalui koduoti reikės mažesnio bitų skaičiaus.

Kitas MP3 metodas stereo garsui apdoroti remiasi tuo, jog žmogus garso šaltinio pozicijos informaciją gauna tik iš tam tikrų dažnių. Ypač žemuose ir ypač aukštuose dažniuose jos nėra. Pozicija iš žemų dažnių ištraukiama per laiko skirtumus, iš aukštų per amplitudžių skirtumus. MP3 žemus dažnius sukelia į vieną kanalą, tačiau išsaugo informaciją pagal kurią atstatant audio  K D kanaluose atliekamas perstūmimas laike.

Po neaktualios garso informacijos išmetimo likę duomenis koduojami Hufmano kodu.

MP3 formatas optimizuoja garso įrašo suspaudimą sudėtingesnes įrašo dalis koduodamas didesniu bitų skaičiumi(VBR,ABR).

Kalbos suspaudimas GSM’e

GSM naudoja EFR arba kitaip vadinamą GSM 06.60  kodeką. Diskretizavimo dažnis 8000 Hz, o perdavimo sparta tik 12,2 kb/s.

http://www.en.voipforo.com/images/A-law-pcm.gif

Signalo dinaminiam diapazonui suspausti naudojamas A-law(Europoje) algoritmas. Jo esmė, jog žemos amplitudės signalai yra stiprinami. Kvantuojant signalą kvantavimo laiptelis įneša pastovios amplitudės triukšmą, tad kuo signalo amplitudė bus mažesnė, tuo signalas/triukšmas santykis bus prastesnis. Po A-law signalas tampa atsparesnis kvantavimo triukšmams, tad sumažinamas kvantavimo bitų skaičius, pagal standartus iš 14 bitų lieka 8.

Pagrindinė kalbos kodekų varomoji jėga yra balso sintezė – galimybė atkurti kalbos gabaliukus iš tam tikrų parametrų. Žmogus kalba atsiranda iš žadinimo signalo kurį sukuria raumenų jėga stumdama oro srautą bei balso stygų, bei filtro, kas atitinka balso traktą.

 http://azizturn.files.wordpress.com/2010/11/speech_synthesis_lpc.gif

Štai paprastas kalbos sintezės modelis, žaidinimo signalas esant dusliam garsui yra triukšmas, skardžiam – impulsai.

Analizuojami 10 –30 ms trukmės kalbos segmentai, iš jų gaunamas žadinimo pobūdis( jei tas pobūdis skardus randamas žadinimo tono periodas), stiprinimo koeficientas, ir filtro koeficientai. Imtuve iš šių duomenų sintezuojamas garsas. Norint pagerinti balso kokybę gali būti perduodama ir paklaida tarp tikro ir sintezuoto signalo.

Naudojant analizę per sintezę cikle kalbos segmentas yra sintezuojamas naudojant vis kitokią žadinimo signalo seką, kol tarp sintezuoto signalo ir pradinio gaunama mažiausia paklaida. Įdomu tai, jog  stengiamasi, jog paklaidos signalas pasislėptų dėl maskavimo efekto. Žadinimo signalai taip pat gali būti parenkami iš kodų knygos. 1983 metais kai buvo bandomas originalus algoritmas suspausti 1 sekundę kalbos signalo reikėjo 150 sekundžių.

Iliustracijų šaltiniais [0 1 2 3]

Apie MP3 [1 2]

Apie kalbos kodekus[1]

css.php
Bear