Lyd fra lomma

  • ikt

Digital lyd tar mye plass. På en vanlig CD opptar lyden 500–600 megabyte (MB), men her er det ikke noe problem. Tross alt ble CD-en laget for å romme denne lyden. Da CD-en ble standardisert på begynnelsen av 1980-tallet, var det ikke snakk om å lagre lyden komprimert. Det var ikke mulig å dekomprimere lyden på en enkel måte. Det ville kreve maskinvare som, med hensyn til så vel størrelse som pris, ville gjøre CD-en uaktuell for de fleste.

I dag er teknologiutviklingen kommet mye lenger. Kompresjon av digitale lyd- og bildefiler er vel utviklet – og integrert elektronikk gjør utstyret billig.

Populært lydformat

I arbeidet med digital radio (DAB) ble digital lydkompresjon utviklet for alvor mot slutten av 1980-tallet. Senere lanserte både Sony og Philips nye medier med lydkompresjon. Sony lanserte minidisken som komprimerer lyden 1:5, mens Philips prøvde å forlenge livet til kompaktkassetten ved å lansere en digital versjon med komprimert lyd.

I dag har lydformatet mp3 (Motion Picture III) overtatt oppmerksomheten, og i disse Internett-tider er det lett å forstå hvorfor dette lydformatet er blitt så populært. Formatet gjør det mulig å komprimere lyden fra en vanlig CD mellom ti og tolv ganger – uten særlig tap av kvalitet. Det betyr at en lydfil fra en CD på 40 megabyte bare tar 3,3 MB i mp3-format.

Eureka

Lydformatet som mp3 er basert på, ble utviklet av det tyske Fraunhofer-instituttet i Eureka-prosjektet EU147. Prosjektet skulle legge grunnlaget for digital radio, og det var nødvendig å begrense bitraten på lyden – slik at den ikke brukte for mye av den tilgjengelige båndbredden. I prosjektet var man derfor særdeles opptatt av hvordan lyd kan komprimeres uten at det går ut over lydkvaliteten.

ISO-standarden som ble utviklet i dette prosjektet, ble kalt Motion Pictures Experts Group (MPEG layer III) og er blitt lydformatet til MPEG-1. Den er nå en gammel standard for å komprimere film slik at den ikke opptar større bitrate enn 1,4 Mbit i sekundet; det samme som lyden gjør på en vanlig CD. Ettersom bildet tar så mye plass, er det naturlig nok ikke mye plass til lyd i en slik datastrøm.

Digital kompresjon

I en CD lagres to lydkanaler med 44.100 lydprøver hvert sekund. Det blir gjort i form av et 16-bits tall, som gir 1,4 millioner bit i sekundet. Oversatt til analog lyd gir det et frekvensområde fra 20 til 20.000 hertz (Hz) og et dynamikkområde på 96 desibel (dB). Dette gir et plassbehov på 10,5 MB i minuttet, noe som svært raskt fyller opp harddisker, for ikke å snakke om små CompactFlash-kort med lagringsplass på 32 megabyte.

Den enkleste formen for kompresjon ville være å redusere antallet lydprøver i sekundet og oppløsningen på prøvene, men dette går ut over kvaliteten. Både frekvensområdet og dynamikken i lyden vil lide.

Kompresjonsteknikken i mp3 er basert på kunnskap om hvordan menneskeøret oppfatter lyden. Teknikken kalles psykoakustisk koding og har som funksjon å kaste all lyd som vi allikevel ikke hører. Dette er sammenlignbart med hvordan bilder lagres i jpeg-format, hvor også store deler av informasjonen øyet ikke oppfatter kastes.

Når en rå lydfil på 30–40 megabyte skal komprimeres med en slik metode, vurderer kodeprogrammet hvor i frekvensregisteret de enkelte delene av lyden er. Øret er mindre følsomt i lave og høye frekvenser, men oppfatter svært godt i området mellom en og fem kilohertz (kHz); i det området stemmen vår ligger.

Datastrømmen deles opp

Et totalt lydbilde består av en rekke lyder, noen sterke og noen svake. Når en sterk og en svak lyd kommer samtidig, er det den sterke vi hører. På fagnorsk blir den svake maskert. Slik maskert lyd gjør det mulig å kaste mye av informasjonen, men algoritmen som gjør dette må også ta hensyn til at den lyden som maskerer en annen, kan slutte eller begynne før den bakenforliggende.

Når musikken kodes, deles den opprinnelige datastrømmen opp i en rekke frekvensbånd. Disse frekvensbåndene vurderes mot hverandre på basis av en psykoakustisk modell, og deretter kastes de blokkene som øret ikke ville ha hørt.

Hvis det kreves ekstra høy kompresjon, kodes også stereokanalene sammen – og på en slik måte at den delen av lyden som er felles, bare lagres én gang. Til slutt komprimeres resultatet med tradisjonell Huffman-koding, som er en måte å effektivisere bitrekkefølgen på. I motsetning til de andre kompresjonsteknikkene som brukes, forsvinner ingen informasjon i Huffman-kodingen.

Selv om en kompresjon på rundt én til tolv er det vanlige for musikk, støttes flere ulike grader av kompresjon innen mp3-formatet i bitrater fra 8 til 320 kbit/s. Fordi selve mp3-standarden ikke foreskriver hvordan selve kodingen skal gjøres, varierer kvaliteten på lyden mellom de ulike kodeprogrammene. Spesielt varierer kvaliteten på den psykoakustiske kodingen.

Pirathimmelen

Det er vanskelig å omtale mp3 uten å nevne den mørkere siden av dette lydformatet. Størrelsen på mp3-musikk gjør Internett til en utmerket distribusjonskanal; det bugner av gratis programvare for å ta seg av både komprimering og spredning. Ønsker du å se nærmere på slik programvare, kan www.mp3.com være et bra startsted.

En av de heteste rettssakene nå er søksmålet mot amerikanske Napster. På kort tid er denne tjenesten blitt svært sentral i distribusjonen av mp3-musikk. Napster har selv ikke noe musikk, men lager og vedlikeholder en katalog over hvem som har de ulike låtene – og setter dem i forbindelse med hverandre.

Slaget fra musikkbransjen er neppe vunnet om Napster blir stengt. En rekke alternativer, som er atskillig vanskeligere å forfølge i rettsalen, er tilgjengelig. Gratisprogrammet Gnutella er ikke avhengig av en sentral server, men søker selv opp musikk i nærheten. Det norske programmet Sharetraxx gjør dette enda bedre ved at hver PC blir sin egen søkemotor – som stadig oppdateres.

Musikkbransjen, som nå har skjønt at Internett vil være fremtidens distribusjonskanal, har lansert programvare som skal beskytte musikken fra piratkopiering. Secure Digital Music Initiative (SDMI) gjør det mulig å kopiere musikk fra en original til eksempelvis en mp3-fil, men denne filen kan ikke kopieres videre. En bruker som har kjøpt musikk på nettet, kan derfor ikke sende kopier til venner og kjente.

SDMI har fått bred støtte fra de store aktørene Microsoft, Philips og Sony, men det gjenstår å se om brukerne liker denne formen for beskyttelse.

Avansert

Med så bra lyd på så lite plass skulle man tro at det ville være vanskelig å overgå mp3. Det finnes imidlertid en kompresjonsteknologi som angivelig gir bedre lydkvalitet – samtidig som lyden er enda mer komprimert. Lydformatet i MPEG-2 kalles Advanced Audio Coding (AAC) og er vesentlig mer avansert enn mp3. Med slik koding kan lyden komprimeres enda mer – eller gi bedre kvalitet ved samme bitrate.

Microsoft, som forsker mye på multimediateknologi, prøver å vinne fotfeste for sitt WMA-format: Selskapet hevder at dette formatet er mp3 overlegent; samme lydfil tar mindre plass ved samme lydkvalitet. Microsoft lager også spesiell programvare til den nye PocketPC-plattformen, som viderekomprimerer mp3-filer.

Teknisk Ukeblad har testet programmet Media Manager for PocketPC, som produserte en 32kbit/s fra en mp3-fil på 4,99 MB. Resultatet ble en filstørrelse på bare 882 kB etter kompresjon. Da vi brukte en HP Jornada 540 som lommedisko, kunne ikke vi høre forskjell på mp3-musikken og den viderekomprimerte utgaven. Overfor lydentusiaster er det viktig å presisere at dette ikke er en pålitelig test. Metoden gjør det mulig å få plass musikken fra to til tre CD-er på ett enkelt 32 MB CompactFlash-kort og det er imponerende.

Det krever stor datakraft for såvel å kode som å dekode mp3-musikk. Enten kreves kraftige mikroprosessorer som kan kjøre slik programvare, eller det må lages spesiell elektronikk til formålet. Dagens PC-er er kratige nok til slike oppgaver, mens de små lommespillerne som har dukket opp, har spesialelektronikk for å dekode lyden. De nye PocketPC-modellene, som prøver å vriste markedsandel fra Palm, har så kraftige mikroprosessorer at de kan dekode musikk samtidig som de utfører andre oppgaver.