DCT Text2

Bei der DCT werden ähnlich wie bei der Laplace- oder Fourier-Transformation die Ausgangswerte vom Zeit- in den Frequenzbereich umgewandelt. Es besteht nur ein wesentlicher Unterschied: Die DCT wandelt einen zweidimensionalen Bildbereich in einen zweidimensionalen Frequenzbereich um. Für die Größe der Bildbereiche gibt es bei dieser Transformation eigentlich keine Beschränkung, so könnte man zum Beispiel einen Bereich von 16x16 oder 16x8 Werten umwandeln. Im Standard werden aber immer Blöcke der Größe 8x8 transformiert.
Das Ausgangsbild wird dabei in viele einzelne Blöcke unterteilt. Die Zweidimensionale DCT läßt sich kombinieren aus der Durchführung der eindimensionalen DCT über die Zeilen und über die Spalten des Blocks. Nach der Berechnung der DCT erhält man einen Bereich von 8x8 Frequenzen. Dabei steht die niedrigste Frequenz an der Stelle 0. Man spricht hier auch vom Gleichanteil oder vom DC-Wert. Die anderen Felder enthalten die Amplituden der höheren Frequenzen die bis zu dem Feld 64zunehmen. Diese Werte nennt man auch die AC-Werte.

Diese Koeffizienten repräsentieren mit steigenden Abstand zum DC-Wert höhere Frequenzen, wobei die höheren vertikalen Frequenzen durch höhere Zeilenindizes repräsentiert werden und die höheren Horizontal-frequenzen durch größere Spaltenindizes. Die Transformation der Pixelintensitäten durch die DCT führt nicht zu einem Informationsverlust, abgesehen von den Rundungsfehlern und dem diskreten Charakter der Operation. Die Rücktransformation mit Hilfe der inversen DCT ergibt somit wieder den Originalblock. Mit Hilfe der IDCT werden die Frequenzwerte wieder in Bildwerte umgewandelt. Im Rahmen der DCT folgt der Vorgang der Quantisierung, um den Wertebereich der durch die DCT ermittelten Koeffizienten zu verringern. Da es hier nur um das Prinzipielle Verständnis geht, wird an dieser Stelle nur die einfachste Methode beschrieben: Bei der Quantisierung werden alle, durch die DCT ermittelten, Frequenzwerte durch verschiedene oder gleiche Werte einer zweidimensionalen Quantisierungstabelle geteilt. Eine solche Quantisierungstabelle könnte z.B. wie folgt aussehen:

Betrachtet man diese Matrix, so fällt auf, daß die hohen Frequenzen durch höhere Werte dividiert werden, als die niedrigeren Frequenzen. Dies liegt daran, daß man davon ausgeht, daß die hohen Frequenzen ein Rauschen repräsentieren und die niedrigen Frequenzen eine Struktur in einem Bild beschreiben. Da das menschliche Wahrnehmungsvermögen strukturorientiert ist, kann die Quantisierung in den Bereichen der hohen Frequenzen größere Quantisierungsstufen ansetzen als in den sensibleren Bereichen der niedrigeren Frequenzen, wo sonst sehr schnell ,,Blockeffekte`` wahrgenommen werden würden. Probleme entstehen bei diesem Verfahren, falls ein Bild tatsächlich einen hohen Informationsanteil in dem hohen Frequenzbereich enthält, wie z.B. oft in synthetischen Bildern vorkommt, oder wenn sehr kleine Schrift im Bild ist. Hier muß die Quantisierungsmatrix entsprechend angepaßt werden, um einen zu hohen Informations - und Inhaltsverlust des Bildes zu vermeiden.