3.4.2.3MPEG-4音频
MPEG-4为语音编码、通用音频编码、音频语义和语音合成定义了一种扩展工具。MPEG-4音频(和视频部分相似)是面向对象的,它支持音频场景通过多重音频对象(语义的或者自然的)而创建。和MPEG-1以及MPEG-2中定义的一样,自然音频对象是从样本波形中产生的。和视频的方式相似,不同的音频流组合成为一个音频场景。
语音编码部分是特别为口语单词的有效编码设计的,它可以节省带宽、优化网络通信能力和节省存储量。因为只有语音需要编码,所以可以使用更有效的编码技术,其中杰出的有代码激励线性预测方法(Code Excited Linear Prediction, CELP)和MPEG-4谐波矢量刺激编码方法(Harmonic Vector Excitation Coding, HVXC)。CELP所产生的比特率是4~6kb/s,而HVXC编码的比特率是2~4kb/s。
MPEG-4标准的一般音频部分是将自然音频输入信号的重新制作。MPEG-4的代码部分基于MPEG-2优化编码技术,具有更好的压缩能力和纠错机制。而且它还支持很低的比特率和非常低的延迟。另外,它利用大步骤的可伸缩音频编码和比特分割编码算法实现了比特率的可扩展性(例如在接受有效信息时,还可以解码比特流的子集)。
MPEG-4还定义了音频的类、级和对象类型,具有通用音频、语音、语音和通用音频、语意音频和语意语音的扩展类型列表。
MPEG-4音频类定义了比特流和解码器的一致性范围。MPEG-4中定义的类比对象类型要少。MPEG-4的音频级是根据复杂度单元来定义的(处理器和RAM的复杂度)。MPEG-4还限制了特殊类型的对象,作者可以在一个音频场景中以不同的复杂度来使用不同的对象类型,只要总体复杂度不超过所定义的该级的复杂度。
3.4.3内容管理系统中的音频格式
标准音频格式(如44.1kHz和48kHz的PCM编码音频和MPEG音频)的带宽和存储要求比同样类型的视频要求要少,因此被认为更易管理。然而,这些格式同样要被整合到内容管理系统中,并且内容管理系统要对其制作和传输所需的工具和应用给予支持。
MPEG的音频编码器支持整个范围的声音压缩,其中最主要的是MPEG-1的第3层(MP3),因为它是目前网上流行的音频格式。基于MPEG-4的音频系统的相关性是显而易见的,同样也存在其他方式的音频编码格式,如Real音频或流式音频。然而,随着MP3的风靡,它们的实用性已经减弱了。
对内容管理系统的另一个挑战是具有更高抽样率和量化区间的新格式的出现。在专业系统中,96kHz的抽样率将可能成为标准。内容管理系统在处理音频和处理视频时的情况一样,必须应付多种多样的格式和需求。
3.5图片、网页、文本和其他素材格式
除了视频和音频,内容管理系统还要管理其他很多媒体类型(主要是离散媒体类型)。与视频、音频的情况相似的是,图片、图表和文本等的媒体类型都有很多种格式。例如文本文档就可以被编码为无格式ASCII文本、Microsoft Word、FrameMaker、RTF和PDF等。另外,内容管理系统也需要管理一些表示幻灯片、项目计划或计算表单等需要特殊(通常是私有的)格式编码的文本文档。此时内容管理系统的主要功能是索引这些文档以使它们能被检索,以及集成本地应用程序或应用视图以为用户提供原始形式的文档。文档查询索引的问题由可处理多种格式的全文检索引擎来解决,提供本地应用程序和视图的问题要结合第三方的应用综合解决。
内容管理系统管理的其他重要的素材类型是网页中的图片和结构化文档。
3.5.1图片
图片是可视化的照片或图像。它们描述具体的二维情形,没有时间限制(它们属于离散的媒体类型)。在内容管理系统中,图片由数字图片格式或指向外部图片的链接来表示。本书中只讨论相关的数字图片格式。在技术层面上,图片被认为是平面区域每个点的光线强度功能值的反映。为了数字化地表示这些值,需要对它们进行抽样和对抽样值进行量化。数字图片本身就成了表现量化值强度的数字值矩阵。图片的抽样点是画面元素(如视频中),即像素。图片的数字表示可能会很大。一张和NTSC制电视画面大小一样的图片的分辨率为640×480像素矩阵。以8比特和256灰度水平存储该单色图像需要空间大小约为300kB,因此和在视频中一样,需要压缩图片来减少表现时需要的比特数。最常用的图片格式是JPEG、GIF、TIFF和BMP。
3.5.1.1JPEG
JPEG标准是由ISO和CCITT联合组成的联合图片专家组制定的。JPEG定义了彩色和单色图片的编码和压缩方法,以及含有实际图片数据、编码表和编码参数的交换格式。如果编码器和解码器在相同环境中使用,就不需要编码表和编码参数。
JPEG标准具体化了4种基本模型(每一种还有变体):
·缺失序列DCT基本模型,即每个JPEG工具都支持的基本处理模型。
·扩展的缺失DCT基本模型,是对基本处理模型的增强。
·无损模型,支持原始图片信息的精确复制和重组,但是压缩率低。
·分层模型,包含不同分辨率的图片,并应用以上3种JPEG模型的算法。
这些模型的基本编码和压缩步骤相同。不是每个模型都应用所有的技术,如基本处理模型用分块、MCU、FDCT、步长和霍夫曼编码方法。
JPEG定义了一种很普遍的图片模式。图片准备阶段的源图片由至少一个、至多255个组成部分或者平面组成。这些组成部分的像素可能不同,如它们可以表示不同颜色(RGB)、明暗或者色度信息(YUV)。像素的表示也是可变的,每一个像素由值为0到2P-1的P个比特来表示。图片的所有组成部分的所有像素要以相同数目的比特数编码。JPEG缺失模型中每个像素用8或12比特表示。无插帧数据单元的处理命令是从左到右、从上到下,然后未压缩的图片样本被归组成8×8像素的数据单元。
基准模型的图像处理在8×8的像素组中,使用前序离散余弦转换(前序DCT),将二维图片值映射至频率域内。这种转换要进行64次,这一步之后所有DCT的系数要用64个输入口的量化表进行量化,每个输入口对应一个DCT系数的量化。量化和DCT过程都是有缺失的。接下来应用熵编码,在基准模型中的熵编码使用霍夫曼编码方法。
扩展的缺失模型支持高抽样精度(最高12比特)。另外,还使用了扩展的量化方法,从而实现渐进式代替顺序的图像显示。前者使得图片更加清晰,后者使得图片自上到下显示。扩展的缺失模型可以使用熵编码。
在无损模型中,预备处理的图像的每个像素的数据单元每像素精度在2~16比特之间。处理和量化步骤是基于根据相邻样本预测样本值的预测技术。
3.5.1.2GIF
图形交换格式(Graphic Interchange Format, GIF)最初由CompuServe开发,以支持与平台无关的图片交换。GIF使用无损压缩方案,支持在一个文件中插入多幅画面。
GIF图片总是编码为比特流。逻辑屏幕描述符定义了编码过的图片大小、位置和色彩表类型,而且也定义了可操作的全局、局部色彩表和指向该表的像素色彩指针。像素色彩用特殊的算法压缩(称为Lempel-Ziv-Welch),该算法可以检测和处理可变长度的比特模式。该比特模式在表中以短比特的形式表示,出现频率最高的比特模式以最短的比特表示。
GIF图片由以下部分组成:
·头,包含GIF ID和算法版本号码。
·应用部分,支持生成图片的程序的版本和名称信息编码。
·尾部,标示GIF流的结束。
·控制部分,控制后续图片块的显示。
·图片部分,包含图片头、可操作的色彩表和像素信息。
·注释部分,包含每个图片块的附加(文本)介绍信息。
·平面文本部分,支持图片中出现的文本信息的ASCII编码。
在GIF图片中,控制部分、图片部分、介绍部分和平面文本部分可以重复和排列。GIF也支持简短动画和图片序列的编码。GIF只适用8比特的色彩表,所以不能应用于高质量的图片。
3.5.1.3TIFF
标签图像文件格式(Tagged Image File Format, TIFF)是微软公司和Aldus公司联合开发的。TIFF的目标是提供可移植的、与硬件无关的图像编码。它有2个组成部分,称为基准部分和扩展部分。基准部分定义每个解码和显示的应用程序都必须支持的一些特征,扩展部分定义其他的附加信息。TIFF支持在很大范围内的色彩模型:从黑白图像到单色图像再到复杂色彩图像、RGB图像等。与GIF相似,TIFF也有以下几个部分:
·头字典,定义字节顺序、版本号码以及含有其他图片或部分的参考信息。
·结构部分,定义编码技术和标记域的数量。
·字段,定义图片编码块(行、对象、单元和块)以及它们的特征(压缩技术、分辨率和校准)。
·数据字段,定义前面没有定义的图形对象。
TIFF支持的压缩技术有游程编码、霍夫曼编码、Lempel-Ziv-Welch压缩和JPEG压缩方法。TIFF是一种广泛应用的格式,它还支持不同分辨率的图像编码,如预览格式和高清格式图片。
3.5.1.4BMP
位图格式(Bitmap Format, BMP)是基于RGB色彩的一般图像格式。它也被用于单色和黑白图像的编码。BMP格式定义了2个主要部分:头和数据部分。前者被称为位图信息(BITMAPINFO),定义了图片大小、色彩深度、色彩表以及压缩技术。数据部分含有每一行中的各个点的像素值。色彩深度可取的值有1、4、8和24。色彩深度值为每像素4和8比特的图片压缩方案采用游程编码方法,而色彩表中的其他相关信息值则采用特殊的编码算法。
3.5.2结构化文档
结构化文档是内容管理系统中的又一种重要的媒体类型,它的发展主要由2方面促成:印刷媒体工业和网域。另外,超文本和超媒体也对结构化文档语言和标准的发展有一定的影响。与一般文档格式相比(RTF、MS Word或者PDF),结构化文档的特点是使用标记语言并链接到扩展文本和信息。对于内容管理系统来说这是一项特殊的挑战。
这里主要考虑的标准是SGML、HTML和XML。后者在4.5.2与元数据编码、传输和交换一起介绍,因为它主要应用于这些领域。