多声道数字音频系统的编码及应用

  文件类别:其它

  文件格式:文件格式

  文件大小:127K

  下载次数:70

  所需积分:2点

  解压密码:qg68.cn

  下载地址:[下载地址]

清华大学卓越生产运营总监高级研修班

综合能力考核表详细内容

多声道数字音频系统的编码及应用
多声道数字音频系统的编码及应用 Multi-channel Audio Coding and Its Applications 胡 泽 (北京广播学院录音艺术学院) [摘要]随着存储媒体容量和传输带宽的不断提高,高质量多声道数字音频系统也逐渐取 代传统的单声道、立体声系统,而成为新的传播媒体方式。本文着重介绍当前几种典型 的多声道数字音频系统的编、解码技术。以MPEG-2、AC-3、DTS、MPEG AAC多声道数字音频系统来讨论它们各自声道的配置、数据容量、数据率等所带来的优缺 点,最后介绍在数字音视频广播中,多声道数字音频系统的应用。 前言 对于CD格式来说,大家都知道它具有良好的信噪比、超过80dB以上的动态范围以及超 过15kHz的频率范围,这使得它具有良好的音频质量和满意的收听效果,但是它仅仅提供 了两个声道。多声道数字音频系统通过声道的扩展,不仅在质量上与CD音频不相上下, 同时还带给听众身临其境的感受,而这是传统单声道和立体声无法实现的,因此多声道 数字音频系统已被更多的听众接受,同时也逐渐成为音乐制作的主流。 在众多的国际标准中,如SMPTE、EBU、ITU- R、ISO/IEC、MPEG等,都涵盖着一种称之为5.1声道的多声道数字音频格式。在即将制定 的DVD- Audio标准中,也规定将采用24bit采样精度、88.2,96,192KHz采样率的多声道数字音 频格式。 一种广泛接受的多声道数字音频系统配置方案就是我们常称的5.1声道系统,也就是 3/2/.1的配置方案。这种方法是按照ITR- U的建议BS.775来确定用于重放的扬声器摆放位置的,如图1所示。 根据建议可知,5个全频带的重放扬声器分为前置扬声器(包括L、R、C)和后置扬声 器(也称环绕扬声器,包括Ls、Rs),按照图示所规定的角度和方位进行摆放,并且它 们都位于一个圆的边界上,其中L、R扬声器与C扬声器分别呈30度夹角,Ls、Rs扬声器与 C扬声器分别呈110度夹角。除此5个全频带的声道外,还有一个低频增强声道,称之为L FE,它的频率范围在200Hz以下,大约是全频带倍频程的10%左右,因此也称点一声道。 它的放置没有特殊的要求,一般放置在前面。 5个重放扬声器的摆放并不是说能够完全重现真实的空间声像,其实5个扬声器的使用 仅仅是一种重现空间声像而采用的粗略的实现方式。当然,一方面重放的效果取决于音 频素材的制作,另一方面则需要严格的重放扬声器的空间位置摆放和收听者的位置关系 。在电影院里我们往往能够感受到声像定位准确的音频效果,现在也有一些提法,认为 8个、10个、12个甚至更多的重放扬声器会有更加完美的音频效果。这些观点有它存在的 理由,声像的表现当然是越准确越好,但是一味的通过增加重放扬声器的数量以及增加 音频声道数的话,它也会带来另外的负面影响,如声像的定位更加困难等等,因此我们 在此仅仅通过5.1声道的实现方式来进行阐述。另外,我们还应明确一点,对于家庭消费 者来说,5.1声道已经足够表现较完美的音频效果了。 不管是那种摆放方式,它的实现都离不开基本的编码方式和主要规则。另外5.1声道 方式还会带来较大的压缩比和较低的比特率(相对于更多声道的情况),下面就详细的 来介绍一下多声道数字音频系统的编码方式。 图1 ITR-U的建议BS.775确定的用于重放的扬声器摆放位置 多声道数字音频的编码 从立体声向多声道的过渡,增加了对存储和传输媒体的需要。下面以CD格式为例,假设 它的采样频率为Fs=44.1kHz,采样精度R为16bit,那么CD格式的音频数据率B为: BCD=2×R×Fs=1.411Mb/s 由此可知,一个小时的CD格式的音乐需要635MB的存贮空间,其实CD最长的重放时间为7 4分钟。那么如果使用的是多声道时,此时的数据率为: Bcdmultichannel=5.1×R×Fs=3.598Mb/s 同样一个小时的多声道格式的音乐需要1.62GB的存储空间,远远大于CD的容量。同时当 前已应用的多声道系统面临着带宽的问题。如美国的数字电视中仅仅给多声道的音频38 4kb/s的带宽,在Internet音频广播中,也只有56kb/s的数据通道,因此由上可知,多声 道数字音频系统面临者存储容量和传输带宽的限制。 如何将多声道数字音频数据率降低的同时又能够保证音频质量,是多声道数字音频系 统面临的重大问题。众所周知,对于线性PCM来说,它的实现简单,在高容量/高带宽的 前提下可以提供CD质量的音频信号。从另一个角度来看,采样精度的提高以及采样频率 的提高,会带来更高的音频质量,如将采样精度由R=16提高到R=24;将采样频率由Fs=4 4.1kHz或Fs=48kHz提高到Fs=96kHz或Fs=192kHz。这种发展趋势已经逐渐地由一些录音工 程师和音乐制作商所接受,同样多声道数字音频系统则也要顺应这种趋势。但如果仍然 采用线性PCM,这无疑是增加了更大的数据量,提高了现有的数据率。 我们知道线性PCM并没有充分利用音频信号的特性进行编码,在PCM数据流中存在着大 量的冗余信息。同时要强调的是不管音频信号如何编解码、传输,最终还是要靠我们的 人耳来实现的,如图2所示,因此我们可以充分地考虑人耳的听觉特性,并加以利用,如 人耳的掩蔽效应、哈斯效应等等。这样就可以将音频信号中与人耳有关的那部分冗余信 息去除掉,在编码时则仅仅对有用的那部分音频信号进行编码,从而降低了参与编码的 数据量。同时再将编码的信号进行比特精度的分配,对于幅度比较大的信号或变化比较 快的信号分配更多的比特数,而对于幅度小、变化慢的信号则减少比特数的分配,从而 达到减少数据率的可能性,实现编码的高效率。当然这种结果是以编码过程复杂化为代 价的。下面具体分析几种声学模型。 图2 编码、传输、人耳听音的实现 2.1 根据听觉域度对可闻信号进行编码 人耳对声振动的感受,在频率及声压级方面都有一定的范围,频率范围正常人约为2 0Hz~20kHz,而声压级范围则是如图听阈曲线来描述的。意即在这条曲线之下的对应频率 的信号是听不到的。 声压级 A 听阈曲线 B 频率f 图3 听觉域度对编码的作用 如图3所示,对于信号A来说,由于其声压级超过听阈曲线的声压级域值,所以可以对 人耳造成声振动的感受,意即听到A信号。而对B信号来说,其声压级位于听阈曲线之下 ,虽然它是客观存在的,但人耳是不可闻的。因此,可以将类似的信号去除掉,以减少 音频数据率。 2. 2 根据掩蔽效应,只对幅度强的掩蔽信号进行编码 人耳能在寂静的环境中分辨出轻微的声音,但在嘈杂的环境中,同样的这些声音则被嘈 杂声淹没而听不到了。这种由于一个声音的存在而使另一个声音要提高声压级才能被听 到的现象称为听觉掩蔽效应。 声压级 A 后向掩蔽 前向掩蔽 B C 频率f 图4 听觉掩蔽效应 如图4所示,虽然B、C两信号的声压级已超过听阈曲线的范围,人耳已可以听到B、C 两信号的存在,但是由于A信号的存在,通过前向掩蔽将C信号淹没掉,通过后向掩蔽将 B信号淹没掉,从而最终到达人耳引起感觉的只有A信号。因此,可以将类似的B、C信号 去除掉以减少音频数据率。 2. 3 量化噪声使得不必全部编码原始信号 类似于人耳的听阈曲线,由于数字信号存在着量化噪声,如图5所示,对于信号A和B 来说,并不一定要将A、B信号进行全部幅度的编码,而只需将A、B信号与量化噪声的差 值进行编码就可以达到相同的听觉效果,因此,在编码过程中实际量化幅度就可以大大 的减少,而减少数据率。 声压级 A B 量化噪声 频率f 图5 量化噪声对编码的影响 2. 4 通过子带分割来进行优化、编码 在传统的编码过程中,都是将整个频带作为操作对象,采用相同的比特分配对每个信 号进行量化。而实际上,由于听觉曲线的存在及其它因素,对于幅度较小的信号可以分 配较少的比特数就可以达到要求,因此将整个频带分成多个子频带,然后对每个子频带 的信号独立编码,从而使得在每个子频带中比特分配可以根据信号自身来适应。 声压级 子频带 A D C B 频率f 图6 子带编码、优化 如图ABCD四个信号,如果对整个频带编码,对于D信号来说分配16比特来量化则显得 多余浪费,所以如果将ABCD分别置于不同的子带内,则可在分别所处的子带内使用最适 合的比特数分配给信号来编码,从而减少数据率,同时如果用于分割的子带分辨率越高 ,意即子带的频带相对越窄,那么在子带中分配的比特数就越精确,而减少了比特率。 2. 5 不同的实现方式 当前在数字音频编码领域存在着各种不同的编码方案和实现方式,为了能够让大家对 此有一个较完整的认识,在本文中仅对当前流行的几种典型的编码方法做一个介绍。不 管是通过那一种方式实现,其基本的编码思路方框图都大同小异,如图7所示。对于每一 个音频声道中的PCM音频信号来说,首先都要将它们映射到频域中,这种时域到频域的映 射可以通过子带滤波器(如MPEG Layers I,II,DTS)或通过变换滤波器组(如AC- 3,MPEG AAC)实现。这两种方式的最大不同之处在于滤波器组中的频率分辨率的不同。 图7 多声道数字音频系统基本的编码方框图 每个声道中的音频采样块首先要根据心理声学模型来计算掩蔽门限值,然后由计算出 的掩蔽门限值来决定如何将公用比特区中的比特分配给不同的频率范围内的信号,如MP EG Layers I,II,DTS所采用;或由计算出的掩蔽门限值来决定哪些频率范围内的量化噪声可以引 入而不需要去除,如AC-3,MPEG AAC所采用。然后根据音频信号的时域表达式进行量化,随后采用静噪编码(如MPEG Layers I,II,DTS,MPEG AAC)。最后,将控制参数及辅助数据进行交织产生编码后的数据流。解码过程则首先将 编码后的数据流进行解复用,然后通过比特流中传输的控制参数对音频数据反量化,或 通过心理声学模型参数反向运算得到音频信号(如AC- 3),最后将得到的音频信号由频域反变换到时域,完成解码过程。 另外多声道数字音频编码技术还充分利用了声道之间的相关性及双耳听觉效应,来进 一步去除声道之间的冗余度和不相关度。去除通道之间的相关度,一种最常用的方法是 M/S方式,在这种方式中是将两个独立声道的频谱相加和相减,根据两个声道的相关度大 小,来决定是传输和/差信号还是传输原始信号。 由于人耳对于频率超过2- 3kHz的声音定位主要是通过内耳密度差分(IID)实现的,因此为了进一步减少数据率, 将各个声道中频率超过约定门限值的信号组合后再进行传输。这种技术应用在MPEG Layers I,II,III中,实现强度立体声编码;用在AC- 3中对两个声道或耦合声道实现多声道编码。在MPEG AAC中,则既可实现强度立体声编码,又可实现多声道编码。 杜比数字AC-3编解码压缩过程 AC-3最早是在1991年的电影“Batman Returns”中应用的。它的应用不仅在电影界占有一席之地,而且它已被北美地区的数字 电视及DVD视频定为其数字音频实施规范。我们熟知的AC-2,AC- 3都是由两声道发展而来的,即杜比数字(Dolby Digital)。对于数字音频信号来说,通过应用数字压缩算法,来减少正确再现原始脉冲 编码调制(PCM)样本所需要的数字信息量,得出原始信号经数字压缩后的表达式。 3. 1 AC-3编码过程 AC-3编码器接受PCM音频并产生相应的AC-3数码流。在编码时,AC- 3算法通过对音频信号的频域表达式进行粗量化,达到高的编码增益(输入码率对输出码 率之比)。如图8所示。 编码过程的第一步是把音频表达式从一个PCM时间样本的序列变换为一个频率系数样 本块的序列。这在分析滤波器中完成。512个时间样本的相互重叠样本块被乘以时间窗而 变换到频域。由于相互重叠的样本块,每个PCM输入样本将表达在两个相继的变换样本块 中。频域表达式则可以二取一,使每个样本块包含256个频率系数。这些单独的频率系数 用二进制指数记数法表达为一个二进制指数和一个尾数。这个指数的集合被编码为信号 频谱的粗略表达式,称作频谱包络。核心的比特指派例行程序用这个频谱包络,确定每 个单独尾数需要用多少比特进行编码。将频谱包络和6个音频样本块粗略量化的尾数,格 式化成一个AC-3数据帧(FRAME)。AC-3数码流是一个AC-3数据帧的序列。 图8 AC-3编码框图 在实际的AC-3编码器中,还包括下述功能: o 附有一个数据帧的信头(header),其中包含与编码的数码流同步及把它解码的信 息(比特率、取样率、编码的信道数目等)。 o 插入误码检测码字,以便解码器能检验接收的数据帧是否有误码。 o 可以动态的改变分析滤波器组的频谱分辨率,以便同每个音频样本块的时域/频域特 性匹配的更好。 o 频谱包络可以用可...
多声道数字音频系统的编码及应用
 

[下载声明]
1.本站的所有资料均为资料作者提供和网友推荐收集整理而来,仅供学习和研究交流使用。如有侵犯到您版权的,请来电指出,本站将立即改正。电话:010-82593357。
2、访问管理资源网的用户必须明白,本站对提供下载的学习资料等不拥有任何权利,版权归该下载资源的合法拥有者所有。
3、本站保证站内提供的所有可下载资源都是按“原样”提供,本站未做过任何改动;但本网站不保证本站提供的下载资源的准确性、安全性和完整性;同时本网站也不承担用户因使用这些下载资源对自己和他人造成任何形式的损失或伤害。
4、未经本网站的明确许可,任何人不得大量链接本站下载资源;不得复制或仿造本网站。本网站对其自行开发的或和他人共同开发的所有内容、技术手段和服务拥有全部知识产权,任何人不得侵害或破坏,也不得擅自使用。

 我要上传资料,请点我!
人才招聘 免责声明 常见问题 广告服务 联系方式 隐私保护 积分规则 关于我们 登陆帮助 友情链接
COPYRIGT @ 2001-2018 HTTP://WWW.QG68.CN INC. ALL RIGHTS RESERVED. 管理资源网 版权所有