音频文件、播放器、耳机三者对于实际音质的影响是什么关系?

分类: 使用方法 发布时间:2018-08-18 15:33

这个问题真的很棒,我觉得这是真正触及hi-fi核心的问题。

首先是结论:使用耳机的系统中,耳机的素质是系统决定性因素。使用音箱的系统中,音箱和听音环境是决定性因素。

先说音频文件。

我们知道声音是空气震动的波。波的属性有频率和振幅。对于声音来说,频率体现在声音的高音低音,振幅代表声音的响度。

无损音频文件的参数主要有采样率和位深度。真实的声音波形是平滑的,数字音频文件为了还原声音,需要对这个波形进行取样(sampling):

图中的曲线代表原始波形,蓝点表示取样点。单位时间内采样点的数量(点密集程度)就是采样率。采样率用频率的单位Hz表示。采样点表示的响度高低的细分程度,就是位深度,用bit表示。

先说位深度。4bit的位深度表示用4bit二进制来存储响度信息,理论上可以有16个整数点。这样振幅的刻度从-8到+7。数学上,可以存储24.08dB的动态范围(即最高响度和噪音的比值为24.08dB。)CD的位深度为16bit,可以把响度分为65536个等级。等效的动态范围是96.33 dB。多数音乐的动态范围都远小于这个数(30-50dB),而且越是现代音乐,动态越小。交响乐等古典音乐的动态较大,但是也很少超过80dB。实际上,即使演奏有更高的动态,录音环境的噪音也让动态不可能超过CD的上限。现在市面上24bit位深度的录音,实际上是没有回放意义的。它的意义主要在音乐制作方面,可以让音乐后期的空间更大,更方便。

再说采样率。考虑在数学中,描述一个完整波形最少需要两个点。人类听觉的频率上限是20kHz(实际上多数人的上限远低于这个数。),那么至少需要40kHz的采样率才能满足20kHz频率的描述。CD的采样率是44.1KHz,虽说足够描述20kHz的波形,但是在高频确实不够平滑。现在出现很多192kHz的高采样率音频文件,理论上不仅可以使20kHz以下的波形描述的更加平滑(采样点更密集),而且也可以收录到远高于20kHz的超声波的音频信息。但是实际上,各种在极其严格条件下做的盲测都表明,高采样率的音频文件并不优于44.1kHz。具体选择就见仁见智了。

以上参数是对于无损音频文件(CD,WAV,FLAC,APE,APPLE LOSSLESS等)来说的。对于有损压缩要更加复杂。除了原理有所不同,有的有损文件还会通过削去高于某个频率的波形,省去高响度附近的低响度信息等方式节约空间。这些有损压缩方式理论上都会劣化音频。目前无损音频文件并不难得,所以一般还是不推荐。

再说播放器。

数字音频的播放器真是一个打了几十年的老官司了。一个数字播放器分为存储和读取部分,数字解码部分,数模转换部分和模拟放大部分。

理论上来说,存储,读取和数字解码都是完全无损的,因为这些都是纯数字进行的。但是现实中,有个所谓jitter的问题。这个jitter本身是抖动的意思,在音频领域一般指时域抖动。在信号源是CD时,因为机械的稳定性等原因,数字信号的时序有时会有错乱,这个就是一般所指的jitter了。但是现实中, 由于有缓存和纠错的存在,这个抖动不会出现,如果是固态存储源,就更没有机械抖动存在。唯一在这些系统中存在的jitter来源,就是时钟发生器本身产生的jitter。简单的解释就是,如果机器的时钟,时快时慢的话,数字波形也会随着在时域上拉长缩短。但是当然了,现代的时钟发生器早就极其精确,我以为是没什么关系的。只是jitter这笔烂账,我自己并没有信心解释清楚,有兴趣的朋友还是自己找相关资料,自己辨析吧。

数模转换,也就是DAC。从这个部分开始,就会确实的引入失真了。我以一般板载声卡的参数为例:Realtec AC892是一个普遍采用的廉价板载显卡芯片。根据其技术参数,DAC的SNR(信噪比)是95dB。我们可以看到,这个信噪比已经接近CD格式的理论动态范围。THD(总谐波失真)是-85dB,大约相当于0.005%。这个数字可以代表多数DAC部分引入的失真的数量级。除了THD以外,从DAC开始,需要引入频响曲线的概念。也就是说,播放器在还原某个频率的响度的时候,并不能100%还原,而会有一定的误差。因为此处的频响误差很小,这里留到播放单元再讨论。

接下来是模拟放大部分。这个部分将DAC产生的模拟音频信号,放大给后级的耳机或者喇叭。(有的音响系统有多级放大,我这儿就省略不讨论了。)我们还是以Realtec AC892为例。这个板载显卡带有耳机放大器,其技术参数注明的耳放THD是-75dB(~0.02%)。这个数字对于耳机来说,已经足够优秀,不会对最终声音产生大的影响。(主要原因是耳机的失真远大于这个数,后边会详细介绍)但是这个结论只适用于耳机放大器。大功率的放大器,如果质量低劣,会引入可观的失真。对于组建音响系统的玩家需要注意。因为不是本题主旨,就不详细说了。

上边讲到,从信号源(音频文件),到播放器(解码器),到模拟放大部分,引入的失真都很有限。如果只用THD(总谐波失真)来代表的话,到这一步总失真是:

(100-(100-0.005)*(100-0.02)% 大约是不到0.03%的程度。

这里插一段话:

发烧界很讲究所谓耳放和耳机甚至播放器的搭配问题:比如有的耳机要怎样的耳放才能推的动,怎样的耳放才能推的好等等。对于这个问题,我认为在绝大多数情况下都是不用担心的。

为什么这么说?其实这种推不动的说法最初是指有些功放在超过其能够处理的负载的情况下,失真会极大的增加。或者老功放的电路设计不太适合现在的低阻抗的耳机,而造成失真大于设计值的情况。然而现代功放推一般耳机(除了特殊静电耳机等)都不会出现这些问题。实际上如果你把功放的音量调到中间位置,耳机声音不会太小的话,已经说明这个功放的设计功率足够推动这个耳机了。设计参数的失真都是按照最大功率来测定,实际使用中一般都会比这个失真更小。当然以上都针对大厂功放,杂牌和作坊小众产品需要自己判断。

那么,既然只要音量足够,这个功放就足够推动耳机了,那我们真的需要耳放吗?很多时候真的不需要。手机,很多便携播放器,电脑等的耳机插孔都是已经经过功率放大的了。(实际上只有line out接口是未经放大的模拟信号,很多播放器都不提供)如果把耳放接在耳机插孔中,相当于模拟信号经过了二级放大。二级放大在很多时候当然是有意义的,比如前级放大功率不够推动音响系统,比如有混音需求等等,但是对于耳机来说,除非了播放器无法推动高阻抗低灵敏度的耳机,否则二级放大无非就是引入额外失真而已。

最后就是最重要的部分:耳机的失真。

先看一个公认的好耳机的数据:Stax SR-009 (25000人民币左右吧,静电耳机)

上图是频率响应图。我们看到在10hz-20000hz都基本平直。(10000hz以上的测量不够精确,暂不讨论)基本代表了耳机最优秀的水平。但是,以1000hz左右为基准,那么在20hz左右大概有-3dB的衰减,在6000hz有-15dB左右衰减。我们按照10dB来说,就是10倍的振幅差别,堪称可观。这是目前引入的最大响度失真,从振幅看有1000% 。

上图是THD的测试结果。我们可以看到在90dB的响度下,THD(总谐波失真)大约也有0.1%左右。这是目前引入的最大的谐波失真。

从SR-009的例子可以看到。耳机本身引入的失真远远大于音频文件,播放器和功放的总和——的好几倍。这还是在耳机素质优秀的情况下。下面我们欣赏几个其他耳机的频响曲线和THD:

上图是歌德PS-1000 (严重的低频衰减,大于1%的谐波失真)

上图是苹果Earpod (2012) 低频和高频均不存在。高响度下近10%的总谐波失真。

有兴趣找别的耳机数据的同学请参见:(方波波形解读等问题因为不是本题内容,就不赘述了,可以自行Google。)

综上,对于耳机系统来说,耳机本身的性能是几乎唯一影响实际音质的环节。对于对音质有要求的人,我建议在安静的听音环境下用开放式头戴耳机。在嘈杂环境下用入耳式动铁耳机。优秀的开放式头戴耳机可以在最实惠的价格提供好的还原,低失真和舒适的佩戴。动铁耳机因为发声单元的特性,其失真很低,频响优秀。当然了以上建议我都没有给出理由。一方面是因为偏题了,另一方面可能也是未来的坑吧……