人耳是一对既简单又复杂的器官。
说它简单,是因为人类可以制造电子的替代品;说它复杂,是因为再好的替代品都不能完全还原其功能。
它的原理,简单说只是将声音的机械波转换为神经电信号,但实际上这是包括耳廓、耳洞甚至是表皮绒毛的系统工程。
这些部件通过发挥其物理结构的作用对外界声音进行加工,才有了人体感知声音的前提。
再往后,大脑通过对其进行一系列解构调味,才有了最终感受到的样子。
现在的我们,将这一些系列的调味成为「心理声学」。
心理声学
心理声学,简单地说,就是人体感知与真实存在的差异,包括了生理和心理上的各种反应。
其中最为广泛认知的就是频响范围,即所谓的「感知极限」,也就是初中生都知道的「20~20000Hz
」。
这一范围的上限随年龄增大而减小,大多数成年人无法听到频率在 16 kHz 以上的声音。
而对于一只收音良好的麦克风,其一生的频响范围却能几乎不变。
也就是说,「20~20000Hz
」只存在于童年的美好回忆中。
关于这一点,你可以搜索「ear test frequency
」找到工具测试自己耳朵的感知范围。
当然,不仅如此,人耳对各个频段的分辨率(响度及频率)也是不同的。
理所当然的,人耳对人声所在的频率范围「特别关照」,对于这范围以外的频率则是离得越远分辨能力越弱。
透过这一原理,分割频带并依照人耳的感知程度的不同,使用不同方法编码压缩是当今大多数音频编码的原理之一。
简单地解释,就是:反正你也听不出,直接扔掉(缩水)既不碍事又能减小体积,何乐而不为呢?
音频压缩与虚拟乐器
音频压缩技术是现代数字媒体重要的一环。
使用这一技术,人们可以使用不太多的存储空间来保存任意一种乐器的采样。
这给创造者带来了极大的便利:不需要学习演奏,也不需花钱预约大师,即可使用完美演奏的各种乐器。
在精度上,几乎所有采样虚拟乐器都能做到 44.1kHz 16bit 的输出,
但能够到 48kHz 24bit 这一 HiRes 最低标准的似乎并没有。
而在合成虚拟乐器这边,虽然则理论上可以做到全频浮点输出,但目前为止咱只见过打击乐有到 96kHz 24bit。
这对于 CD 制作是足够的,但是对于当今的 HiRes 而言就力不从心了。
以下是 mora 上售卖的 192kHz 24bit 音频文件频谱:
你可以清晰地康到 48kHz 以上的部分除了噪音只有一些看似划痕的部分。
而在 22kHz 和 48kHz 左右有一条明显的分割线。
通过分离声道单独绘制可以得到下图:
这下可以清晰看到 22kHz 到底发生了什么?
在揭晓答案之前,请回忆一下上文谈到的虚拟乐器输出采样率。
是不是发现了什么?最左侧这一段看起来是以 22kHz 为中心镜像对称的?
事实和看到的一样,这部分就是镜像对称的。
而背后的原因,在咱看来除了「造假」似乎也想不出其他的了。
如果你有心观察每一份 HiRes,都能发现类似的问题(还有一些是赤裸裸地填充噪音的)。
比如在这篇文章敲打前两天发售的另一张碟,它的单声道谱是这样的:
可以看到在 18kHz 和 30kHz 左右有一条不是很清晰的谱线,就像前一个例子看到的那样。
如果进一步分离出和弦的部分,可以观察到在谱线两侧也发生了镜像对称的现象,如下图:
HiRes 是「真物」么
从 MP3 到 HiRes,看似是形如视频从 PAL 480i 到 8K 的提升,实际只是杯水车薪罢了。
设备和技术确实在进步,但有些东西并没有你我想象中的变化大。
咱相信回放设备带来的听感差异,但是这的 HiRes 真的和 CD 有区别吗?
不得不承认,过去几年间无损音频的流行确实推动了消费增长。
但是对于流行乐的过分追逐「HiRes」真是正确的吗?
「人造玄学」
咱曾经使用 EmiyaEngine
的 AkkoMode
及 SONY 的 DSEE
(注意没有 HX)处理 iTunes 下载的流行乐(有损 AAC),
并统一转换为相同规格的无损音频文件(连标签都是一样的)供他人盲测对听感排序。
几乎所有人都不能正确选出理论上的听感优劣顺序(原版 > DSEE
> AkkoMode
),且在公布谜底后极力掩饰自己对结果的判断失误。
这个测试并非批判玄学家对回放设备的金钱投入(模拟设备的听感差异是显著存在的),而是拷问自己:
这些小把戏真的是可以仅靠双耳区别的吗?
如前文说到的「造假」,不使用谱分析是根本不可能发现的。
所以,为了这些「HiRes」音频文件而多付出的磁盘和金钱真的是值得的么?
依咱看,在数字领域,这仅仅是「人造玄学」罢了,还不如买一打小金标来得实在。
拓展阅读: