上一篇中谈到了心理声学与人造玄学,其中为说明采样虚拟乐器的不完全「HiRes」,
拿了两首所谓的「HiRes」音乐做了可视化谱分析,说到了一些可能不太正确的推论。
本篇继续推进,站到技术层面窥视他们背后的原理。
技术列举
找了下发现类似的技术还挺多的(无中生有是最棒的),以下就稍微列举一下。
这部分的内容来自于湾湾华硕论坛。
DSEE / DSEE HX:
大法的技术。前者是 CD 时代的产物,声称可以把 MP3 拉到 CD 的水平上(44.1kHz 16bit);
后者是 HiRes 的产物,声称可以把 MP3 拉到 HiRes 的水平(最高 192kHz 32bit)。
Harman Clari-Fi:
Harman 的技术。声称透过实时分析检查压缩丢失细节并修复,可以让声音更通透宽广(动态范围更大)。
Eilex Harmony:
Eilex 产物。声称在时间域上消耗极小的算力重建压缩音频的谐波,可以是声音更温暖更富有细节(details & nuance)。
AWSM Ai Audio:
Bambu Tech 的产品。声称透过他们的软件可以分析学习预测并修复音频(包括流媒体),使声音清晰通透而逼真。
Samsung UHQ Upscaler:
三星手机上的音频提升效果器。声称可以提升音频到 48kHz 32bit 水平。
其实几家霓虹厂家都有类似的技术,不过是用在母带处理,最终成品被直接放在在线商城售卖这些东西最早商业化可以追溯到 2006 年(甚至更早),不过当年的新闻比较难找此处就不列举了
黑盒分析
以下内容仅为咱个人的观察结果,不保证正确性。
咱没有找到 Eilex Harmony 和 AWSM Ai Audio 相关的测试样本或评测说明,就简略说一下。
前者的官方说明页面(备份)。
其中关于 Dynamic Bit-Allocation 和 4x Over-Sampling 的说明和 EmiyaEngine AkkoMode 几乎一样(高阶噪音发生器)。没想到真的有人在商业项目里用这种纯粹整人的技术,XD
后者有个比较详细的 PDF 说明(备份)(Word 转的 PDF,XD)。
没有示例片段也没说具体一点的原理,完。
Samsung UHQ Upscaler:
详细查看这个帖子(备份)。
从文中可以看出,频谱拓展模式有严重的互调失真 XD。
Harman Clari-Fi:
在他们官网试听,摸出三段 30 秒片段扔进 Au,第一个女声的片段谱区别最明显。
16kHz 往上多了一堆脏东西的就是开了效果器的,很显然这和 CD 版本差远了,绝不是什么检查修复。
反倒感觉是加了 EQ,对人声和打击乐频段做了谐波增益,让齿音和鼓点明显变清晰了。
继续缩小时间粒度,稍微调整 Au 的谱分析 FFT 宽度,可以看到有明显的域变换处理痕迹,如下图所示。看起来就像初代 EmiyaEngine 的谱感觉是频域的处理算法过于辣鸡然后用 EQ 来「补强」(咱怎么就没想到这么做呢)
DSEE:
单独拿出来说,是因为这东西和加上「HX」的两码事。
咱找到最早的描述是这个(备份),
然后这里(备份)有个图解释了一下。
如果你想体验一下,只需要下载安装 Music Center 即可,相关的设置说明在这里。
通过使用虚拟声卡可以无损录制下开启 DSEE 的效果,如下图所示(为方便观察只取了一个声道):
原始音轨(已重采样到相同采样率):
这个技术是在 MP3 时代诞生的,对于截止频率 16kHz 的 MP3 而言是 OK 的,
但对于截止频率为 22.05kHz 甚至更高的而言,只是在制造辣鸡。
当声音振幅较小时甚至可以观察到明显的频谱断层:
从肉眼观察分析结论是这样的(不保证正确性):
首先对输入做频域数字滤波去掉 16kHz 以上的部分(这个衰减速度显然不是模拟滤波器),
然后将 816kHz 的部分复制出来套上高通滤波(截止频率 10kHz)并加上一丢丢衰减,22kHz 完成。
最后复制到 16
如果你对这一推断有疑问,可以自己录一段看频谱,或者相位反向 DSEE 前后的音轨再观察。
DSEE HX:
DSEE 放在今天就来说,对于音质就是「降维打击」,而 DSEE HX 就不一样了。嗯,没有强行套低通滤波器降维打击
这货不像 DSEE 只在产品说明里出现,而是和其他黑科技一样有开发者采访记录(备份)的。
目前位置,只有大法的设备上才有这一技术,且各设备因算力不同似乎有不一样的效果强度。
关于其深层次的原理,可以看这个页面(备份)有一张 PPT 给予说明。
看起来是带通多频段采样+谐波重建(识别乐器然后调用合成虚拟乐器重建频谱)。
比如咱在 A16 上用电脑对录的一段:
(片段与 DSEE 的片段相同,注意观察。为清晰观察原始频谱没有对线缆热噪声进行采样降噪。)
这首歌使用的都是虚拟乐器,因此谐波谱极其清晰。
可以观察到与 DSEE 的相同,都在 16kHz 附近有谐波的频率间隔不太对(本应间隔相同与基波成整数倍关系)。
但相比于 DSEE 而言是好上太多了。
看到这里,可以打开上一篇对比 mora 的处理手法,可以观察到类似之处,比如都存在错误出现的谐波。
(按照前边原理图这是可能出现的现象。难道是基波识别错误?)
与之不同的是,这里虽然也可以观察到镜像频谱,但是相比与前文的实在是微不足道。
要说有啥联系的话,可以用通信原理的说法描述:
前文的例子中,样本的线性调制使用的是 DSB 的下边带(所以有镜像对称),本文例子使用的是上边带。
镜像对称的片段在上文已做展示,此处只说明类似上边带线性搬移的蛛丝马迹。
请观察上图右侧的这一段合成音快速衰减过程特地截这一段就是为了这个。
可以发现在 1926kHz 的这部分(图上黄色竖线右侧)谐波的衰减斜率和 1319kHz 的这段(绿色竖线右侧)是相同的。
而理应高频部分衰减更快,就像图上 2~12kHz 那亮线(蓝色竖线右侧)的一样。
EmiyaEngine Copyband 模式使用的是类似的手法:
复制原始音频并加上高通滤波器去掉能量集中的低频部分,
调制使谱线接上原始音频频谱的末端(也就是 16~20kHz 附近),
最后将调制后的谱加回原始音频。
原始谱(已重采样至相同采样率):
Copyband 运算结果:
NoiseKiller
咱不太会写辞藻华丽的句子,所以就干脆地下结论吧:
以上所有技术都是 lo-fi 制造器 aka. 噪音发生器,请不要对自己使用以上任何技术(包括 EmiyaEngine)。如果你不怕玄学家敲爆你的头,就用这些东西生成几段音频玩玩。
时间是最大的暴力。
把裁判权留給时间就好。