EmiyaEngine 杂谈录「其二」

發佈於 2018-07-08 評論杂谈 EmiyaEngine Python HiRes

上一篇中谈到了心理声学与人造玄学，其中为说明采样虚拟乐器的不完全「HiRes」，
拿了两首所谓的「HiRes」音乐做了可视化谱分析，说到了一些可能不太正确的推论。
本篇继续推进，站到技术层面窥视他们背后的原理。

技术列举

找了下发现类似的技术还挺多的（无中生有是最棒的），以下就稍微列举一下。
这部分的内容来自于湾湾华硕论坛。

DSEE / DSEE HX：
大法的技术。前者是 CD 时代的产物，声称可以把 MP3 拉到 CD 的水平上（44.1kHz 16bit）；
后者是 HiRes 的产物，声称可以把 MP3 拉到 HiRes 的水平（最高 192kHz 32bit）。

Harman Clari-Fi：
Harman 的技术。声称透过实时分析检查压缩丢失细节并修复，可以让声音更通透宽广（动态范围更大）。

Eilex Harmony：
Eilex 产物。声称在时间域上消耗极小的算力重建压缩音频的谐波，可以是声音更温暖更富有细节（details & nuance）。

AWSM Ai Audio：
Bambu Tech 的产品。声称透过他们的软件可以分析学习预测并修复音频（包括流媒体），使声音清晰通透而逼真。

Samsung UHQ Upscaler：
三星手机上的音频提升效果器。声称可以提升音频到 48kHz 32bit 水平。

~~其实几家霓虹厂家都有类似的技术，不过是用在母带处理，最终成品被直接放在在线商城售卖~~
~~这些东西最早商业化可以追溯到 2006 年（甚至更早），不过当年的新闻比较难找此处就不列举了~~

黑盒分析

以下内容仅为咱个人的观察结果，不保证正确性。

咱没有找到 Eilex Harmony 和 AWSM Ai Audio 相关的测试样本或评测说明，就简略说一下。
前者的官方说明页面（备份）。
其中关于 Dynamic Bit-Allocation 和 4x Over-Sampling 的说明和 EmiyaEngine AkkoMode 几乎一样（高阶噪音发生器）。
~~没想到真的有人在商业项目里用这种纯粹整人的技术，XD~~
后者有个比较详细的 PDF 说明（备份）（Word 转的 PDF，XD）。
没有示例片段也没说具体一点的原理，完。

Samsung UHQ Upscaler：
详细查看这个帖子（备份）。
从文中可以看出，频谱拓展模式有严重的互调失真 XD。

Harman Clari-Fi：
在他们官网试听，摸出三段 30 秒片段扔进 Au，第一个女声的片段谱区别最明显。
16kHz 往上多了一堆脏东西的就是开了效果器的，很显然这和 CD 版本差远了，绝不是什么检查修复。
反倒感觉是加了 EQ，对人声和打击乐频段做了谐波增益，让齿音和鼓点明显变清晰了。
Clari-Fi
继续缩小时间粒度，稍微调整 Au 的谱分析 FFT 宽度，可以看到有明显的域变换处理痕迹，如下图所示。
~~看起来就像初代 EmiyaEngine 的谱~~
~~感觉是频域的处理算法过于辣鸡然后用 EQ 来「补强」（咱怎么就没想到这么做呢）~~
Clari-Fi FD

DSEE：
单独拿出来说，是因为这东西和加上「HX」的两码事。
咱找到最早的描述是这个（备份），
然后这里（备份）有个图解释了一下。
如果你想体验一下，只需要下载安装 Music Center 即可，相关的设置说明在这里。

通过使用虚拟声卡可以无损录制下开启 DSEE 的效果，如下图所示（为方便观察只取了一个声道）：
DSEE
原始音轨（已重采样到相同采样率）：
ORIG
这个技术是在 MP3 时代诞生的，对于截止频率 16kHz 的 MP3 而言是 OK 的，
但对于截止频率为 22.05kHz 甚至更高的而言，只是在制造辣鸡。

当声音振幅较小时甚至可以观察到明显的频谱断层：
BUG DSEE
从肉眼观察分析结论是这样的（不保证正确性）：
首先对输入做频域数字滤波去掉 16kHz 以上的部分（这个衰减速度显然不是模拟滤波器），
然后将 8~16kHz 的部分复制出来套上高通滤波（截止频率 10kHz）并加上一丢丢衰减，
最后复制到 16~22kHz 完成。
如果你对这一推断有疑问，可以自己录一段看频谱，或者相位反向 DSEE 前后的音轨再观察。

DSEE HX：
DSEE 放在今天就来说，对于音质就是「降维打击」，而 DSEE HX 就不一样了。
~~嗯，没有强行套低通滤波器降维打击~~
这货不像 DSEE 只在产品说明里出现，而是和其他黑科技一样有开发者采访记录（备份）的。
目前位置，只有大法的设备上才有这一技术，且各设备因算力不同似乎有不一样的效果强度。
关于其深层次的原理，可以看这个页面（备份）有一张 PPT 给予说明。
看起来是带通多频段采样+谐波重建（识别乐器然后调用合成虚拟乐器重建频谱）。

比如咱在 A16 上用电脑对录的一段：
（片段与 DSEE 的片段相同，注意观察。为清晰观察原始频谱没有对线缆热噪声进行采样降噪。）
这首歌使用的都是虚拟乐器，因此谐波谱极其清晰。
可以观察到与 DSEE 的相同，都在 16kHz 附近有谐波的频率间隔不太对（本应间隔相同与基波成整数倍关系）。
但相比于 DSEE 而言是好上太多了。
DSEE HX

看到这里，可以打开上一篇对比 mora 的处理手法，可以观察到类似之处，比如都存在错误出现的谐波。
（按照前边原理图这是可能出现的现象。难道是基波识别错误？）
与之不同的是，这里虽然也可以观察到镜像频谱，但是相比与前文的实在是微不足道。
要说有啥联系的话，可以用通信原理的说法描述：
前文的例子中，样本的线性调制使用的是 DSB 的下边带（所以有镜像对称），本文例子使用的是上边带。
镜像对称的片段在上文已做展示，此处只说明类似上边带线性搬移的蛛丝马迹。

SSB?