1.频率均匀映射到K维

上次把fft矩阵,分别只保留第0 1 .. 256维,其余的置零,然后看生成声音的频率范围,发现是从两头向中间逼近的。但后来仔细看过算法后,是我理解错了。

采样频率=16000Hz,每个时间帧选用0.025s,则每个时间帧采样400个点,取离其最近的2次方,512个点。上次误认为是两头对称的,是忽略了采样定理:

声音最高频率是采样频率的一半

因此实际上最高频率是8000Hz,而另一半被舍弃掉。而根据fft算法,这8000Hz被均匀映射到K维上。

为了验证,如图构造fft矩阵:

声音如下,确实是从低频到高频,

其频谱图如下,

2.不同声音帧在频率上的分布有不同

对于这条原语音:

认为声音的响度为前百分之多少作为声音特征点,看声音特征点的分布:

后续或许有用。