Far Field Notes (4) How Spatial Feature Clusters


這是 far field 筆記系列第四篇, 寫這篇是因為做 CGMM-MVDR 時, 很好奇為何 spatial features 聚類的結果可以對應不同方向的聲源. 因此記錄下自己的一點想法.

假設我們有 $M$ 個麥克風, 則在 stft (short-time fourier transform) 上來說, $\mathbf{f}_{\omega,t}$ 表示一個頻率 $\omega$, 時間 $t$ 的 $M$ 維向量. 對於某一個 $\theta$ 方向的 narrowband 訊號, ideally 我們可以這麼表示

$$\begin{align} \mathbf{f}_{\omega,t}^{\theta}=f(\omega)\mathbf{\upsilon}(\theta)=f(\omega) \left[ \begin{array}{clr} e^{-j\omega\tau_0} \\ e^{-j\omega\tau_1} \\ \vdots \\ e^{-j\omega\tau_{M-1}} \end{array} \right] \end{align}$$

$\tau_i$ 表示由 $\theta$ 產生的第 $i$ 個 mic 的 time delay. 因此 spatial feature 每個維度之間的 phase offset 關係是固定的, 由 $\mathbf{\upsilon}(\theta)$ 決定. 所有如果有兩個方向 $\theta_1$ and $\theta_2$ 的聲源, phase offset 關係各自是 $\mathbf{\upsilon}(\theta_1)$ 和 $\mathbf{\upsilon}(\theta_2)$. 問題是要用什麼樣的 cluster 能對相同 phase offset 關係的 complex vector 聚類在一起, 而對不同 phase offset 關係能分開呢?

關鍵的答案就是 Circularly Symmetric Gaussian Distribution


Circularly Symmetric Gaussian Distribution

直接引用 slides 裡的一段定義

A complex Gaussian random vector $Z$ is circularly symmetric if $e^{j\phi}Z$ has the same distribution as $Z$ for all real $\phi$.

意思就是如果我們乘上固定的 phase offset $\phi$ (聲源有 time delay), 這相當於不改變維度之間的 phase offset 關係 (不改變聲源方向 $\theta$), 這樣的話它們會是同一個機率分佈, 而這種特性完全符合我們的需求!

我們直接擷取 slide 中的 Circularly Symmetric Gaussian Distribution 的定義:

詳細請見 [1] 的 slides.


Reference

  1. Circularly Symmetric Gaussian Random Vectors