語(yǔ)譜圖是二戰(zhàn)時(shí)期發(fā)明的,語(yǔ)譜圖就是語(yǔ)音頻譜圖,一般是通過(guò)處理接收的時(shí)域信號(hào)得到頻譜圖,因此只要有足夠時(shí)間長(zhǎng)度的時(shí)域信號(hào)就可。專業(yè)點(diǎn)講,那是頻譜分析視圖,如果針對(duì)語(yǔ)音數(shù)據(jù)的話,叫語(yǔ)譜圖。語(yǔ)譜圖的橫坐標(biāo)是時(shí)間,縱坐標(biāo)是頻率,坐標(biāo)點(diǎn)值為語(yǔ)音數(shù)據(jù)能量。由于是采用二維平面表達(dá)三維信息,所以能量值的大小是通過(guò)顏色來(lái)表示的,顏色深,表示該點(diǎn)的語(yǔ)音能量越強(qiáng)。

基本信息

可是為什么采用二維平面來(lái)表示三維信息呢?這個(gè)是有歷史原因的。在數(shù)字技術(shù)發(fā)展以前,人們可視化研究語(yǔ)音數(shù)據(jù)的方法是把數(shù)據(jù)通過(guò)頻率濾波器,然后各個(gè)頻率的數(shù)據(jù)驅(qū)動(dòng)相應(yīng)的類似針式打印的設(shè)備按頻率高低順序記錄在一卷紙上,信號(hào)的強(qiáng)弱由記錄在紙上的灰度來(lái)表示。記錄紙按照一定的速度旋轉(zhuǎn),即相當(dāng)于在不同的時(shí)間里記錄下語(yǔ)音數(shù)據(jù)。

語(yǔ)譜圖還分為窄帶語(yǔ)譜圖和寬帶語(yǔ)譜圖。

主要內(nèi)容

我們可以觀察語(yǔ)音不同頻段的信號(hào)強(qiáng)度隨時(shí)間的變化情況。由于音樂(lè)信號(hào)本身頻率豐富,不太容易看出規(guī)律,我們可以觀察一下純粹的語(yǔ)音數(shù)據(jù)的語(yǔ)譜圖(附圖)。從圖中可以看到明顯的一條條橫方向的條紋,我們稱為“聲紋”,有很多應(yīng)用。條紋的地方實(shí)際是顏色深的點(diǎn)聚集的地方,隨時(shí)間延續(xù),就延長(zhǎng)成條紋,也就是表示語(yǔ)音中頻率值為該點(diǎn)橫坐標(biāo)值的能量較強(qiáng),在整個(gè)語(yǔ)音中所占比重大,那么相應(yīng)影響人感知的效果要強(qiáng)烈得多。而一般語(yǔ)音中數(shù)據(jù)是周期性的,所以,能量強(qiáng)點(diǎn)的頻率分布是頻率周期的,即存在300Hz強(qiáng)點(diǎn),則一般在n*300Hz點(diǎn)也會(huì)出現(xiàn)強(qiáng)點(diǎn),所以我們看到的語(yǔ)譜圖都是條紋狀的。

盡管客觀人發(fā)聲器官的音域是有限度的,即一般人發(fā)聲最高頻率為4000Hz,樂(lè)器的音域要比人寬很多,打擊樂(lè)器的上限可以到20KHz。但是,由于我們數(shù)字分析頻率時(shí),采用的是算法實(shí)現(xiàn)的,一般是FFT,所以其結(jié)果是由采樣率決定的,即盡管是上限為4000Hz的語(yǔ)音數(shù)據(jù),如果采用16Khz的采樣率來(lái)分析,則仍然可以在4000Hz以上的頻段發(fā)現(xiàn)有數(shù)據(jù)分布,則可以認(rèn)為是算法誤差,非客觀事實(shí)。