作者:杜奕寧
今天布置了這學期信號與系統(tǒng)的小論文作業(yè)。有參加了上海中學生的科技節(jié)作品評選。他們的一篇關于聲音與年齡的論文讓我很感興趣。不知道這學期我的信號與系統(tǒng)班上的同學提交的小論文能否趕上這位中學生研究論文的內容。
01 引 言
1.1 項目由來
我對音樂很感興趣,所以,我在尋找課題時,最初的想法也落在了“聲音”上。我了解到諧波分析可以提取聲音特征,于是在經過幾次嘗試、調整后,我選擇以年齡為變量分析人的聲音。
對于“諧波”的好奇,源于一個聲音的實驗:用濕潤手指摩擦裝水高腳杯發(fā)出的440 Hz以及國際基準音中央A(440 Hz),它們的聲音是完全不一樣的。前者聲音刺耳且古怪,但后者卻完全處于我們的舒適的認知范圍內。這個例子也說明諧波對人聽覺所帶來的影響不可忽視,是很值得去探究的。
所以最后的題目就定為:“基于頻譜分析探究人的聲音隨年齡的變化”。
1.2 文獻綜述
通過對于“聲帶”、“年齡”等關鍵詞的內容模糊搜索,我在許多生物學、醫(yī)學的期刊或論文里進一步了解了人的發(fā)聲機制。通過對于“諧波”、“頻譜”等關鍵詞的搜索,我看到了較多有關于聲音的特征提取以及諧波對于聲音的影響。這兩部分各自的檢索結果都比較多。相對而言,二者相結合的研究就非常少了。
尹基德的漢語韻律嗓音發(fā)聲研究便是一例,他將聲帶發(fā)聲機制以及聲音的基音、諧波結合在一起考慮,重點把不同的漢語發(fā)音作為變量。雖然此研究與漢語發(fā)音并無關系,但是是為數不多的涉及到發(fā)聲機制以及諧波特征的綜合研究。
1.2.1 聲帶發(fā)聲原理
聲帶位于人類的喉部,是一個發(fā)聲器官,主要是由甲狀軟骨、杓狀軟骨、環(huán)狀軟骨、環(huán)甲肌、真聲帶(聲襞)、假聲帶(前庭襞)等部分組成。
覃折波等人利用超聲成像,解析正常人聲帶區(qū)的發(fā)聲原理。在研究中他們提到:“聲襞本身構成了聲門的一部分,其游離的內側緣所形成的開口即為聲門裂,聲門裂是喉腔最狹窄的部位。在喉內肌協(xié)調作用的支配下,聲襞運動使聲門裂有規(guī)律的開放和閉合,從氣管和肺沖出的氣流不斷沖擊聲帶,引起振動而發(fā)聲。”同時他們在分析數據時也指出了隨著年齡增長發(fā)聲器官的老化現象:“這與甲狀軟骨隨著年齡增加鈣化逐漸嚴重的生理特點相符,而聲像圖上顯示因甲狀軟骨嚴重鈣化致影遮擋也證實了這點。”
▲ 圖1.2.1 聲帶結構示意圖
在尹基德漢語韻律的嗓音發(fā)聲的研究中,他從三個調節(jié)方面來論述了漢語韻律的發(fā)音方式:音調調節(jié)、時長調節(jié)以及強度調節(jié)。在音調調節(jié)方面,作者提出,最重要的便是環(huán)甲肌與聲帶肌。如上圖1所示,環(huán)甲肌通過拉扯甲狀軟骨來調節(jié)真聲帶的張力,從而改變聲帶肌的硬度與有效質量以調節(jié)音調。另外,文中提到真聲與假聲的發(fā)聲原理是不同的,“從正常嗓音發(fā)聲轉變?yōu)榧俾晻r,環(huán)甲肌的變化不明顯而聲帶肌的電信號明顯下降。”1注意到這一點,本項目的聲音樣本全部采用的是真聲。
另外,日本耳科會報的一篇文章提出:聲帶肌截面積變化、聲帶肌纖維數的變化、肌纖維類型的變化、脂褐質沉積率四個方面是聲帶老化的重要指標。
通過這些文獻的查閱,我認為,人的聲音會隨著年齡的增加而有一定的變化,而如何對其進行測量,并找到其中的關聯性,則是我的研究重點。
1.2.2 諧波的研究概述
“諧波”在許多有關聲音文章中都被作為了一個關鍵數據去看待,因為“諧波”確實是與我們平時所說的“音色”是分不開的。
張雪源在其研究中提到,人在聽到一個具有諧波結構的聲音時,不會依次感知到每一個單一泛音的頻率,而是將信號整體感知為基頻頻率,而將泛音的個數、能量大小、泛音能量衰減速率等感知為音色 。黃天乾等人通過分析鋼琴比較特殊的七次諧波、九次諧波來研究其音質5;張雪源則分析得出:小提琴因其泛音多且能量衰減慢、黑管因其泛音少而能量衰減快,所以前者聲音明亮而后者較為低沉(張雪源)4;楊婧基于諧波的特征對于不同樂器進行音色特征提取6……這些都反應了諧波作為一個聲音特征的重要地位。所以,在對聲音進行定量分析的過程中,諧波的研究有其重要的意義。
1.3 研究意義
在除了純粹的科學探究以外,本實驗還可能為其它切實的領域提供幫助:
1. 在此基礎上進一步了解聲音衰老的機制,幫助提出修復方法
2. 進一步擴大數據,可以提取特定年齡的特定聲音特征,可用于身份識別等領域。
1.4 創(chuàng)新點
本人認為,該研究的創(chuàng)新點主要有以下兩點:
1. 通過對人的聲音的諧波分析,在前人定性聲帶衰老的基礎上,為定量研究人的聲帶衰老提供可能。
2. 通過對頻譜特征的提取讓聲音在數據層面上與年齡相關聯,并輔助其推測。
02 原 理
▲ 圖2.1 諧波示意圖
如上圖2諧波原理圖所示:黑色直線是弦,藍線、黃線、綠線都是這根弦的振動方式,分別代表著二次諧波、三次諧波、四次諧波……以此類推,但一般而言越往后的能量就越微弱??梢院苋菀字溃翰ㄩLλ乘以諧波次數n就等于半條弦的長度,同時:一秒鐘速度u = 一秒內波的頻數f每一段波的長度λ。所以得到: 。把第二個式子帶入第一個式子, 。
如果假設弦長一定,且弦各部分均勻,那么L與u皆為定值,則f與n成正比。這證明了倍頻的頻率在理論中應為基頻的整數倍。
03 實 驗
3.1 實驗器材
【表-1 實驗器材】
使用軟件 | 功能 | 使用版本 |
---|---|---|
Sigview | 音頻分析軟件 | Sigview v5.0 |
Adobe Audition CC | 音頻截取軟件 | Adobe Audition CC20 |
OriginPro | 圖表制作軟件 | OriginPro9.1 64-bit |
3.2 音頻采集
本文的研究方向在于一個人的聲音特征隨年齡變化的改變。因為很難短時間做到跟蹤一個人幾十年的聲音,所以實驗的音頻來源采用了李谷一幾乎每年春晚都演唱的《難忘今宵》。并且采用《難忘今宵》也有另一原因:歌唱與講話不同,歌唱可以確定一個相對穩(wěn)定的音高,有效地為實驗控制了變量。如楊婧在其學術論文中所言,樂音信號與語音信號相比更具有明顯的諧波特征。
從第一次演唱的1984到最近期的2019,時間跨度為三十五年,除去一些并非李谷一演唱的部分,大概可以留下13份左右的樣本,數據較為充足。我兩次截取了所有不同年份音頻之中的“忘”字以及“宵”字。
伴奏音樂其實是一個實驗中非常大的干擾。一開始我粗糙截取了她演唱的整個音,但它們的伴奏往往在后半段掩蓋了人聲,導致音頻價值較低。所以我使用adobe audition較精細地裁剪掉了后邊樂聲掩蓋了人聲的部分。
3.3 頻譜分析
我將音頻導入sigview后,進行了fft分析。如圖4所示,藍色是打開音頻時的初始狀態(tài),是橫軸為時間的圖像;紅色則是傅里葉變換后輸出的頻譜。這一步操作完畢以后得到近三十份的頻譜便是我的“原始數據”了。
▲ 圖3.3.1 1990年“宵”字音頻分析
“數據收集”可以說是本實驗中遇到的一個挺大的困難,這是與我實驗本身的特性相關的。經過fft分析以后得到的數據是原始的、復雜的、凌亂的,所以我在抉擇到底采用那些數據作為有效數據時遇到了困難。為了避免混亂,得到一個固定的數據收集方式是非常重要的。下文將簡單展示本人在確定數據收集方式時,多方面的分析與考量。
3.3.1 基頻數據錄入方式
錄入基頻數據從三方面著手:
1. 假設其為基頻,是否能尋找到其對應倍頻
2. 是否落在歌曲中該音的范圍內(“忘”:392Hz-415Hz,“宵”:440-460Hz)
3. 以上二者任意答案為否的備選峰值直接排除,若仍有多選項,取其y值明顯更高的。
若并不存在“明顯更大”,則改組數據不參與分析計算,僅作參考。
3.3.2 倍頻數據錄入方式
倍頻數據的錄入都是基于一個已經確定的基頻之上的,要同時用到“set harmonic marker”、“show 5 highest points”兩個sigview的自帶功能。第一個是可以選定一個頻率以后自動顯示出它所有理論倍頻的所在位置。“show 5 highest points”同字面意思,會顯示出你框定范圍內的五個最高點并直接讀出此點坐標。
左下圖的情況(紅圈為理論倍頻,藍色為實際峰值)是容易解決的,直接將理論倍頻往最近最高的峰值靠攏即可,但如果遇到右下圖這種情況,又該如何?左側不遠處是最高峰,右側更近一點的地方是次高峰,那么取峰值更大的還是取更近的?實際操作一下就不難發(fā)現,取最高峰非常好操作,答案也唯一。反之,如果把“取更近的”作為規(guī)則,那么在遇到圖5情況時,就得不到答案了。
▲ 圖3.3.2 倍頻數據錄入案例-簡單
▲ 圖3.3.3 倍頻數據錄入案例-復雜
圖5中,如果按照取最近峰值的原則,4號點應該是首推,但4號點的縱軸數值極小。那在就近的原則下,再取了3號點作為最終數據。但一比對,最高峰1號似乎只比三號點略遠非常微弱的一點點,卻在縱軸數值上大了一倍,二者便很難取舍了……這種混亂的取值方式是行不通的,因為在選擇過程中,只要數據采集者隨意地心念一動,最終的取值就會發(fā)生翻天覆地的變化,數據也就失去了它應有的價值。
故而,在所有倍頻數據的采集過程當中,我都是直接取了候選名單中的最高峰。這樣子完全地杜絕了采集標準搖擺不定帶來的問題,但這樣做同時也可能在實驗中留下問題——憑什么最大值就是真正應該選擇的倍頻呢?理由有二:
第一,在這些候選峰值之中,橫坐標的差值是非常小的,往往都在理論值的正負0.1-0.7%的區(qū)間內。上圖是為了凸顯選擇數據的糾結所以把圖像放得很大,但實際上,往往橫坐標只浮動了幾赫茲就能讓縱坐標翻一倍、甚至三四倍,那么取舍也很分明了。
第二,李谷一她自己唱出的聲音并不完美,有多個峰值是正?,F象。雖然我記錄的n次倍頻不能全然代表整段的n次諧波,但它是這一段諧波里最能代表這段諧波的峰值。
故而經過仔細取舍,我最終選擇采取“取最高峰”的方式來記錄倍頻的值。
04 數據分析
我的基礎數據來源于兩波樣本——聲源為“忘”字的12份、聲源為“宵”字的12份。其中“宵”字樣本的質量我觀察下來是更高的,所以在之后也會使用的略多一點。
在第二部分“原理”中,已經解釋了基頻與倍頻的關系——倍頻頻率按理論來說必然是基頻頻率的整數倍?;仡櫸覀兊玫嚼硐牍降闹T多假設,其中兩點實際上并不能完全成立:一.振動的弦長度是一定的。二.弦是各處均勻的。人的聲帶在振動時長度是一定的嗎?人的聲帶是均勻的嗎?正是因為這些假設我們不能保證,所以說會出現各種具有研究意義的誤差以及有意思的現象,也能觀察到一些規(guī)律。
4.1 峰值偏離與是年齡關系
4.1.1 峰值偏移與年齡觀察
在理想模型里面,倍頻應該是嚴謹地是基頻的整數倍。所以我在最開始時,是非常嚴格地遵守這一條規(guī)則去采集數據的。但是我逐漸發(fā)現,恰在x值=基頻整數倍的時候,y值并不在峰之上,甚至還有的恰好落在了谷底,那樣子的得到的y值數據十分不恰當。所以在實驗進程初期個人就有猜測:當把理論體系搬運到實際實驗中時,因為種種理想假設失效,會出現一些小誤差。得出這個結論以后,我轉變了數據的采集方法,也開始深入研究真實峰值與理論峰值的偏離與年齡的關系。
在這個問題中首先要把握住“偏離”這個詞匯,也由此延伸出兩條不同的道路——分析差值,分析比值。
基礎數據中不難發(fā)現,在倍頻倍數增大的同時,理論峰值與真實峰值橫坐標上的差值也在增大??墒沁@個趨勢并不意為著什么,分析差值的大小我個人認為不可取。第一、這個偏離的產生雖然原因不明,但偏離的大小是很可能與基頻取值相關的,表中可見每年的基頻都有變化,未經過歸一化就去分析相當于忽視了基頻取值這一變量,讓基頻不同的年份無法統(tǒng)一分析。第二、在倍頻被得出的過程中,牽涉到的變量僅僅有“基頻”與“倍頻是乘以幾”這兩項,所以在同一年中基頻固定時,造成這個偏離的只能是來源于“真實乘上去的數”與“理論上應乘上去的數”不一樣。倍頻是一個經過乘法(而不是加減)得到的數據,所以該分析是真實測出的倍頻與整數倍倍頻的比值(而不是差值)。
所以我放棄了對于數據散亂的差值的分析,轉入對于比值的分析。在此部分中,新的問題又涌現出來,這也是我至今并未給出確定答案的——如何用幾個已知的變量去定義這個偏離?我在嘗試中從三種思路提出了三種效果不同但各有道理的方案:
令基頻=b,諧波次數=n,真實頻率=t,abs()為取絕對值函數,理論頻率=b · n
三個方案的數據意義是不同的。第一個反應的是真實與理論的差值以真實頻率值為參考的偏離率;第二個反應的是真實與理論的差值以理論值為參考的偏離率;第三個反應的則是基頻與倍頻的直接運算關系,即基頻*(h(x)+n)=倍頻。在三者都各自有其不可替代的意義的情況下,我把三種分析方式的結果都羅列了出來。另外,為了對于每一年的總體偏離狀況有一個總體的了解,我把2-8次諧波的偏離率全部相加,得到了total一欄。此處以“宵”字為例,計算得三張表格:
年份 | f(x) total | g(x) total | h(x) total |
---|---|---|---|
2019 | 0.037030 | 0.036831 | 0.153925 |
2018 | 0.040015 | 0.040001 | 0.187327 |
2017 | 0.014949 | 0.014903 | 0.061542 |
2016 | 0.035468 | 0.035663 | 0.120753 |
2015 | 0.040381 | 0.040372 | 0.172545 |
2014 | 0.045170 | 0.045437 | 0.204236 |
2013 | 0.051366 | 0.051117 | 0.247460 |
2011 | 0.045015 | 0.045084 | 0.265867 |
1996 | 0.025946 | 0.025933 | 0.108896 |
1992 | 0.019542 | 0.019492 | 0.091860 |
1990 | 0.032161 | 0.032152 | 0.145650 |
1984 | 0.032722 | 0.032963 | 0.132432 |
(注:在求和時考慮到有些年份觀察不到某些次數的諧波,所以在計算時引入變量k,表示有k個諧波是觀測不到的。因為觀測不到諧波并不能夠證明偏離是沒有的,所以為公平起見,total這個量在通加的基礎上進行覆蓋:
total=total·7/(7-k)。)
三者雖然不盡相同,但三個公式得出的值的大趨勢是一樣的。根據數據制作的相應變化趨勢圖如下圖所示:
▲ 圖4.1.1 年份與偏離率相關趨勢圖
1997-2010年間,因為李谷一并未演唱,所以數據缺失,這是本實驗的一個遺憾。根據先前他人的研究,一個字的發(fā)音方式不同也會對于這個實驗帶來影響1,并且也不好確定不同歌里面的音調是否一致,所以缺失年份數據很難補充。
回到這三張圖,可以看到他們大趨勢一致:其偏離率都隨著演唱者年齡的增大而增大。這個趨勢作為結論不夠嚴謹,因為仍然能看到年齡增大、偏離卻減小的許多例子。本人認為這與基音可能有關,此問題將在下一部分中解釋。
4.1.2 峰值偏移、基頻頻率與年齡關系
隨著李谷一年齡的增長,她歌唱的基音是在下降的。比如“忘”字:(為了讓這個下降表現得更加直觀,它的頻率的數值統(tǒng)一被減去了385 Hz)。又如“宵”字,仍然是明顯的下降趨勢。隨著演唱者年齡的增大,她有意或無意地降低了基音的高度。縱觀1984-2019的35年,在兩個音的演唱中都大約下降了20-25 Hz,不過仍然還處在半音范圍內。
▲ 圖4.1.2 忘與宵基頻下降趨勢
年紀增長時基頻有所下降并不難理解,相比更有趣的事情是峰值微弱偏離與基頻的存在的一種互動。我們把2011-2019年這一段數據密集的內容單獨拿出,并把他們n次諧波的x值分別除以n來反應偏移。
▲ 圖4.1.3 反映偏離程度的折線圖
可以看到在2011年時它的五種顏色的點都很接近,沒有較大的偏離且基頻教高;2013年,即年齡+2后,幾個點的偏移略微增大(這與我4.2.1對于偏離率增大的趨勢是吻合的),同時基音下降;2014年基音抬高,讓五個點的上下浮動達到了一個峰值,偏離嚴重;2015年,基音重新降下來以后這個浮動也有縮??;2016年基音再抬升,偏移達到最大值;2017基頻下降,偏移縮?。?018年基頻沒有下降,偏移增大;2019年基頻下降,偏移縮小。
就本圖中的三個變量:年齡、基音、偏移而言,年齡的增長是客觀的,偏移來源于聲帶的條件,唯獨“基音”是一個可以隨著演唱者主觀意志而改變的。正是因為這種主觀意志的影響,所以對于“基音”我們僅把握住一個大趨勢即可。同時我們也發(fā)現,在年齡增加的過程中,每一次基音的抬高都帶來了偏移程度的擴大。做一個總結,基音的升高與年齡的增長都會導致偏移程度的增加,而基音降低可以導致偏移程度降低。
把樣本擴大進行進一步分析。本圖的擴大體現在兩方面:年份添加了1984、1990、1992、1996四份數據,諧波最高次數從上一張的5次提升到了7次。基頻為黑色,而2-7次諧波x值除以各自次數分別為紅色、綠色、藍色、淡紫色、黃色、深紫色。
▲ 圖4.1.4 反應偏離的折線圖全圖
在這一張圖中,通過圖像與數據可以發(fā)現,這組數據完全滿足結論:1.隨著年齡增長,每一次基音的抬高都會導致偏移程度的增大。2.每一次基音的降低都會導致偏移程度的縮小。
第一條結論與第一張小范圍的數據分析結論是一致的,而第二條個人認為是屬于巧合——基音降低使偏移縮小、年齡增加使偏移增加,兩個作用相反的變化同時存在,最后恰巧前者的影響力更大一些。
分兩次來制圖分析是我認為有必要的。第一,1984-2010年跨越了26年卻僅有4份數據,要研究一個連貫的變化不如2011-2019年的數據有效。第二,諧波次數增加以后數據過于復雜,直接上手分析會造成困擾,不過最后發(fā)現的規(guī)律也得到了驗證。
本章承接4.1.1峰值偏移與年齡的初步結論,觀察到偏移、基頻、年齡三者互動關系的存在,為定量嘗試做了事實基礎。
4.2 基頻倍頻與峰值偏移與年齡相關分析
本部分旨在提出基于上文所觀察到明顯規(guī)律的進一步探索的方法。
本部分將圍繞“關聯函數”(即兩個數組協(xié)方差比上各自標準差的值)展開。一般而言,兩個數組的關聯度如果可以達到0.9以上,那么就可以認為是具有較強關聯性的。在初步嘗試中,本人將各年齡的峰值偏移總和作為數組A,各年齡的基音頻率作為數組B,經計算得關聯函數等于0.61545。這個數據表明,三個因素在計算關聯函數是是必須要同時考慮到的。
為把“年齡”融入到這個關聯系數的計算當中,經過思考,我把[峰值偏移+f(相對年齡)]作為數組A,各年齡的基音頻率作為數組B進行嘗試。相對年齡是我在這里使用的年齡計算方式,即把最早的1984年作為0,1990作為6,1992作為8,以此類推。
現在待確定的是這個f(x)到底是何種關系。因為每一次計算關聯系數步驟很復雜,所以我手動計算不是很切實際,因為我要處理的數據量是極大的。鑒此,我用python簡單地編程了一個程序來進行計算。我先假設它的影響方式是一次的,設斜率為k,以0.1為步長從0開始增大到100,又以0.1為步長從0開始減小到100。下圖是結果展示,k>0時最大值在k=100時取到0.89左右,并仍然具有緩慢上升的趨勢,可能在0.90左右存在其漸近線。k<0時,最大值在k=-2時取到,為0.91141。由此,最合理的猜測是數組(峰值偏移-2*相對年齡)與數組f有關。
▲ 圖4.2.1 程序輸出結果
這個嘗試是初步的,具有很大的發(fā)展空間。
首先,年齡以正比例形式影響偏離量是我的假設,也有可能是有常數項的一次、二次、三次……在這個方案中,只需要略微改動程序為雙層嵌套、三層嵌套也能實現。其次,年齡是使用相對年齡還是李谷一本人的年齡有待考量。這兩種算法的結果是不一樣的,但這很可能牽涉到生物領域,要了解聲帶老化過程的起始點等等復雜因素。
希望本嘗試對于峰值偏移、年齡、基頻之間定量關系的探索有一定意義。
4.3 倍頻相對峰值偏移與年齡原因探索
先從基音隨年齡增長而下降的趨勢說起,因為在此處計算還不涉及到倍頻峰值偏移的問題,所以用較理想的公式進行計算。整理一下現有公式:u=λ•f;F=k•f;另外是波在弦中的速度u=根號下T/ρ,其中T 為張力,ρ為線密度。
最后得到的式子,拋開定量L與ρ,本質是基頻與k、Δx二者變化的關系。粗淺來講,隨著一個人年齡增長的聲帶肌肉老化松弛,這個系數k會降低,從而也在Δ降不發(fā)生改變的情況下使基頻f0下降,這也就能成功解釋在4.1.2開頭提到的現象了。
當然,也很明顯這個下降是可以有意識地人為避免的,如果演唱者想要在年齡增大以后仍然保持基頻在同一高度,如果仍然對其施加一樣的力的話,T一定那么k下降則Δ降增大,結果是分子不變,分母變大,基音下降。想要使f0保持穩(wěn)定的關鍵是在于保持下式不變:
可見為使基頻穩(wěn)定,T隨k的減小應當減小,但這個減小的程度便涉及到這個復雜的函數了。所以本部分得出結論:由于肌肉的老化導致的松弛,使k減小從而導致基頻下降。演唱者通過有意識地抬高基頻可以緩解,并且在這個抬高的過程中肌肉拉力T會減小。
4.4 倍頻值歲年齡變化
上一部分是對于峰值x值的研究,而此板塊則是對于分析y值數據的嘗試。
初始數據因為音源響度、雜音等問題雜亂無章,所以第一步要進行歸一化。把每份音頻中基頻的y值定為1,那么其余峰值的y值也得相應地縮小,匯入下表以后得到的便是比較有意義的數據(數據見附錄)。
把它們制圖后得到:
▲ 圖4.4.1 諧波值與基頻比值
▲ 圖4.4.2 歸一化后的y值
最明顯的現象是二次諧波、三次諧波的突出。如果把各年數據進行累加則同時能在二次、三次諧波上面發(fā)現這一點。另外,把各個年份的同次諧波的y值進行累加,也可以看到在其宵字中在七次諧波的一個略微上浮。
▲ / 各年份諧波折線圖
結合年齡來看,隨著李谷一年齡的增大,“宵”字同年各次諧波歸一化后y值之和隨著年齡增大而減?。ㄈ绫硭荆?ldquo;忘”字數據則混亂不堪沒有規(guī)律,趨勢線為水平。結合上一章的分析,我認為導致此結果的原因可能是李谷一隨著年齡上升,基頻各峰值趨于分散所致。正是這種分散,在我只采取最高峰值的數據收集方法下,很難觀察到隨年齡變化的結論。這一部分的分析是不成功的。
05 結論與展望
5.1 結論
這里我按照數據分析各板塊的順序來進行結論的總結。
首先是在4.1.1中,通過不同的定量方式來考察“宵”字12份樣本中每一次峰值橫坐標與理論的偏離程度,并發(fā)現隨著年齡上升,偏離率在三種定量方式中都處于上升的趨勢之中。隨后在4.1.2進一步分析,加入基音頻率作為第三個變量分析,發(fā)現基音的上升和年齡的上升共同會導致偏離程度的加劇。此兩章論證了年齡增長會導致這個偏離變大,但同時降低基頻可以一定程度上掩蓋此問題。
4.1.3是一個對上文三變量定量情況的討論,目前得出最合理的說法是:數組(峰值偏移-2*相對年齡)與基頻關聯度最大。這個嘗試具有可拓展性,也或許可以為定量表示聲帶衰老程度提供提示。
最后,在4.2中,我對于每一次峰值的y值進行分析,發(fā)現二次、三次諧波顯著含能量更大。因為數據采集方式問題導致此板塊無法深入分析。如果可以在進一步研究中把圖像圍成的面積作為新的y值標準,或許會有新的突破。
5.2 展望
一方面,這個項目本身可以被進一步優(yōu)化。
因為前后此項目并前后用時也未超過一年,我是很難做到自己來做實驗樣本的。所以就只能在網上去獲得實驗樣本?!峨y忘今宵》作為一個跨度非常大而且還是同一位演唱者的一份數據在我看來已經是非常好的突破口了。然而它也存在著伴奏音樂、背景噪聲、多次錄制使音頻質量下降(它錄一次,我再錄一次)等等問題。如果能把這個項目作為一個長期項目(至少……四五年)的話,一定會是對于實驗的一個重要優(yōu)化。
我的對于這個課題所涉及的領域的了解還需要加深。舉一個例子,我在確定諧波峰值(見3.2.4)時最終統(tǒng)一采取了最高峰峰值,雖然成功避免了數據的混亂,但這樣子是不夠嚴謹的。我想可能是因為我對于諧波的認知不夠到位所以才找不到一個更好的方法。
其實做這個項目的過程也是一個我自己去摸索去提高的過程,在我的認知不斷地被新知更新的時候,許多原先做的老數據就會暴露出問題。我不斷地回過頭去刷新老數據實際上花了挺多時間。如果時間允許,我希望可以再多挑幾個字出來進行研究來把這個數據量進一步擴大。相信那樣能讓我發(fā)現更多。
另一方面,這個項目在幾個點上可以被進一步拓展:
此處引入的僅僅是“年齡”這個單一變量,那么性別呢?是否經過訓練呢?歌唱技巧呢?……更多的變量在一個全新的課題里是可以被拓展進去的。
可觀測到的最高諧波次數到底與什么有關?這個問題在調查過程中就已經引起了我的好奇了,為什么我第一波樣本里一般只能最高到達三次、四次,而第二波里卻能達到八次、九次?是時長問題,還是強度問題,還是發(fā)音口型問題呢?
是否能將我的結論與生物板塊進行更多的結合,而不要只是停留在發(fā)聲器官老化這一層上?(當然我可以預想到,這個結合是對現在的我還是有一定技術困難的。)
聲帶老化在生物領域中更多是現象性的,如果本研究足夠成熟,本人認為有可能可以作為定量聲帶衰老程度的一種方式。
音發(fā)聲研究[D]. 博士學位論文,北京大學,2010 [2]覃折波,何蕓,馮玉潔,郭燕麗,華興. 正常成人聲帶區(qū)解剖結構的超聲成像[J]. 臨床超聲醫(yī)學雜志 2017,19(1):14-17 [3]鈴木徹. 聲帶肌的衰老變化[J]. 日本耳科會報1982,85(11):1469 [4]張雪源. 面向音頻檢索的音頻特征分析方法研究[D]. 博士學位論文,華南理工大學,2015 [5]黃天乾,謝志文. 鋼琴幅度譜的七、九次諧波對鋼琴音質影響的研究[J]. 電聲基礎 2005,4:4-7 [6]楊婧. 基于諧波結構的樂器音色提取方法研究[D]. 碩士學位論文,哈爾比工業(yè)大學,2018