請用此 Handle URI 來引用此文件: http://hdl.handle.net/11455/49811
標題: 應用非線性對應技術來調變聲調
Tone Modulation by Using Nonlinear Mapping Techniques
作者: 余明興
關鍵字: 技術發展
Tone
資訊科學--軟體
聲調
基週
非線性對應
聲調調變
基週同步疊加
動態時間校準
Pitch
Nonlinear mapping
Tone modulation
Pitch-synchronous overlap-add (PSOLA)
Dynamic time warping (DTW)
摘要: 本計畫是希望發展一套調變聲調的技術,我們希望利用非線性對應的技術來調變聲調。在此我們把語音中的一個基週(基本週期,pitch)定義成從一個基週中的最高振幅點到下一個基週中的最高振幅點,如附錄中的 Figure 2.1所示。 當聲調改變的時候,語音中的基週會隨著改變,音調變高時基週會變短,而音調變低時基週會變長。 應用動態時間校準(Dynamic Time Warping, DTW)的技術,我們發現這種變化所呈現的對應關係並不是線性的(linear),如附錄中的Figure 3.1所示。 其對應曲線可以用一條迴歸曲線(regressioncurve)來代表,如附錄中的Figure 3.2所示。我們發現到這樣的迴歸曲線可以用一種巴利爾曲線(Bezier curve)來逼近,如附錄中的Figure 3.3所示。 依據這樣的對應方式我們利用重新取樣(resampling)的作法來調變聲調。 目前我們發現到效果比最常用的PSOLA(Pitch-Synchronous Overlap-Add, 基週同步疊加)稍微好一點[OuYoung, Yu, Wu,and Hwang, 1996]。PSOLA的方法所產生的聲音較為平順,但是有一些類似回音的雜訊。我們的方法回音很少,但是有一些較為高頻的雜訊。我們認為我們的方法還可再加以改進,以下列出一些可能的方向。9. 在LPC(Linear Predictive Coding)的residuals用非線性對應的方式取得不同聲調的residuals時,口腔的參數也要跟著修改,因為中文的聲調改變時,口腔也跟著會有變化,這點和英語是不一樣的。10. PSOAL保留較多pitch的兩端(最大振幅處),而壓低pitch中間的振幅,我們的方法也可以再加上這個考慮。PSOLA把相鄰的兩個pitch做疊加,產生一種平滑化(smoothing)的效果,我們也可以把數個相鄰的pitch以適當的權重相加來求得較為平順的語音。
URI: http://hdl.handle.net/11455/49811
其他識別: NSC87-2213-E005-014
文章連結: http://grbsearch.stpi.narl.org.tw/GRB/result.jsp?id=356356&plan_no=NSC87-2213-E005-014&plan_year=87&projkey=PA8702-2832&target=plan&highStr=*&check=0&pnchDesc=%E6%87%89%E7%94%A8%E9%9D%9E%E7%B7%9A%E6%80%A7%E5%B0%8D%E6%87%89%E6%8A%80%E8%A1%93%E4%BE%86%E8%AA%BF%E8%AE%8A%E8%81%B2%E8%AA%BF
顯示於類別:應用數學系所

文件中的檔案:
沒有與此文件相關的檔案。


在 DSpace 系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。