VocaListener

VocaListener
	腳本錯誤：沒有「InfoboxImage」這個模塊。
	腳本錯誤：沒有「InfoboxImageVariant」這個模塊。
開發者	產業技術綜合研究所
當前版本	Template:Software version
源代碼庫	頁面Template:Plainlist/styles.css沒有內容。 <strong%20class= "error"><span%20class="scribunto-error%20mw-scribunto-error-6c8ed92f">腳本錯誤：沒有「Wd」這個模塊。 <strong%20class="error"><span%20class="scribunto-error%20mw-scribunto-error-6c8ed92f">腳本錯誤：沒有「wd」這個模塊。</span></strong>; Template:EditAtWikidata
引擎	頁面Template:Plainlist/styles.css沒有內容。腳本錯誤：沒有「Wd」這個模塊。 Template:EditAtWikidata
類型	語音合成系統
許可協議	頁面Template:Plainlist/styles.css沒有內容。腳本錯誤：沒有「Wd」這個模塊。 Template:EditAtWikidata
網站	staff.aist.go.jp/m.goto/VocaListener/index-j.html
	腳本錯誤：沒有「Template wrapper」這個模塊。

頁面Module:Infobox/styles.css沒有內容。

腳本錯誤：沒有「Check for unknown parameters」這個模塊。

VocaListener（簡稱腳本錯誤：沒有「Lang」這個模塊。）是一個自動測定用戶歌聲的語音合成參數的系統，可以簡單地把輸入的歌聲轉換成另一種風格或聲質的技術。技術分為三部分：一是合成歌聲模仿目標歌聲的核心技術「VocaListener-core」，二是編輯目標歌聲的技術「VocaListener-plus」，三是分析歌聲的技術「VocaListener-front-end」。主要由中野倫靖和後藤真孝參與研究，先後以VOCALOID 2的初音未來、鏡音鈴、連、GACKPOID和VOCALOID的MEIKO、KAITO作研究測試，採用的原因是因為產品已發放於市場，較容易入手。而音樂採用RWC研究用音樂資料庫（流行音樂）（RWC-MDB-P-2001）。研究目的是希望可以做到輕易合成高品質的歌聲，從而探索動聽歌聲的技巧，並在歌唱中得知人類個人的知覺。

歷史[編輯]

技術早於2006年8月已進行研究^[1]。最初於2008年4月28日公開，於NICONICO動畫上載音樂軟件初音未來版本的《PROLOGUE （頁面存檔備份，存於網際網路檔案館）》，歌曲原唱為聲優緒方智美。但最初只是寫作簡稱「腳本錯誤：沒有「Lang」這個模塊。」，並沒有正式發表技術，是一個試驗性質的公開。當時正值初音未來熱潮後不久，其極為自然、非常接近人類的歌聲大大超越初音未來平常歌曲的水準而被稱為「神調教」（把初音未來的歌曲調整得十分自然之意），更引起一段短暫對新技術真相的猜測^[2]。同年5月2日承認「腳本錯誤：沒有「Lang」這個模塊。」就是VocaListener^[3]。在5月28日的第75回音樂資訊科學研究會（頁面存檔備份，存於網際網路檔案館）正式發表。6月6日再公開鏡音鈴版本的《Game of Love （頁面存檔備份，存於網際網路檔案館）》，歌曲原唱為吉井弘美。9月22日再同時公開KAITO、MEIKO、初音未來、鏡音鈴、連ACT2、GACKPOID和合唱版本的演歌《大漁船》，2009年2月6日再公開巡音流歌的版本，歌曲原唱為西一男。4月27日開始Yamaha的「腳本錯誤：沒有「Lang」這個模塊。」Alpha版測試，只提供部份功能^[4]。

技術[編輯]

系統先以VocaListener-front-end分析目標歌聲和歌詞，辨認音高、音量、歌詞等，再由用戶以VocaListener-plus編輯修正，其後以VocaListener-core分析歌聲並加以合成，反覆測定音高、音量、歌詞等的相似度，由用戶加以微調，最後得到合成歌聲的參數。

VocaListener-core[編輯]

這是合成歌聲模仿目標歌聲的核心技術，由歌聲分析、歌聲合成、反覆的合成參數更新三種要素組成。歌聲分析的對象不止目標歌聲，亦會對合成後的歌聲作出分析，但分析的使用技術Viterbi alignment會有辨認錯誤的問題，需要反覆分析，務求兩者的風格盡量相近。判定音高分為MIDI的音名數值和滑音斜率。在音名數值中，組合VOCALOID 2滑音斜率（PIT、Pitch Bend）和滑音斜率敏感度（PBS、Pitch Bend Sensitivity）最多可以做出高或低兩個八度的滑音，而音名數值由以下數式選擇（NoteNumber：音名數值、σ=0.03、t是音符長度。）：

<math>{NoteNumber}=\overset{argmax}{n}{\Big({\sum_t exp}{\Big\{-\fracTemplate:(n-F 0(t))^2{2\sigma^2}\Big\}}\Big)}</math>

而合成歌聲是<math>F0\overset{(n)}{syn}(t)</math>、目標歌聲則是<math>F0_{org}(t)</math>。經過重複計算而把兩個數值不斷更新，變得相似。把PIT和PBS轉換為數式則是如此：

<math>{Pb}^{(n+1)}{(t)}={Pb}^{(n)}{(t)}+{\Big({{F0_{org}}(t)}-{F0\overset{(n)}{syn}(t)}\Big)}</math>

而音量測定上是使用相對數值，反覆測定而得到從0至127的強弱（DYN、Dynamics）數值。

VocaListener-plus[編輯]

這是編輯目標歌聲的技術，可以令歌聲有更廣闊的種類，但並非一定要使用。技術中分為兩種類，分別是改變音高和改變歌唱風格的機能。前者的改變音高，用途可以是修正走音，或可以合成原唱者不能唱出的音高。然而在音符較短的時候，可能會不能修正音高。後者可調整振音的強弱、音高、音量的平滑感，藉以改變歌唱風格，甚至加強歌唱的表現。

VocaListener-front-end[編輯]

VocaListener-front-end則分為歌聲分析及歌聲合成，在歌聲分析中需要從原歌聲中抽出音高、音量、發音開始時間和音長。

音高: 由以下數式轉換為MIDI的音名數值（fHz：基本頻率、fNoteNumber：MIDI的音名數值）：

<math>{fNoteNumber}={12}*{\log_2}\frac{fHz}{440}+{69}</math>

音量: 由以下數式計算（N：窗幅、x(t)：聲音波形、h(t)：窗函數）：

技術中N為2048（約46毫秒）、h(t)為漢寧（Hanning）窗。
發音開始時間和音長: 使用Viterbi alignment辨認音聲，再從歌詞轉換為音素，但偶然會有辨認錯誤，需要用戶修正。

參見[編輯]

參考資料[編輯]

↑ （[//web.archive.org/web/20160305001026/http://hil.t.u-tokyo.ac.jp/publications/download.php?bib=Kameoka2006MUS08.pdf 頁面存檔備份，存於網際網路檔案館）（頁面存檔備份，存於網際網路檔案館） 腳本錯誤：沒有「Lang」這個模塊。] （頁面存檔備份，存於網際網路檔案館），發佈頁（頁面存檔備份，存於網際網路檔案館）
↑ 腳本錯誤：沒有「citation/CS1」這個模塊。
↑ 腳本錯誤：沒有「citation/CS1」這個模塊。
↑ 腳本錯誤：沒有「citation/CS1」這個模塊。

頁面Template:ReflistH/styles.css沒有內容。

腳本錯誤：沒有「citation/CS1」這個模塊。
腳本錯誤：沒有「citation/CS1」這個模塊。

外部連結[編輯]

（日語）VocaListener （頁面存檔備份，存於網際網路檔案館）
（日語）NICONICO動畫：VocaListener Demonstrations （頁面存檔備份，存於網際網路檔案館）
（英文）（日語）產業技術綜合研究所（頁面存檔備份，存於網際網路檔案館）
（日語）後藤真孝's Home Page （頁面存檔備份，存於網際網路檔案館）
（日語）中野倫靖個人檔案
（英文）（日語）RWC音樂資料庫：流行音樂（頁面存檔備份，存於網際網路檔案館）
（英文）（日語）RWC音樂資料庫：音樂分類（頁面存檔備份，存於網際網路檔案館）

[1] （[//web.archive.org/web/20160305001026/http://hil.t.u-tokyo.ac.jp/publications/download.php?bib=Kameoka2006MUS08.pdf 頁面存檔備份，存於網際網路檔案館）（頁面存檔備份，存於網際網路檔案館） 腳本錯誤：沒有「Lang」這個模塊。] （頁面存檔備份，存於網際網路檔案館），發佈頁（頁面存檔備份，存於網際網路檔案館）

[2] 腳本錯誤：沒有「citation/CS1」這個模塊。

[3] 腳本錯誤：沒有「citation/CS1」這個模塊。

[4] 腳本錯誤：沒有「citation/CS1」這個模塊。

[1]

[2]

[3]

[4]

VocaListener

目次

歷史[編輯]

技術[編輯]

VocaListener-core[編輯]

VocaListener-plus[編輯]

VocaListener-front-end[編輯]

參見[編輯]

參考資料[編輯]

外部連結[編輯]

導覽選單

腳本錯誤：沒有「InfoboxImage」這個模塊。
腳本錯誤：沒有「InfoboxImageVariant」這個模塊。
開發者	產業技術綜合研究所
當前版本	Template:Software version
源代碼庫	頁面Template:Plainlist/styles.css沒有內容。 <strong%20class= "error"><span%20class="scribunto-error%20mw-scribunto-error-6c8ed92f">腳本錯誤：沒有「Wd」這個模塊。 <strong%20class="error"><span%20class="scribunto-error%20mw-scribunto-error-6c8ed92f">腳本錯誤：沒有「wd」這個模塊。</span></strong> Template:EditAtWikidata
引擎	頁面Template:Plainlist/styles.css沒有內容。腳本錯誤：沒有「Wd」這個模塊。 Template:EditAtWikidata
類型	語音合成系統
許可協議	頁面Template:Plainlist/styles.css沒有內容。腳本錯誤：沒有「Wd」這個模塊。 Template:EditAtWikidata
網站	staff.aist.go.jp/m.goto/VocaListener/index-j.html
腳本錯誤：沒有「Template wrapper」這個模塊。

VocaListener

歷史[編輯]

技術[編輯]

VocaListener-core[編輯]

VocaListener-plus[編輯]

VocaListener-front-end[編輯]

參見[編輯]

參考資料[編輯]

外部連結[編輯]

導覽選單

搜尋