DAISYプロジェクト
From Wikipedia, the free encyclopedia
経緯
2000年4月[5]バルセロナのポンペウ・ファブラ大学 Music Technology Group(MTG)との共同研究が開始され、VOCALOIDの信号処理部分が開発された[6][2]。2002年5月札幌のクリプトン・フューチャー・メディア、同年秋イングランドのZero-G Limited、他1社との接触が開始され、後に(少なくとも前述2社と)歌声ライブラリ制作とソフトウェア販売に関するライセンス供与の合意に達した。その後2003年2月26日の開発に関するプレス発表[4]、同年3月MusikmesseとAESコンベンションにおけるプロトタイプ展示・発表を経て、2004年1月、NAMM Showで最初のVOCALOID製品LeonとLolaがZero-Gから発表され、日本国内では同年3月3日に発売された。
ヤマハとMTGの共同研究
Music Technology Group

ヤマハが共同研究を行ったポンペウ・ファブラ大学 Music Technology Group(MTG)は、1994年に設立された音と音楽のコンピューティングに関する研究グループで、現在[いつ?]約40名の研究者が所属し、信号処理・音響・音楽・演奏モデル・音楽コミュニケーション等の研究を行っている。2005年発表の実世界インタフェースを使った仮想モジュラーシンセサイザー Reactableも、このMTGの研究開発成果の一つである。その他 Freesoundプロジェクト(Freesound.org)、音楽関連IT企業 BMATなどの活動が知られている。
Xavier Serra

MTG創立者でディレクターのXavier Serraは、1980年代にはスタンフォード大学CCRMAに所属し、物理モデリング・シンセシスで著名なJulius O. Smithと共に、MQ手法と同様なフェーズボコーダのピッチトラッキング拡張による分析/合成手法PARSHLを1987年開発した。また1989年には、McAuleyとQuatieriがMQ手法で提案した正弦波ベースの音声分析/合成手法 Sinusoidal modeling[7]の拡張として、音響モデルに音声合成で実績のあるノイズ成分を加えたインハーモニックな楽音分析/合成手法 Spectral modeling synthesis(SMS)を提案した。このSMS手法は、2000年4月開始のVOCALOIDの共同研究でも基盤技術の一つとして活用されている。
共同研究の成果
Loscos (2007)によれば、MTGとヤマハの共同研究で開発された信号処理手法は、2001〜2003年の三つの論文 Bonada & Loscos (2003)、Bonada et al. (2003)、Bonada et al. (2001)で発表された。この研究ではフレームベースの周波数領域テクニック(diphone等のフレーム単位に区切られた音声素片を周波数領域で処理する手法)を使って、与えられた楽譜と歌詞に従って歌声データベース上の音声素片を移調/時間伸縮/連結して歌声を合成するシステムが示された[8]。
この研究の音声モデルは、スペクトル・モデルの1つ SMS手法による「調波+残余」表現をベースに、準物理モデルの1つソース・フィルタモデルの拡張として新規開発された Excitation plus Resonances(EpR)音声モデルによる「励起+共鳴」表現を組合せて表現される。なおモデルと元波形の相違は、分析時に差分スペクトル形状として保存し、再合成時に加算して音質変化を抑制する[9][10]。
歌声合成の基盤として、phase-locked vocoder[11][12]に基づく[13][脚注 1]フレームベースのスペクトル分析/合成手法Spectral peak processing(SPP)を使ったサンプル変形手法 —— 時間スケーリング、スペクトルの非線形スケーリングによるピッチ変換、位相補正、スペクトル包絡のピーク強度調整[6](equalization)による音色調整 —— が開発された[8][14]。また素片接続に関しては、素片フレーム間に遷移フレームを挿入し、上記サンプル変形手法を使って位相接続やスペクトル形状接続(いわゆるスペクトル包絡補間[6])を行う手法が開発された[15]。
なお製品版VOCALOIDで実際に採用された技術については、たとえば剣持 & 大下 (2008)に概略説明がある。