Open JTalk

オンライン版:1.06, SourceForge版:1.11 / 2012年12月25日 (12年前), SourceForge版: 2018年12月25日 (6年前)

リポジトリ sourceforge.net/projects/open-jtalk/

プログラミング
言語 C++

Open JTalk
開発元	名古屋工業大学

最新版	オンライン版:1.06, SourceForge版:1.11 / 2012年12月25日 (12年前) (2012-12-25), SourceForge版: 2018年12月25日 (6年前) (2018-12-25)
リポジトリ	sourceforge.net/projects/open-jtalk/
プログラミング言語	C++
使用エンジン	HTS
対応OS	Linux、他
対応言語	日本語
サポート状況	開発中
種別	テキスト音声合成
ライセンス	修正BSDライセンス
公式サイト	open-jtalk.sp.nitech.ac.jp
テンプレートを表示

Open JTalk（おーぷんじぇいとーく）は名古屋工業大学で開発された日本語テキスト音声合成ソフトウェアである^[1]。

Open JTalk は名古屋工業大学にて開発された、日本語を対象とするテキスト音声合成（text-to-speech、文章読み上げ）ソフトウェアである^[1]。オープンソースで公開されているスタンドアロン版と、Webサイトで公開されているオンライン版の2種類がある。

合成技術にHMM（Hidden Markov Model、隠れマルコフモデル）を採用しており、少ないメモリでも動作するのが特徴^[2]。その特徴からRaspberry Pi上での音声合成ライブラリとしての利用例も多い。

パラメータとしては「声質」（フォルマントシフト）、「ピッチシフト」（声の高さ）、「話速」に対応し、ボイスを切り替えることで感情表現にも対応する。

配布

オンライン版

公式サイト^[3] 上でシステムを公開しており、誰でも無料で利用可能。

指定可能なボイス（音響モデル）は2種類（男性1種類、女性4感情4種類）。

オープンソース版

SourceForgeにてソースコードが公開されている。利用にはビルドが必要。ビルドすることで各種OSに対応する。修正BSDライセンスで公開されている。音声合成にはさらに辞書データとボイスデータ（音響モデル、htsvoice形式）が必要^[2]。ライセンスに従うことでライブラリとして他ソフトウェアに組み込むことも可能。

導入

複数のOSに対応しているものの、OSS版はソースコードとしての公開のため導入にはビルドが必要となる。有志によって簡単に使えるように、さまざまな導入方法が用意されている。

アプリとしての導入方法

一部を除き、原則コマンドラインアプリとしての入手になる。

SHABERU: Windows向けのGUIのあるフリーソフト。追加音響モデルにも対応する。^[4]

パッケージマネージャを利用した導入方法

辞書データや音響モデルの追加導入が必要な場合がある(APT等)。また、導入後ビルドが必要な場合もある(pyopenjtalk等)。

Docker: docker pull u6kapps/open_jtalk ^[5]
Homebrew: brew install open-jtalk ^[6]
APT: apt install open-jtalk ^[7]; apt install open-jtalk-mecab-naist-jdic ※辞書データ; apt install hts-voice-nitech-jp-atr503-m001 ※音響モデル
Python: pip install pyopenjtalk ^[8]
.NET(NuGet): Install-Package SharpOpenJTalk ^[9]
Node.js (npm): npm install openjtalk ^[10]

音響モデル

Open JTalkで利用可能な音響モデル（ボイスライブラリ、htsvoice形式）の例。音響モデルは自作することも可能であり、SHABERU等むけにユーザーが制作した音響モデルが配布されている（規約で許可されていればOpen JTalkで利用可能）^[11]。

NIT ATR503 M001

標準男声音響モデル。Open JTalk本体、辞書データと共に配布されている^[12]。クリエイティブ・コモンズ・ライセンス3.0ライセンス。

メイ

メイ（HTS Voice "Mei"）は名古屋工業大学のMMD Agentを用いたデジタルサイネージでキャンパス案内を行う女性キャラクター^[13]。MMD Agentと共にクリエイティブ・コモンズ・ライセンスで配布されている^[14]。

Open JTalkで追加女声音響モデルとして利用可能。5つの感情別音響モデル（normal, happy, angry, sad, bashful）がある。

タクミ

タクミ（HTS Voice "Takumi"）はメイと共に名古屋工業大学のMMD Agentを用いたデジタルサイネージでキャンパス案内を行う男性キャラクター^[13]。MMD Agentと共にクリエイティブ・コモンズ・ライセンスで配布されている^[14]。

Open JTalkで追加男声音響モデルとして利用可能。4つの感情別音響モデル（normal, happy, angry, sad）がある。

tohoku-f01

東北大学伊藤・能勢研究室^[15] によって配布されている、Open JTalkで利用可能な女声音響モデル。クリエイティブ・コモンズ・ライセンス(4.0)で配布されている^[16]。

4つの感情別音響モデル（angry, happy, neutral, sad）がある。

利用

Open JTalk は様々な場面で実利用されている。以下はその一例である：

MMD Agent - Open JTalkと同じ開発者らが開発・メンテナンスを続けているMMDモデルを利用可能な対話エージェントシステム。音声合成部分はOpenJTalkが使われている^[2]。
NonVisual Desktop Access (NVDA) - Open JTalkが利用可能なOSSのスクリーンリーダー

ライブラリ・フレームワークとしての利用

音声合成を行わず、OpenJTalkの日本語処理部分のみを利用する事例がいくつか存在する。

DeNAによるハッカドールのキャラクターを利用した音声合成研究事例^[17]
VOICEVOX - ヒホ（ヒロシバ）作の、ITAコーパス^[18] を利用したボイスが利用可能なOSSなDNN音声合成ソフト^[19]。
シロワニさんのつくよみちゃんトークソフト - シロワニさん作の、フリーのDNN音声合成ソフト^[20]。

バージョン一覧

表. バージョン履歴
Open JTalk (SourceForge 版)		Open JTalk Demonstration Page (オンライン版)
バージョン	リリース日	バージョン	リリース日
1.11	2018-12-25^[1]
1.10	2016-12-25^[21]
1.09	2015-12-25^[22]
1.08	2014-12-25^[23]
1.07	2013-12-25^[24]
1.06	2012-12-25^[25]	1.8	2012-12-25
1.05	2011-12-25^[26]	1.7	2011-12-25
1.04	2011-07-07^[27]	1.6	2011-07-07
1.03	2011-05-01^[28]
1.02	2010-12-25^[29]	1.4	2010-12-25
1.01	2010-05-14^[30]
1.00	2009-12-25^[31]	1.0	2009-12-25

技術

Open JTalk は様々な音声合成手法を組み合わせて制作されている。

形態素解析^{[注 1]}: 単語ラティス上の経路予測 + 条件付き確率場^[32]
- エンジン: MeCab
- 発音辞書: 発音が追加された NAIST Japanese Dictionary (NAIST-jdic) ^[2]^[33]
アクセント句推定^{[注 2]}: 匂坂規則と独自の規則^[34]
音響モデル^{[注 3]}: 隠れマルコフモデル^[35]
波形生成^{[注 4]}:

配布

オンライン版

オープンソース版

導入

アプリとしての導入方法

パッケージマネージャを利用した導入方法

音響モデル

NIT ATR503 M001

メイ

タクミ

tohoku-f01

利用

ライブラリ・フレームワークとしての利用

バージョン一覧

技術

脚注

注釈

出典

参考文献

関連項目

外部リンク

Related Articles