Open JTalk

From Wikipedia, the free encyclopedia

Open JTalkおーぷんじぇいとーく名古屋工業大学で開発された日本語テキスト音声合成ソフトウェアである[1]

最新版
オンライン版:1.06, SourceForge版:1.11 / 2012年12月25日 (13年前) (2012-12-25), SourceForge版: 2018年12月25日 (7年前) (2018-12-25)
プログラミング
言語
C++
概要 開発元, 最新版 ...
Open JTalk
開発元 名古屋工業大学
最新版
オンライン版:1.06, SourceForge版:1.11 / 2012年12月25日 (13年前) (2012-12-25), SourceForge版: 2018年12月25日 (7年前) (2018-12-25)
リポジトリ sourceforge.net/projects/open-jtalk/
プログラミング
言語
C++
使用エンジン HTS
対応OS Linux、他
対応言語 日本語
サポート状況 開発中
種別 テキスト音声合成
ライセンス 修正BSDライセンス
公式サイト open-jtalk.sp.nitech.ac.jp
テンプレートを表示
閉じる

概要

開発の原点にあたる名古屋工業大学

Open JTalk は名古屋工業大学にて開発された、日本語を対象とするテキスト音声合成(text-to-speech、文章読み上げ)ソフトウェアである[1]オープンソースで公開されているスタンドアロン版と、Webサイトで公開されているオンライン版の2種類がある。

合成技術にHMM(Hidden Markov Model、隠れマルコフモデル)を採用しており、少ないメモリでも動作するのが特徴[2]。その特徴からRaspberry Pi上での音声合成ライブラリとしての利用例も多い。

パラメータとしては「声質」(フォルマントシフト)、「ピッチシフト」(声の高さ)、「話速」に対応し、ボイスを切り替えることで感情表現にも対応する。

配布

オンライン版

公式サイト[3] 上でシステムを公開しており、誰でも無料で利用可能。

指定可能なボイス(音響モデル)は2種類(男性1種類、女性4感情4種類)。

オープンソース版

SourceForgeにてソースコードが公開されている。利用にはビルドが必要。ビルドすることで各種OSに対応する。修正BSDライセンスで公開されている。 音声合成にはさらに辞書データとボイスデータ(音響モデル、htsvoice形式)が必要[2]。 ライセンスに従うことでライブラリとして他ソフトウェアに組み込むことも可能。

導入

複数のOSに対応しているものの、OSS版はソースコードとしての公開のため導入にはビルドが必要となる。有志によって簡単に使えるように、さまざまな導入方法が用意されている。

アプリとしての導入方法

一部を除き、原則コマンドラインアプリとしての入手になる。

SHABERU
Windows向けのGUIのあるフリーソフト。追加音響モデルにも対応する。[4]

パッケージマネージャを利用した導入方法

辞書データや音響モデルの追加導入が必要な場合がある(APT等)。また、導入後ビルドが必要な場合もある(pyopenjtalk等)。

Docker
docker pull u6kapps/open_jtalk [5]
Homebrew
brew install open-jtalk [6]
APT
apt install open-jtalk [7]
apt install open-jtalk-mecab-naist-jdic ※辞書データ
apt install hts-voice-nitech-jp-atr503-m001 ※音響モデル
Python
pip install pyopenjtalk [8]
.NET(NuGet)
Install-Package SharpOpenJTalk [9]
Node.js (npm)
npm install openjtalk [10]

音響モデル

Open JTalkで利用可能な音響モデル(ボイスライブラリ、htsvoice形式)の例。音響モデルは自作することも可能であり、SHABERU等むけにユーザーが制作した音響モデルが配布されている(規約で許可されていればOpen JTalkで利用可能)[11]

NIT ATR503 M001

標準男声音響モデル。Open JTalk本体、辞書データと共に配布されている[12]クリエイティブ・コモンズ・ライセンス3.0ライセンス。

メイ

メイ(HTS Voice "Mei")は名古屋工業大学のMMD Agentを用いたデジタルサイネージでキャンパス案内を行う女性キャラクター[13]。MMD Agentと共にクリエイティブ・コモンズ・ライセンスで配布されている[14]

Open JTalkで追加女声音響モデルとして利用可能。5つの感情別音響モデル(normal, happy, angry, sad, bashful)がある。

タクミ

タクミ(HTS Voice "Takumi")はメイと共に名古屋工業大学のMMD Agentを用いたデジタルサイネージでキャンパス案内を行う男性キャラクター[13]。MMD Agentと共にクリエイティブ・コモンズ・ライセンスで配布されている[14]

Open JTalkで追加男声音響モデルとして利用可能。4つの感情別音響モデル(normal, happy, angry, sad)がある。

tohoku-f01

東北大学 伊藤・能勢研究室[15] によって配布されている、Open JTalkで利用可能な女声音響モデル。クリエイティブ・コモンズ・ライセンス(4.0)で配布されている[16]

4つの感情別音響モデル(angry, happy, neutral, sad)がある。

利用

Open JTalk は様々な場面で実利用されている。以下はその一例である:

  • MMD Agent - Open JTalkと同じ開発者らが開発・メンテナンスを続けているMMDモデルを利用可能な対話エージェントシステム。音声合成部分はOpenJTalkが使われている[2]
  • NonVisual Desktop Access (NVDA) - Open JTalkが利用可能なOSSのスクリーンリーダー

ライブラリ・フレームワークとしての利用

音声合成を行わず、OpenJTalkの日本語処理部分のみを利用する事例がいくつか存在する。

バージョン一覧

さらに見る (SourceForge 版), (オンライン版) ...
表. バージョン履歴
Open JTalk

(SourceForge 版)

Open JTalk Demonstration Page

(オンライン版)

バージョン リリース日 バージョン リリース日
1.11 2018-12-25[1]
1.10 2016-12-25[21]
1.09 2015-12-25[22]
1.08 2014-12-25[23]
1.07 2013-12-25[24]
1.06 2012-12-25[25] 1.8 2012-12-25
1.05 2011-12-25[26] 1.7 2011-12-25
1.04 2011-07-07[27] 1.6 2011-07-07
1.03 2011-05-01[28]
1.02 2010-12-25[29] 1.4 2010-12-25
1.01 2010-05-14[30]
1.00 2009-12-25[31] 1.0 2009-12-25
閉じる

技術

Open JTalk は様々な音声合成手法を組み合わせて制作されている。

脚注

参考文献

関連項目

外部リンク

Related Articles

Wikiwand AI