BreakThrough 企業インタビュー

より人間的で自然な音声合成技術がもたらす新たな価値株式会社エーアイ

2016.12.05

SHARE
  • facebook
  • twitter

高品質音声合成エンジン「AITalk」

  • 人間の声と区別できないほどの自然な人工音声が社会のあちこちで使われ始めている。音声合成技術の可能性にかけた企業の挑戦。

画期的な音声合成技術の可能性にかけて起業を決意する

2003年に設立した株式会社エーアイは、音声合成技術に特化したソフトウェア・システム開発企業である。代表取締役の吉田大介氏は株式会社情報電気通信基礎技術研究所(ATR)に在職中に、同社で開発された「コーパスベース音声合成技術」に出会う。これは人の声を元にしたデータベース(音声辞書)を使い、テキストを自然な音声に変換する技術。それまでの不自然な機械音とは全く異なる合成音声を聞いた吉田氏は、この技術に大きな可能性を感じたという。吉田氏はこの技術のライセンス販売のために、多くの企業を回ったり、ATR側で製品化までを行ったりしたが、音声合成がまだ一般的でなかったこともあり、事業としては軌道に乗らなかった。

そこで吉田氏はこのままあきらめるのではなく、自ら起業することを決意。出資したいという企業の後押しもあり、独立してエーアイを設立し、ATR時代に製品化した「AIVoiceⓇ」の販売からスタートした。少しずつ採用事例が増えてくると、ユーザーから「こんな風にできないか、こんなことがしたい」という要望があり、それに対応するために自社で開発部門を設けることになった。

コーパスベース音声合成技術

新開発の音声合成エンジンで、15の声と36の言語に対応

2007年、エーアイで新たに開発した音声合成エンジン「AITalkⓇ」の販売を開始。旧製品の課題だったイントネーションのずれを無くし、より人間らしい自然な音声を合成することが可能となった。音声辞書の作成も短時間でできるようになり、音声のバリエーションも増やすことができた。現在は15の声(女性7名、男性4名、女の子2名、男の子2名)が利用でき、使うシチュエーションに応じて選択が可能。さらにイントネーションや話す速度の調整、一部の声では「喜・怒・悲」までも表現できるようになっている。外国語にも対応し、36の言語で音声合成が可能で外国人向けの観光情報などに利用されている。パッケージの他に、サーバー設置型、組込み用、クラウド型、ウェブサービス用など、製品ラインアップも増え、社会の様々なシーンでAITalkが作成した合成音声が使われている。「ほとんどの人が日常生活のどこかで、合成とは気づかずにAITalkの音声を聞いているはずです」と吉田氏は言う。500社以上に採用されたAITalkは、2014年に「東京都ベンチャー技術大賞」を受賞している。

活用事例としては、防災行政無線、道路交通情報、観光案内、施設案内、車内放送、電話自動応答、ゲーム、eラーニング、音声対話など幅広い。NTTドコモの「しゃべってキャラ」のキャラクター音声や、ソフトバンクロボティクスの「Pepper」、「マツコロイド」の声は録音ではなく、AITalkで作成されたものである。

AITalkが対応する15の声

音声活用の広がりが、社会に貢献する新たなサービスを生み出す

注目したい活用事例として、聴覚障害者である東京都北区議会の斉藤りえ議員が、AITalkを使って議会での「発言」を行っている。他の議員からも「聞き取りやすい」と評価も高いという。大分合同新聞社では高齢者や視力の弱い方向けのニュースの読上げサービスに、AITalkを活用している。近年普及が進んでいる電子書籍と読上げ機能を組み合わせれば、視覚障害者にも読書の楽しみを広げることにつながるはず。

従来は何らかの音声サービスを作ろうとした場合、プロの声優やアナウンサーを使って事前にスタジオなどで録音しなければならず、大きなコストが必要だった。音声合成技術を使えば、原稿通りにパソコンで音声化できるし、内容に変更があればいつでも修正できるメリットがある。音声活用がより身近なものとなり、社会のあちこちに広がっていけば、これまでになかった使われ方が生まれていくだろう。

AITalkによる音声サンプル(再生ボタンをクリックして試聴いただけます)

企業情報

株式会社エーアイ

株式会社 エーアイ(AI)の「AITalk®(エーアイトーク)」は、従来の機械音ではなく、人の声で合成する技術、コーパスベース音声合成方式を採用し、感情表現にも対応。より人間らしく自然な音声で自由に音声合成をすることが可能な、高品質音声合成エンジンです。

企業情報ページはこちら

SNSでシェアしよう

関連記事