テキスト読み上げとは、テキストからの合成音声の生成です。この AI 音声ジェネレーターは、画面の読み取りが不可能または不都合な場合に、ユーザーとのコミュニケーションに利用されます。これにより、アプリケーションや情報の新しい使用方法が広がるだけでなく、画面上のテキストを読めない人たちにとって、世界がもっと身近な場所になります。
テキスト読み上げの背景にあるテクノロジーは、この数十年間で進歩してきました。深層学習を使用して、間隔、速さ、発音、抑揚の変化など、ごく自然な響きの読み上げが可能になっています。現在、コンピュータで生成された読み上げはさまざまなケースで利用されており、ユーザーインターフェイスのユビキタスな要素に変わりつつあります。ニュースリーダー、ゲーム、公共広告システム、e ラーニング、テレフォニー、IoT のアプリおよびデバイス、パーソナルアシスタントがありますが、これらはほんの出発点でしかありません。
音声合成により、アプリケーションはさらにアクセスしやすくなり、人々は画面に集中することなく情報を利用し、理解することができるようになります。 以下に、テキスト読み上げを利用する主な利点を簡単にまとめます。
視覚と聴覚の両方による提示を可能にすることで、テキスト読み上げは、理解力、回想力、語彙能力、意欲、自信を高めることができます。テキスト読み上げはオンラインマテリアルに適用され、E ラーニングを促進しています。
テキスト読み上げは、デジタルコンテンツをマルチメディア体験に変えることができます。そのため、人々はニュースやブログの記事、または PDF ドキュメントまでも、移動しながらまたは何かをしながら聞くことができます。
クラウドコンピューティングにより、テキスト読み上げの実装を迅速かつ簡単に開始できるようになり、クラウドの経済的側面から、テキスト読み上げの実装を手頃な料金で行えるようになっています。
音声を使用してコミュニケーションを行うアプリケーションが、日々一般的になってきました。テキスト読み上げソリューションを使用すると、ウェブサイト、モバイルアプリ、電子書籍、E ラーニングツール、オンラインドキュメントが、まさに独自の「声」を持てるようになります。
Amazon Polly は高度な深層学習テクノロジーを使用して人間の声のような音声を合成する API 主導型サービスです。さまざまな言語で、人間の声に近い音声を実現します。