デジタル・ヒューマンに魂を入れるテクノロジーと工夫

Share on facebook
Share on twitter
Share on linkedin
「デジタル・ヒューマン」が注目されています(「まるで本物!-『デジタル・ヒューマン』がやってくる」もご参照ください)。無機質なテキストのみのやり取りではなく、「人間臭い」表情や感情の表現を加え、本物の人間と行っているような「会話」ができる技術です。 デジタル・ヒューマン 京橋今日子がDXCについてご紹介します   DXCテクノロジー・ジャパンでは、お客様向けのサービスにこの新しい技術を組み込み、提供しています。 見た目の派手さに目を奪われがちなのですが、その裏側では様々な技術要素をふんだんに取り入れています。一体どのような技術が使われ、どのようなアーキテクチャになっているのでしょう?DXCでのデジタル・ヒューマンの開発の苦労話も交えつつ、ご紹介します。   やりとりが自然で、そして、いつでも話せるデジタル・ヒューマンのための工夫 デジタル・ヒューマンを構成するいくつかのテクノロジーの中で、まず皆さんの目に飛び込んでくるのは、高精細に描かれた人間そっくりのCG(コンピューターグラフィックス)です。こうしたCGを提供するプラットフォームの一つがUneeQ社のデジタル・ヒューマンで、AWS(Amazon Web Service)上で稼働しています。利用者が話しかけた音声を認識する(聞く)、音声に合わせて口を動かす(喋る)、といった機能などを提供します。 会話は言葉のキャッチボールで成り立つものです。一方的に話をするだけでは会話とは言えません。皆さんとデジタル・ヒューマンとの言葉のキャッチボールには自然言語解析エンジンというものが必要になります。Google Cloud Platformの「Dialogflow」は、その一つです。こうしたエンジンがデジタル・ヒューマンの基盤として、CGのプラットフォームと裏で連携しています。 皆さんが画面上のデジタル・ヒューマンに話しかけると、デジタル・ヒューマンの裏側では、 話しかけられた音声の内容をテキストに変換(Speech to Text)し、Dialogflowに渡す 渡されたテキストの内容をDialogflowが分析、適切な返答を選び、テキストデータとして返す 返されたテキストデータを、CGと連携して音声に変換(Text to Speech)して答える といった一連の処理がされています。スムースなキャッチボールのためには、これらをほぼリアルタイムで行う必要があります。 また、キャッチボールをするためには事前にシナリオを作る必要もあります。シナリオとは、例えばホテルの予約をするためのやりとりといったことです。このシナリオはこんな会話になるだろうと想定して準備しても、実際にはその想定通りに会話が進まない場合が多く、最初に作成したシナリオを用いると、言葉のキャッチボールが成立しない場合が多々あります(涙)。 もう少し正確に言うなら、「決まった順番(シーケンシャル)で会話が進む」ケースは実は少なく、「順不同で寄せられる質問に臨機応変に対応しながら会話を進めていく」ことをできるようにする必要があります。(例えばコールセンターの全自動化がなかなか進まないのもこれが原因です) 試行錯誤を経てシナリオのテストを重ねてわかったのは、フローチャートのようなシーケンシャルなシナリオで考えるのではなく、会話をマインドマップのように網状につなげたシナリオで考える必要があるということです。 皆さんが目にする表舞台のCGからは見えない、こうした「舞台裏」が、自然な会話をするために必要となるのです。 また、デジタル・ヒューマンを利用したサービスが人気を博しアクセスが急増した場合には、それに応じた処理能力が求められます。そのため、リソースをオンデマンドで柔軟に追加することができるサーバーレスのインフラが、デジタル・ヒューマンには適しています。 やり取りが自然で、いつでも話せる(止まらない)デジタル・ヒューマンは、こうしたマルチクラウドをベースとした開発・運用環境で実現することができます。   デジタル・ヒューマンの親近感をさらに上げるには? デジタル・ヒューマンの親近感をさらに上げるには、細かい表現にもこだわる必要があります。例えば、ずっと正面を向いて口だけを動かし、棒読みの音声にするのではなく、体を多少揺らすことで人間臭さを出したり、声色の抑揚を加えたりと味付けをすることで意外なほどに親近感が上がります。 文化や言葉によって味付けが異なることにも注意が必要です。例えば、日本人向けには何もないときでも少し微笑えむようにしたり、日本語の話し方として自然なイントネーションとなるよう調整することが必要です。この「日本語音声の自然なイントネーション」は曲者で、少しでも違和感があると音声だけでなく、デジタル・ヒューマン全体の印象や親近感を崩しかねません。私たちもデジタル・ヒューマンの開発の中で、音声の味付けにかなり苦労しています。 例えば、日本語のイントネーションやトーンを調整するボイスチューニングです。これには、SSML(Speech Synthesis Markup Language)と呼ばれる音声合成アプリケーション用のXMLベースのマークアップ言語を使います。これにより文章1つひとつに細かな調整をすることができます。 例えば、「へー、そーなんだー」という文章を調整するとしましょう。こちらは何の調整もしない素のままのテキスト読み上げ、   こちらは調整後です。 「へー」の部分のスピードを20%落とす一方、「そーなんだー」の部分は声のトーンを10%上げています。   ボイスチューニングは、読み上げるテキストそのものを調整して改善する場合もあります。例えば以下のサンプルを聞いてみてください。 「声が聞こえづらいです」 調整後   「今日も、絶好調です」 調整後   「修正が必要な場合は、戻るボタンを押して、修正してください」 調整後 これらは、それぞれ元テキストの「づらい」を「ヅライ」に、「絶好調」を「ゼッコウチョウ」に、「戻るボタンを押して」を「モドルボタンをオシテ」とカタカナに書き換えています。 カタカナへの調整ではない場合もあります。以下の例では元テキストの「ご自由」を同音異義語の「ご事由」に書き換えています。 「ご自由にお使いいただけます」 調整後 […] The post デジタル・ヒューマンに魂を入れるテクノロジーと工夫 appeared first on DXC Blogs.

This post was originally published on this site

Read On

「デジタル・ヒューマン」が注目されています(「まるで本物!-『デジタル・ヒューマン』がやってくる」もご参照ください)。無機質なテキストのみのやり取りではなく、「人間臭い」表情や感情の表現を加え、本物の人間と行っているような「会話」ができる技術です。 デジタル・ヒューマン 京橋今日子がDXCについてご紹介します   DXCテクノロジー・ジャパンでは、お客様向けのサービスにこの新しい技術を組み込み、提供しています。 見た目の派手さに目を奪われがちなのですが、その裏側では様々な技術要素をふんだんに取り入れています。一体どのような技術が使われ、どのようなアーキテクチャになっているのでしょう?DXCでのデジタル・ヒューマンの開発の苦労話も交えつつ、ご紹介します。   やりとりが自然で、そして、いつでも話せるデジタル・ヒューマンのための工夫 デジタル・ヒューマンを構成するいくつかのテクノロジーの中で、まず皆さんの目に飛び込んでくるのは、高精細に描かれた人間そっくりのCG(コンピューターグラフィックス)です。こうしたCGを提供するプラットフォームの一つがUneeQ社のデジタル・ヒューマンで、AWS(Amazon Web Service)上で稼働しています。利用者が話しかけた音声を認識する(聞く)、音声に合わせて口を動かす(喋る)、といった機能などを提供します。 会話は言葉のキャッチボールで成り立つものです。一方的に話をするだけでは会話とは言えません。皆さんとデジタル・ヒューマンとの言葉のキャッチボールには自然言語解析エンジンというものが必要になります。Google Cloud Platformの「Dialogflow」は、その一つです。こうしたエンジンがデジタル・ヒューマンの基盤として、CGのプラットフォームと裏で連携しています。 皆さんが画面上のデジタル・ヒューマンに話しかけると、デジタル・ヒューマンの裏側では、 話しかけられた音声の内容をテキストに変換(Speech to Text)し、Dialogflowに渡す 渡されたテキストの内容をDialogflowが分析、適切な返答を選び、テキストデータとして返す 返されたテキストデータを、CGと連携して音声に変換(Text to Speech)して答える といった一連の処理がされています。スムースなキャッチボールのためには、これらをほぼリアルタイムで行う必要があります。 また、キャッチボールをするためには事前にシナリオを作る必要もあります。シナリオとは、例えばホテルの予約をするためのやりとりといったことです。このシナリオはこんな会話になるだろうと想定して準備しても、実際にはその想定通りに会話が進まない場合が多く、最初に作成したシナリオを用いると、言葉のキャッチボールが成立しない場合が多々あります(涙)。 もう少し正確に言うなら、「決まった順番(シーケンシャル)で会話が進む」ケースは実は少なく、「順不同で寄せられる質問に臨機応変に対応しながら会話を進めていく」ことをできるようにする必要があります。(例えばコールセンターの全自動化がなかなか進まないのもこれが原因です) 試行錯誤を経てシナリオのテストを重ねてわかったのは、フローチャートのようなシーケンシャルなシナリオで考えるのではなく、会話をマインドマップのように網状につなげたシナリオで考える必要があるということです。 皆さんが目にする表舞台のCGからは見えない、こうした「舞台裏」が、自然な会話をするために必要となるのです。 また、デジタル・ヒューマンを利用したサービスが人気を博しアクセスが急増した場合には、それに応じた処理能力が求められます。そのため、リソースをオンデマンドで柔軟に追加することができるサーバーレスのインフラが、デジタル・ヒューマンには適しています。 やり取りが自然で、いつでも話せる(止まらない)デジタル・ヒューマンは、こうしたマルチクラウドをベースとした開発・運用環境で実現することができます。   デジタル・ヒューマンの親近感をさらに上げるには? デジタル・ヒューマンの親近感をさらに上げるには、細かい表現にもこだわる必要があります。例えば、ずっと正面を向いて口だけを動かし、棒読みの音声にするのではなく、体を多少揺らすことで人間臭さを出したり、声色の抑揚を加えたりと味付けをすることで意外なほどに親近感が上がります。 文化や言葉によって味付けが異なることにも注意が必要です。例えば、日本人向けには何もないときでも少し微笑えむようにしたり、日本語の話し方として自然なイントネーションとなるよう調整することが必要です。この「日本語音声の自然なイントネーション」は曲者で、少しでも違和感があると音声だけでなく、デジタル・ヒューマン全体の印象や親近感を崩しかねません。私たちもデジタル・ヒューマンの開発の中で、音声の味付けにかなり苦労しています。 例えば、日本語のイントネーションやトーンを調整するボイスチューニングです。これには、SSML(Speech Synthesis Markup Language)と呼ばれる音声合成アプリケーション用のXMLベースのマークアップ言語を使います。これにより文章1つひとつに細かな調整をすることができます。 例えば、「へー、そーなんだー」という文章を調整するとしましょう。こちらは何の調整もしない素のままのテキスト読み上げ、   こちらは調整後です。 「へー」の部分のスピードを20%落とす一方、「そーなんだー」の部分は声のトーンを10%上げています。   ボイスチューニングは、読み上げるテキストそのものを調整して改善する場合もあります。例えば以下のサンプルを聞いてみてください。 「声が聞こえづらいです」 調整後   「今日も、絶好調です」 調整後   「修正が必要な場合は、戻るボタンを押して、修正してください」 調整後 これらは、それぞれ元テキストの「づらい」を「ヅライ」に、「絶好調」を「ゼッコウチョウ」に、「戻るボタンを押して」を「モドルボタンをオシテ」とカタカナに書き換えています。 カタカナへの調整ではない場合もあります。以下の例では元テキストの「ご自由」を同音異義語の「ご事由」に書き換えています。 「ご自由にお使いいただけます」 調整後 […]

The post デジタル・ヒューマンに魂を入れるテクノロジーと工夫 appeared first on DXC Blogs.

About the author: CIO Minute
Tell us something about yourself.

Leave a Comment

CIO Portal