大久保先生に聞くテレビ会議教室
テレビ会議ホーム > テレビ会議入門 > 大久保先生に聞くテレビ会議教室 > 11.テレビ会議に関わる人間要因【映像と音声の相互関係】
11.テレビ会議に関わる人間要因(ヒューマン・ファクタ)【映像と音声の相互関係】
ヒューマン・ファクタの最終回は、映像と音声の相互関係についてお伺いします。主にリップシンクがテーマです。
テレビ会議を行う上で、やはりリップシンクは重要なのでしょうか。
大久保先生 |
リップシンクは文字通り、音声と映像のズレをどのくらい許容できますかというものです。ディスプレイに映っている人が、話しているように感じられるかという問題ですね。 図18はNHKでやった実験で、これに基づいてITU-Rの勧告が出ています。しか |
|
|
音声が速く聞こえる方の検知限や許容限の範囲が狭いのは、自然界の物理現象に反するからだと思います。花火を思い浮かべると分かりやすいのですが、花火の光が見えてからしばらくすると音が聞こえますよね。だいたい距離が10メートル離れると、音はここでいう1フレームくらい遅れることになります。約30msですね。だから10メートル離れている人と話をしている場面は、図18の「-1」にあたります。許容範囲です。 図18のデータの右側はクラベス(拍子木)を叩くものですが、遅延が1フレームでもあると分かってしまいます。特に叩く前に音が出ると、すぐにおかしいと気づきます。このように物を叩いたときのズレよりも、人が話しているときの方が、ズレに対する許容範囲は広いです。 ところがテレビ会議では、信号処理を行う映像のコーデックなどに注意を払わないと300msくらいすぐに遅れてしまいます。某メーカーさんのテレビ会議システムを調べたんですが、遅延はだいたい6〜8フレームくらいでした。8フレームは240msです。遅延の減少に努力はしていると思いますが、それでもすぐに遅れてしまうんです。 実は放送の世界でも、これが問題になっています。最近のテレビを見ていると、容易に音声と映像があっていないと気がつくはずです。頻繁に起きていますよ。それはなぜかというと、いろんなところにフレームシンクロナイザーやDVE(デジタルビデオエフェクト)などの映像処理が入るからです。それをきちんと補正しないで出しているケースが多いので、よくズレていますね。 面白い話では、リップシンクを検出する装置を作っているある会社がスタンフォード大学に依頼して、リップシンクが取れているケースとそうでないケースでは訴える度合いについてどう印象が違うのかを試験したレポートがあります。ニュースや政治家などの演説、あるいは製品の紹介などが素材なんですが、リップシンクが2.5フレームずれると信頼性に欠けるとか説得力に欠けるなどのネガティブな評価になるそうです。 |
引用資料: |
大久保先生が長年リップシンクの研究に携わっている理由を教えてください。
大久保先生 |
なぜ私がリップシンクについて研究し、長々と主張しているかというと、テレビ会議を皆さんに使ってもらう中で言われた言葉の中に「テレビ会議中でもほとんど映像なんか見てないよ。映像なんかいらない。音声だけで十分だよ」というものがあったからです。それじゃあいったい映像は何のためにあるんですか、ということになりますよね。音声だけで十分じゃないかと。 電話会議は私もよく参加していますが、確かに発言のタイミングが難しいです。いま発言してもいいのか、話しかけたい相手がそこにちゃんといるのか(離席中とか居眠りしているとか)の判断が、音声だけでディスカッションを行う上で難しい点です。しかし発言のタイミングが分からないと会議が成り立たないかというと、決してそういうわけではありません。でも音声がなければ成り立たないのです。 それからもう1つ、実際にディスプレイに映っている人が話しているように聞こえるかどうかもキーだと思います。 しかし現実は映像の方が遅れすぎて、映像に合わせて音声を遅らせてリップシンクを取ろうとすると、今度は会話がしにくくなります。だからもうリップシンクを取ろうとしていられないというのが実情なんじゃないでしょうか。リップシンクには目を瞑って、会話が自然にできるようにすることを選択したのでしょう。 もう1つの問題は、帯域が狭いときには映像のコマ落しをして送っていることです。コマ落しをしているということは即遅延に繋がるので、それもリップシンクが取れない理由になります。取りたくても取れないんですね。特に64kbpsとか128kbpsになると1秒間に10枚も送れませんので、それに合わせてリップシンクを取ろうとすると会話ができなくなります。 ブロードバンドの時代ですが、これからは1枚ずつの映像をよくするというよりも、遅延をなくす方にブロードバンドのリソースを使った方がいいんじゃないかと思います。それが私の主張です。 |
今後システムの処理が速くなれば、映像の遅延などが解消されますか。それともブロードバンドを利用することの方が圧倒的に効果が高いのでしょうか。
大久保先生 |
まずは帯域ですね。 特に最近はアクセシビリティ (情報への近づきやすさ)といいますか、体が自由にならなくなったことに配慮する方向になってきています。身障者に対してだけではなく、健常者であっても高齢になればたとえば身振り手振りに頼らざるを得なくなるなどそういう考慮です。現在ではこれが、ITUでの一つの流れになっています。しかし耳の聞こえない人に手話を使うとなると、コマ落ちした途端に意味が通じなくなってしまうんです。 |
映像の綺麗さと使いやすいシステムは必ずしもイコールではないということですね。
大久保先生 |
そうですね。 |
スピーカーを置く位置はどのようにシステムに影響しますか。
大久保先生 |
図19は「音像定位に及ぼす映像の影響」が調べられた結果です。物理的にスピーカーをどこにおけば、ディスプレイに映っている人物が話をしているように感じるかという実験です。
Aゾーンは、音が映像の方向に強く引かれる範囲です。スピーカーがこの範囲にあるなら、動画が表示されていればそこから音声が出ているように聞こえます。これはかなり許容度があって、Bゾーンでも人物の口から聞こえる場合もあるし、スピーカーから聞こえる場合もあります。ただし、Aゾーンであっても静止画になった途端に、スピーカーから音が聞こえるように感じます。 ここから分かるのは、カメラの時よりも音声の方が自由度が大きいということです。大きなディスプレイの場合、その両端にスピーカーがあると物理的距離はありますが、ちゃんとディスプレイに映った人物から声が聞こえます。 |
ヒューマン・ファクタの目指すところは何でしょうか。
大久保先生 |
製品を作る人が何を目指しているかによると思いますけれども、突き詰めるとシステムの使いやすさでしょう。 |
※本文中に掲載された図表は、大久保先生の講義資料を元に作成したものです。 |
ありがとうございました。人間の行動や能力などがシステムに関係するヒューマン・ファクタは、非常に興味深いテーマでした。 |





