【音声】テレビ会議に関わる人間要因｜テレビ会議教室

10.テレビ会議に関わる人間要因（ヒューマン・ファクタ）【音声】

テレビ会議システムに関わるヒューマン・ファクタ。前回は、ヒューマン・ファクタの研究の始まりと視線の一致についてご説明いただきました。今回は映像に関することの2回目として、1人を映すサイズなどについてお伺いします。

音声に関するヒューマン･ファクタで、一番大きな要因になるのはなんですか。

大久保先生

音声で一番大きい要因は帯域幅です。
現在の仕組みでは、電話は300Hz～3.4kHz（「4kHz帯域」といいます）が使用帯域です。もともと電話は帯域に限界があったわけではありません。地域の電話の場合、伝送するといっても銅線でつなぐだけですから、そこに帯域の制限はありませんでした。長距離伝送することになって、初めて帯域幅が課題になります。特に最近のようにデジタルの世界になると、厳密に8kHzでサンプリングして送るので4kHz帯域しか送れません。

テレビ会議の場合では、スピーカーとマイクロフォンを使います。スピーカーから音を聞くわけですね。しかし電話の音をスピーカーから聞く、あるいはテレビの中に電話の音が入るという場合、かなり不自然な感じがするんです。
では、スピーカーから自然な音として聞こえるには、どのくらいの帯域が必要になるかという実験が図16です。これはその確認のために私の同僚が昔やっていた実験ですが、7kHzくらいというのがその結果です。

図16：テレビ会議に必要な音声帯域

大久保先生

標準化のところで説明しましたが、今年の5月にITU-T勧告G.722.1 Annex C として正式に承認されました米Polycom社のSiren14という技術があります（第7回「標準化について【標準化の今後の課題2】」参照）。7kHz帯域じゃなくて14kHz帯域にするともっといいですよというものですが、確かにそうなんです。これまで人の声なら7kHzで十分と思っていたんですが、14kHzにすると明らかに印象が変わって、分かりやすい、聞きやすいと感じます。

米Polycom社が発表している資料の中に、「Greater Intelligibility」という発言をどれだけ聞き取れるかというものがありますが、3.4kHzだと75％、7kHzだと90％、14kHzにすると95％以上になっています。どうやら「p」と「t」、「f」と「s」、「m」と「n」を識別するには、高い周波数が関係しているらしいんですね。これを電話の帯域でカットしたり、あるいは7kHzでカットしてしまうと、そこが聞き取りにくくなるんだそうです。
ただし、人間はいろいろと情報をまとめて総合的に聞いていたり、行間を埋めて聞くような能力もありますので、文脈によって聞き分けているということはあると思います。

3.4kHzで75％、7kHzで90％、14kHzで95％以上という数値が、学術的に正しいのか確認する必要はありますが、定性的にはこのようなことは経験にも裏付けられていると思います。スピーカーから音を出すと、3.4kHzという電話の帯域ではもの足りないということは昔から言われていますが、これは経験的に納得できることです。14kHzは、もっとクリアに聞くためには7kHzよりもっと高い周波数が必要ですということですが、十分に頷ける言い分です。

最近ではPolycom社以外のメーカーからも14kHzに対応した製品が登場しましたが、これは音声を重要視しているということでしょうか。

大久保先生

確かにテレビ会議は、音がよくないと話になりません。映像で会議の情報が伝わっているというよりも、音で伝わっている要素が大きいと思います。

余談になりますが、恐怖映画で人間の耳には聞こえないような、たとえば5Hzくらいの帯域の音を入れるんです。そうすると恐怖感が増すらしいんですね。耳には聞こえないんですが、人間は体で聞いているところがあるんでしょうね。

また、高い帯域でも同じようなことがいえます。
大橋力さんという千葉工業大学の教授がいらっしゃいますが、この方は音楽家でもあります。大橋さんが2001年の「映像情報メディア学会誌」に掲載された「Hypersonic効果」によると、単独で音として感じる空気振動の周波数上限はせいぜい20kHzで、たいていの人は15kHzくらいなんだそうです。また、高齢になると周波数上限は下がっていく傾向にあります。可聴帯域を超える高い周波数は人間には聞こえませんが、わざと音楽に入れて「隠し味」として使っているんだそうですね。高周波成分があるとないとでは音質が違うそうです。高周波数の音は、快適性と関係の深い脳波α波を増強する役割も果たします。最近よく聞く「1／fゆらぎ」の効果というんでしょうか。「からだ」で聞いているという訳なんですよ。

もちろん、これがテレビ会議の設計に使えるかというと別の話ですし、人間はどこまでの音が聞こえるんですかという議論をするときに「こういう要素もありますよ」というくらいのことかもしれません。でも低い方も高い方も体で聞いているというのは面白いですね。
スピーカからの音量については、幸いなことに20dBくらいの幅があるので、この点は助かっています。これを厳密に何dBに設定せよといわれると難しいんです。

大橋力（おおはし・つとむ）氏

千葉工業大学　教授、かつ音楽家・山城祥二

引用資料：「可聴帯域外の音が聞こえるってほんと？」
大橋力，映像情報メディア学会誌，Vol.55, No.12, pp.1616-1618, 2001

ヒューマン･ファクタでは、遅延に関する研究も行われているのですか。

大久保先生

図17は、ラウンドトリップの遅延がどのくらい会話に影響するかという実験です。
これは私の同僚が行った実験ですが、伝送のパスに静止衛星を使っています。なかなか豪華な実験です。いまだったら衛星を使わずに実験できるんですが、1980年代ですので。
静止衛星に行って戻ってくると伝送遅延は250msです。片道に衛星を経由し、戻ってくるのに地上の回線を使った場合の遅延が250ms、往復とも衛星を経由した場合の遅延は500msということになります。

図17：一巡遅延時間が会話の快適さに及ぼす影響

大久保先生

会話への影響は、話の内容にものすごく依存します。見解を述べ合うという意味の意見交換といいますか、論理的に話しているケースだと遅延があっても問題ありません。討論や説明、あるいは照合というように、こっちが何かを言えば相手が反応して何かを言うというような場合、やりとりのスピードによって随分受け取り方が違うことだと思います。

電話の場合は、片道150msが遅延の1つの目安です。
ITU-Tの勧告であるG.114という電話の規格の2000年版（注）を参照すると、0～150msまでは受け入れられるレベルです。 150～400msは、遅延のインパクトがありますのでそれを承知で使ってくださいという範囲です。400ms以上になると許容できないレベルです。要は快適な会話をするためには、片側150msということですね。あくまで電話の規格ですが。

実は、この値を現在のテレビ会議で守るのは厳しいんです。符号化処理など、いろんなところで遅延が発生します。次回に説明するリップシンクとかかわりがあるんですが、音声の遅延よりも映像の遅延の方がうんと大きいので、リップシンクを取ろうとすると音声を遅らさざるを得ないのです。映像が通常300～500msくらい遅延するので、それに合わせると簡単に許容範囲を超えてしまいます。これがデジタルの泣き所でしょうか。
映像があれば遅延に対する許容値は緩和されるんじゃないかと期待されていたんですが、NTT研究所の実験によると、映像があろうがなかろうが変わらないという結果になりました。結局、会話の自然さを保つためには片道150ms以下の遅延に抑えることが必要なのです。

（注）勧告G.114の最新版は2003年に発行されていて、そこでは、エコーやパケット損失などの伝送歪みも考慮したEモデル値と呼ばれる尺度を用いて、伝送遅延時間の規格を定めています。

それほど遅延が気にならないこともあります。シチュエーションでの違いでしょうか。

大久保先生

あくまで、テレビ会議で何を話しているかということなんじゃないでしょうか。プレゼンでは遅延があっても構わないでしょうが、その後のディスカッションの場で会話が交わされると気になるはずです。シチュエーションで変わってきますね。慣れもあるかもしれません。

放送業界の人達は、本能的に間があくのを嫌うので、非常に早く会話しようとします。その時に遅延があるとスムーズにいかないわけです。いつだったかある有名キャスターさんが、シドニーからの出演者と話すとき「発言したあと、イチ、ニ、サンと数えてようやく相手の声がやってくる。そういうものだと思っていないとやりにくい」と言っていたことがあります。システムはそういうものだと理解した上で使っていれば、さほど気にならないというところはあるかもしれません。

※本文中に掲載された図表は、大久保先生の講義資料を元に作成したものです。

次回は引き続き、「テレビ会議に関わる人間要因（ヒューマン・ファクタ）【映像と音声の相互関係】」を掲載します。