ページの先頭です。
このページの本文へ移動します。
テレビ会議のしくみ
テレビ会議のしくみ

第2部テレビ会議システムのしくみその2.動画圧縮の仕組み

第2部テレビ会議システムのしくみ

その2.動画圧縮の仕組み

*このコンテンツには連載当時(2004年)のままの情報が含まれます。ご注意ください。

前回、市川さんに「テレビ会議システムにおけるデータ送信の仕組み」を説明してもらった曽我蔵くんは、この際だからとこれまで感じた疑問点を訊いてみることにした。

曽我蔵君と市川さん
曽我蔵くん
「テレビ会議システムの映像って、どうやって圧縮されているんですか?」

彼の頭の中に浮かぶ「圧縮」は、電子メールに添付するzipファイルやlzhファイルだ。
容量の大きな文書ファイルなどを圧縮して送ったり、複数のファイルを1つにまとめて送るためによく使っている。

市川さん
「それも間違いじゃないよ。ただし、テレビ会議システムでの動画圧縮の仕組みとはちょっと違うんだ」

順を追って圧縮の種類から説明するねと市川さんは言いながら、デスクの下からいそいそとミニサイズのホワイトボードを取り出した。さすが教育担当、妙なところで用意がいい、と曽我蔵くんは内心つぶやく。
ホワイトボードに絵を描きながら、市川さんは説明をはじめた。

圧縮の基礎

市川さん

「圧縮には大きく分けて、

       
    1. 可逆圧縮方式
    2.  
    3. 非可逆圧縮方式
の2種類がある。

zipファイルは可逆的な圧縮にあたる。たとえば“010101010101”というデータを“01が6回”という意味のデータに置き換えることで、ファイル容量を小さくしてるんだ。
データの意味を保ったまま容量を削減しているから、圧縮されたファイルを解凍すれば情報を完全に復元できる」

曽我蔵くん
「メールで受信したzipファイルを解凍すれば、送信者が圧縮する前とまったく同じファイルが入手できるということですね」
市川さん
「その通り。
それに対して非可逆圧縮方式とは、ほぼ復元できるけれどもいくらかの誤差を伴う処理のことを言うんだ。元の情報から欠損された部分があるので、圧縮されたデータを復号しても圧縮前のデータを完全に復元することはできない。
非可逆圧縮方式は、画像や音声、映像などの圧縮でよく使われている。 これらのデータは文書ファイルなどと違って、多少のデータ欠損や改変があっても意味がまったく変わってしまうということはないんだ。人間の目に見えない部分や耳に聞こえない部分の情報を間引いて圧縮しても、さほど不自然には感じない。問題ない部分の情報が欠損するかわりに、高い圧縮率が実現できるというわけだ。
身近な例では、デジカメで撮った写真のJPEG形式が非可逆圧縮だね」
圧縮方式の比較

【可逆圧縮方式と非可逆圧縮方式】

曽我蔵くん
「分かりました。デジカメ写真と同じで、テレビ会議システムは非可逆圧縮方式なんですね!」
市川さん
「それはハズレ。
テレビ会議システムは、可逆圧縮方式と非可逆圧縮方式の両方をうまく組み合わせているんだ」
曽我蔵くん
「…………(む。なんとなくだまされた気分)」

眉根を寄せた曽我蔵くんを見て、市川さんは笑った。

動画の高圧縮は情報の間引きと差分送信

市川さん
「テレビ映像は1秒間に30枚のフレームで構成されているけど、あるフレームとその次のフレームは、ちょっと見ただけでは違いが分からないほど似通っているよね。でも確実に差はある。だから30枚/秒の画像を流すと、人間の目にはモノが動いて見えるんだ。パラパラ漫画の落ちる林檎とか、ああいう遊びもその原理だね。
動画は1枚の静止画とは違う。たくさんのフレームが流れていく中で対象物がそれだと相手に伝わればいいから、静止画よりもさらに情報を間引くことができるんだ。もちろん、視覚的に影響が出ない範囲で、色情報や解像度を間引きして圧縮しているんだよ。
これが1つ目の特徴。
もう1つの特徴は差分送信だ」
曽我蔵くん
「差分送信?」
市川さん
「テレビ会議の画面を思い出してみて。画面全体が動くことはめったいにないよね。急にカメラのアングルが変わった場合などを除けば、背景はそのままで動くのは発言者の身振り手振り程度ということが多い。
動画は、変化のあった部分だけを送信して情報更新する。これを差分送信というんだけど、送信するのは画面全体の情報の一部だけだから容量が小さくてすむんだ。」
曽我蔵くん
「どうして変化があった部分だけ送ることができるんですか?」
市川さん
「デジタル画像がピクセルで構成されていることは知っているね?
テレビ会議の画面を見ていると、時々ブロックノイズが生じることがあるだろう? あのブロック1つ1つがピクセルだ。変化のあった部分のピクセル情報だけを送信して、動かない部分の情報は削減しているんだ。
そもそも動画は、まず最初に全体像を送信してから優先順位の高い順に情報が更新されていく。動いている部分は自然と注目が集まるから、不自然に感じないよう最優先で情報が送信される。木から林檎が落ちる映像では、林檎の動きに沿ってピクセル情報を送っているというわけだ。
それと同時に「動き補償フレーム間予測」を行っている。「動き補償フレーム間予測」とは、ブロック単位で過去の映像から次にどんな映像がくるかを適確に予想して、現在のフレームと次の予測フレームの差分を相手に送る仕組みだ。だから滑らかできれいな映像が作り出せるんだよ。
そして動いている部分の情報を書き換えていくと、そこだけ映像がぼやけて見えるんだけど、これは現在の技術では仕方がないことだ」

差分送信のまとめ
  • 映像は連続したフレームから構成される
  • 隣り合わせの画像は近似性が高い
  • 変化のあった部分だけ送信し、動かない部分のデータは削減する
画像の差分の説明
曽我蔵くん
「なるほど。
だから特に動きが速いとか、動く範囲が広いとか、画面全体が動くようなときには、ぼやけがもっと目立つというわけですね。
これは使用している回線の問題が大きいのかと、ぼくは思っていたんですけど……?」
市川さん
「それにはテレビ会議システムのコーデックの性能と、ネットワーク回線の太さの両方が影響している。技術が進めば、今よりもっと滑らかできれいな映像になっていくと思うけどね。
でも、今でもかなり品質は向上されてきているんだよ。テレビ会議による円滑なコミュニケーションの実現を目指して、さまざまな努力が重ねられているよ」

曽我蔵くんは入社当時と同じようにうなづきながらメモを取り、市川さんは楽しそうにその姿を見守っている。

曽我蔵くん
「じゃあ、市川さん。次はテレビ会議システムで円滑なコミュニケーションを行うための技術について教えてください。どういうものがあるんですか?」

うんそれはね、と言いながら、市川さんは資料を取り出した。

【ブレイクタイム】テレビ会議システムの標準化

曽我蔵くんの成長がうれしい、教育担当の市川です。

市川さん

テレビ会議システムでは、映像圧縮符号化方式(アナログの映像をデジタル化すること)の標準としてH.26xシリーズが使用されています。最新はH.264になります。

H.26xとよく誤解されるものにH.323やH.320があります。
これらは頭に「H」がつき、いずれもITU-Tで標準化されていますが、中身が全然違います。

H.323やH.320は、包括的にIP(H.323)やISDN(H.320)で行われるテレビ会議通信に関する標準(映像の他、接続手順や音声など)を集めたものです。H.323/320の中にH.26xが含まれる、という関係になります。

標準化についてはまた改めて解説する機会を設けますので、しばらくお待ちくださいね!

1 2 3 4