ページの先頭です。
このページの本文へ移動します。
テレビ会議技術解説
テレビ会議技術解説

第1回 動画伝送技術その1 カメラによる動画の撮影

テレビ会議技術解説 第1回 動画伝送技術

その1 カメラによる動画の撮影

*このコンテンツには連載当時(2008年)のままの情報が含まれます。ご注意ください。

   
    

実際に世の中で動いている物体をそのまま遠くに送って再現することはできません。動いている絵として、機械が処理します。
機械が処理をした情報は、人間が動画と認識できるように、うまく見せないといけません。
そのメカニズムについて解説します。

   
 

フレームレートとは?

機械では、動画そのものを動画のまま処理することができません。このため、動画を、連続する静止画に変換して処理を行います。

人の脳は、目の奥の網膜にうつされた映像をみて、それが止まっている、動いているという判断をします。しかし、人の脳は実はそんなに性能がよくないので、 静止画の連続をみると、あたかも動画のように認識してしまいます(仮現運動)。その現象をうまく使っているのが、「パラパラマンガ」です。教科書の隅に書 いた絵の連続をパラパラとめくると、あたかも動いているかのように見えます。

静止画 1 枚を「フレーム」といいます。(日本語では「コマ」ともいいます)
フレームが 1 秒間に何枚表示されるか、という単位が「 fps (frame per second) 」です。一般に、人間の目は 22 よりも大きい fps 値をとると仮現運動が生じ、静止画の連続ではなく、動画と認識するといわれています。これを利用して、映画やテレビは以下のような fps を利用しています。

  • フィルム映画 : 24fps
  • テレビ(ヨーロッパ: PAL ) : 25fps
  • テレビ(日本、北米: NTSC ) : 30fps

テレビ会議の fps は、動的に変わります(このあたりは「圧縮」の項で後述する予定です)。しかしながら、理論値としての最大値は、通常利用のものであれば、 30fps をとります。最近は、ハイビジョン映像を表示するときのスペックにあわせて、最大 60fps に対応しているものもあります。
しかし、本当に、 22fps 以上であれば、動画として認識できるのでしょうか?たとえば、映画館で映画をみているとき、全画面が左右に振れるような場面で、残像を感じることはありませんか?地上波アナログテレビ放送では、そういうちらつきは感じるでしょうか?
実際には残像対策として、「飛び越し走査(インターレース /interace )」をしています。これは、見かけ上の画面枚数を増やす技術です。映像を、偶数番目の走査線の組と、奇数番目の走査線の組の2つにわけます。わけられた組 を、フィールド( field )といいます。
つまり、 1 コマ(フレーム)を偶数フィールドと奇数フィールドの2つセットのものに分けるということです。
そして、偶数フィールドと奇数フィールドを順に表示させると、見かけ上 1 秒間に 60 回、映像が映し出されていることになります。
これは、使用する走査線の数が半分の粗いフィールドを 1 秒間に 60 回という高速表示することで、人間の目の残像特性を利用して、滑らかな動画を送っているかのように、そして倍密度のフレームが放映されているように感じさせる技術です。 VHS のビデオを一時停止すると、今まで見ていたのよりも遥かに粗い画像になってしまったというご経験があるとおもいます。一時停止では片方のフィールドだけが表示されるためで、これがインターレスの証拠です。
これは、テレビ放送が始まった時代には、それほど容量のある情報を送ることができなかったこと、また受け取ったとしても再生できるだけの力がテレビになかったという理由で、なんとか動画を配信しようとした結果考え出された技術です。
現在は、放送する側も受信する側も、十分なパワーをもっていますから、規格としてはこの飛び越し走査をしなくても、上から順次に走査線を表示することができます。
これが順次走査方式(プログレッシブ /Progressive )です。フィールドにわけないので、飛び越し走査方式にくらべると縦方向倍密度の映像を表示することができます。
このため、おなじ走査線数であれば、やはり順次走査方式(プログレッシブ)のほうが、飛び越し走査方式(インターレース)よりも、垂直方向の解像度が高く見えますし、動きも滑らかに再現されます。
なお、パソコンで表示される映像は、プログレッシブです。
これは、パソコンで閲覧する情報は、(最近は動画も多くなりましたが)基本的には静止画だったため、動画の滑らかさよりも、きれいに静止画を表現するためにプログレッシブを採用しています。

動画の静止画化:シャッタースピード

フレームレートは前述しましたが、動画を静止画に変えるのは、どう行っているのでしょうか?
人は目の奥の網膜にうつされた映像を脳で解析して、映像として認識します。人の目を機械に置き換えたものがカメラです。

  • 光をとりこむ「水晶体」=「レンズ」
  • 取り込んだ光を映し出す「網膜」=「フィルム」
  • そして、静止画に変換するために、「この一瞬」を決める「シャッター」

これらが、カメラの三要素です。

動画を静止画に変換するときは、シャッターが大きな役割を果たします。シャッターを押した瞬間の動画を静止画として切り取ることができます。このため、 30fps の映像をとるときは、 1 秒間に 30 回シャッターを切って (=30Hz) 、フレームを 1 秒間に 30 枚作ります。

動画の静止画化:イメージセンサーと画素

シャッターで切り取った静止画が映し出されるのが網膜ですが、デジタルビデオカメラの場合は、これが CCD(Charge Coupled Devices) あるいは CMOS(Complementary Metal Oxide Semiconductor) と呼ばれる LSI で行います。これらを総称してイメージセンサーといいます。
CCD も CMOS も大まかにいうと一緒のもので、光と色を感知して電気信号に変換します。昔は CMOS のほうが粗悪というイメージがありましたが、現在は技術の進化でどちらが上、ということはありません。
よくデジタルカメラの仕様表をみると、「 1/3 インチ CCD 」というような記述があります。この場合は、イメージセンサーである CCD の対角線の長さが 1/3 インチであることを示します。
※本当の大きさは 1/3 インチではなく、撮像管のサイズに直したときの長さに換算して表記することになっています。

CCD

イメージセンサーは、たくさんの素子に分割されています。この素子の数が、解像度に直結する画素数です。
素子が沢山あればあるほど、高精細な映像をえることができます。しかし、すべての画素が利用できるわけではないので、実際に使われる画素の数のことを有効画素数といいます。
しかし、解像度が高ければ、それでいいのでしょうか?
たとえば、 300 万画素なのだけど、グレーもない真っ黒と真っ白の二階調しかでない写真って、高精細な写真といえるでしょうか?
そう、高精細というからにはもうひとつ、色の階調も大事です。 色の階調は、グラデーションにするとわかりやすいです。虹の色が、 1 色、 7 色、 256 色、 65536 色で表現できたとしたら、後者になればなるほど豊かな映像と感じることができます。
画素サイズとは、バケツの大きさと考えてもらうとわかりやすいです。光電変換素子は、光の強さを、電気の大きさとして変換します(=フォトダイオード)。 バケツが大きければ大きいほど、光をためられる量が大きくなりますし、階調をとるための刻みも細かくとりやすくなります。
このため、一般に、同じ解像度ならば、大型の CCD/CMOS のほうが、 1 画素あたりのサイズが大きいため、階調をうまくとりやすいといわれています。

しかし、これはどう「うまく」階調をとるのかという問題です。画素のサイズだけではなく、映像処理の方法にも依存するので、なかなか仕様表では表現しにくいのが正直なところです。

動画の静止画化:レンズ

レンズの性能を表すときは、以下の 3 つが指標としてあげられます。

  • ズーム比
  • 画角
  • F 値

ズームには、光学ズームとデジタルズームがあります。この二つはどう違うのでしょうか?光学ズームは、組み合わさったレンズを移動させて、焦点距離 ( = f 値 ) を伸ばしたり縮めたりすることで、画角を広くとって全体をみわたしたり、画角を狭くとって遠くにあるものを拡大します。

焦点距離

焦点距離が短い(広角)場合と焦点距離が長い(望遠)の場合 

仕様表にでてくる画角は、通常は水平画角のことで、横にどれだけの角度で写すことができるかを示す指標です。WIDE 端が望遠をまったくしない(=引いた絵)のときの画角、 TELE 端が望遠を一番アップにした(=寄った絵)のときの画角を表します。 HD(High Definition) カメラの場合は、絵を 16:9のアスペクト比(画面の横:縦の比) で撮るため、水平画角が広い( 70 度程度)のものが多いです。
テレビ会議用のカメラの場合、広角レンズを採用している場合があります。広角レンズを採用すると、カメラと被写体との距離が短くても写すことができるので、狭い部屋であっても端から端まで写すことができるためです。
上図を参照していただくと、望遠にするほど、画角がせまくなるので、光を取り込む量が広角に比べて少ないことがわかります。このため、光学的にはズームアップ(望遠)するほど映像は暗くなり、広角にするほど明るくなります。
撮像素子に届く光の量をきめるもう一つの要因はレンズの大きさ(明るさ)です。このレンズの明るさを示す指標が、 F 値です。通常は、仕様表にでてくる F 値は「開放 F 値」で、もっとも絞りを開けたときのものです。
「レンズの有効口径を焦点距離で割った数値の逆数」が F 値の定義です。
「レンズの有効口径=焦点距離」のとき、 F 値は 1 です。
一般的に、レンズの有効口径が大きければ大きいほど、光を取り込む量を多くできるので明るくなります。 明るさが半分になると、 F 値は√ 2 倍になります。
F 値が小さければ小さいほど明るく、大きければ大きいほど暗い、と覚えれば大丈夫です。なお小文字で書かれる f 値は焦点距離のことで mm を単位として表します。
一方、デジタルズームは、レンズとは関係ありません。CCD/CMOS にうつった映像の一部を切り出して、強制的に拡大します。このため、確かに遠くのものは大きく見えますが、映像が粗くなる傾向があります。

拡大縮小

一般に低価格帯のテレビ会議端末に付属されているカメラは、光学的には固定焦点式、中高価格帯のものはズームレンズが利用されています。デジタルズームはどちらの価格帯のものにもついていることが多いです。
固定焦点式のカメラは、構造が簡単で低価格にすることができます。また、光学ズームをしないので、明るい映像をえることができます。
ズームをする必要がない使用法の、たとえばデスクトップにおいて使うパーソナル型のカメラについている場合が多いです。

パーソナル型テレビ会議

ズームレンズカメラは、映像のズームアップをすることができるので、会議室据付型のテレビ会議端末に利用することが多いです。会議室の全景を広角で写すことも、誰か話している人にズームアップすることもできるからです。

ルーム型テレビ会議
prev 1 2 3 4