音声ファイル ~ 主なファイル形式と特徴 ~

声ファイルの形式も、画像ファイルの形式と同様に多くの種類があります。デジタルの音声ファイルはコピーが容易なため、昨今では音楽ファイルの不正コピー、不正配布が問題となっています。

デジタルの音声ファイルの仕組みは、アナログデータとは で解説のとおり、アナログ信号をデジタルデータに変換して保存されます。

変換の方法を詳しく解説すると、アナログの波形をデジタルに変換するには、一定の間隔で音の波形を測定(記録)する「標本化」という作業が必要になり、その標本化の周期のことを、サンプリング周波数(サンプリングレート) と言います。

サンプリング周波数は、1秒間にサンプリングする回数を表し、単位は「Hz」になります。つまり、1秒間に何回音を測定して記録するかを表した単位で、値が高いほど原音に忠実になり、高音質となります。ただし、データ量も比例して増大します。

通常の音楽CDのサンプリング周波数は、44.1KHzです。もっとも、サンプリング周波数を高くしても、実際には記録しきれない音や周波数帯域があるため、クラシック愛好家などの中には高価なアナログ機器を愛用する人もいます。

また、音質に影響を与えるのは、サンプリングレートだけではなく、音の強弱(音量)を表す「サンプリングビット」(16ビットなら6万5535、24ビットなら1677万7215の数値精度で音量の変化を表現する)や「チャンネル数」(ステレオやモノラル、5.1chといった録音された音のラインの数)なども影響します。いずれも値が高いほど高音質になります。

そして、もう一つ音質に大きく影響を与えるのが、ビットレート です。ビットレートは、1秒あたりに記録(処理)するデータ量を表し、単位は「bps」になります。

つまり、ビットレートが大きいほど多くの情報を格納できるということで、高音質になります。詳しくは後述しますが、MP3というファイル形式では、128Kbpsが聴くに耐えうる最低限度のビットレートとされています。

ただし、ビットレートには「固定ビットレート」と「可変ビットレート」があります。固定ビットレートは、音声の始まりから終わりまで固定された同じビットレートで、可変ビットレートは、音声情報の量に応じてビットレートを増減します。

つまり、複数の音声が混在する節にはビットレートを高くし、単純で音声が少ない節はビットレートを低くします。可変ビットレートを選択することによって、全体的にファイルサイズを小さくすることができます。

これらが、音声のアナログ信号をデジタル化したデータに含まれる情報になります。

しかし、デジタル化したデータも、このままでは利用することができません。このデータを、任意のファイル形式に変換して保存することで初めて、その形式に対応するメディア機器やアプリケーションソフトで利用することができるようになります。

こうしたデータの保存形式のことを、

ファイルフォーマット

と言います。ファイルフォーマットは、拡張子が付いたファイル形式のことです。

そして、データをファイルフォーマットに保存するためには、そのフォーマットに合わせてデータを変換(符号化:エンコードという)する必要があります。(符号化については、文字コードとは を参照してください)

データの符号化には専用のプログラムを用いますが、こうした符号化プログラムのことを、

コーデック(CODEC)

と言います。つまり、アナログ信号をデジタルデータ化した生のデータを、ファイルフォーマットとして製品化するために、コーデックを用いて加工(符号化)するというわけです。

したがって、コーデックの種類はいくつもあり、コーデックの種類だけ符号化方法があるということになります。

現在のコーデックは、ファイルの作成時にデータを圧縮して符号化し、ファイルの再生時に圧縮の解除(伸張という)を行う、データを圧縮・伸張するプログラムがほとんどで、一般的にコーデックと言えば、こうした圧縮方式のプログラムのことを指します。

なぜなら、画像ファイルと同様に、音声を非圧縮のままデジタル化すると膨大なファイルサイズになるからです。ウェブ上のほとんどの音声・動画ファイルは、コーデックを利用して圧縮されています。(コーデックは動画ファイルにも用いられています)

詳しくは次項でも解説しますが、音声や動画ファイルを再生するには、そのファイルフォーマットに対応したプレーヤーソフトが必要になりますが、それとは別に、圧縮して符号化されているファイルを解凍するコーデック(圧縮したものと同じコーデック)も必要となります。

ZIPやLZHと同様に圧縮・解凍ソフトがなければファイルを開けないのと同じです。ただし、それらとは異なり、ファイルフォーマットの拡張子からは、符号化に使われたコーデックを判断することができない場合があります。

通常、ファイルフォーマットに対してコーデックは一つの場合が多いですが、中には一つのファイルフォーマットに複数のコーデックが対応している形式があるからです。

特に動画ファイルにおいては、プレーヤーはそのファイルフォーマットに対応しているのに、符号化に使われたコーデックがないために再生できないというケースがあります。

このようなファイルフォーマットは、複数の符号化形式(コーデックによって符号化されたデータ)に対応し、複数の符号化形式を同時に格納することができるフォーマットで、

コンテナフォーマット(コンテナファイル)

と呼ばれています。コンテナフォーマットは、動画などのマルチメディアコンテンツに用いられ、映像や音声といった複数のファイル形式を格納するために用いられるため、「コンテナ(入れ物)」と呼ばれています。

動画ファイルの場合は「映像」と「音声」の2つの符号化データが必要なため、コンテナにそれぞれを格納した形式となるのです。(詳しくは、次項で解説します)

そして、複数の符号化形式を格納することができるコンテナファイルを再生するには、符号化に使用したコーデックが必要になるというわけです。

もっとも、音声フォーマットの場合は動画フォーマット(コンテナ)とは異なり、基本的に格納するデータは「音声」のみであり、対応するコーデックも一つであるため、

符号化されたデータを、そのままファイルフォーマットとして使用することができる

という特徴があります。言わば、画像形式と同じです。後述するMP3を例にすると、MP3コーデックで符号化したデータをMP3ファイルフォーマットに格納して、そのままMP3形式になるわけです。

つまり、ファイルフォーマットの名称とコーデックの名称が同じになり、どちらの意味でも使われる ということです。

また、音声コーデックによって圧縮された符号化データは、そのまま音声ファイルフォーマットとして形式化することもできるし、動画等のコンテナファイルに格納することもできるのです。

したがって、音声ファイルの場合、ファイルフォーマットとコーデックが同じ名称となったり、または、符号化データが動画コンテナの音声部分に利用されたり、混同しやすいという問題がありますが、ファイルフォーマットとコーデックは違うものですので、しっかり理解しておくことが大切です。

さて、「コーデックはデータを圧縮して符号化するプログラムであることが一般的」ということは、前項で解説した画像ファイルと同様に、音声ファイルも圧縮して保存される形式と、圧縮されずにそのまま保存される形式があるということです。

音声ファイルフォーマットは、「非圧縮」「非可逆圧縮」「可逆圧縮」の3種類のフォーマットに分類することができます。

ではまず、「非圧縮」の音声ファイル形式から解説して行きましょう。

WAVE形式(ウェーブ)

WAVE形式(または、WAV形式)は、Windows標準の音声ファイルフォーマットで、拡張子は「.wav」になります。

符号化方式については特に規定されておらず、任意のものを利用することができますが、基本的に非圧縮の形式ため、BMP形式同様にファイルサイズが大きいという特徴があります。ファイルサイズは、1分間の音声で約10MBを必要とします。

ただし、音質は音楽CDとほぼ同じであり、そのため、原音として最初の録音時にWAVE形式で保存し、WAVE形式から各コーデックによって圧縮したフォーマットに変換するといった使われ方が一般的です。

また、複雑な音声であっても無音であっても、同じビットレートで記録するため、一定時間あたりのファイルサイズは変わらないという特徴もあります。

AIFF形式(アイフ)

AIFF形式は、Macintosh標準の音声ファイルフォーマットで、拡張子は「.aif」になります。基本的にWAVEのMacintosh版と考えて良いと思います。

次に、「非可逆圧縮」の音声ファイル形式です。

音声ファイルの非可逆圧縮の仕組みは、もうおわかりと思いますが、画像の非可逆圧縮と同様に、人間の耳では聞き取れない音域の音を欠損させるというものです。

MP3(エムピー スリー)

MP3は「MPEG Audio Layer-3」の略で、MPEG(エムペグ)という動画ファイル形式で利用される音声圧縮形式です。拡張子は「.mp3」となります。

Layer(層)は1~3があり、その中で最も圧縮率が高いのが「Layer-3」になります。

MP3は前述のとおり、MP3コーデックで符号化したデータを、そのままMP3フォーマットに格納してMP3形式とすることもできますし、MPEG等の動画コンテナの音声部分として他のコンテナファイルに格納することもできます。

MP3は、非可逆圧縮のため劣化を元に戻すことはできませんが、CD並の音質を保ったまま、約10分の1程度までサイズを圧縮することができるコーデック(フォーマット)です。

MP3形式の音楽ファイルは、高音質でファイルサイズも1曲3~5MB程度と小さいことから、ウェブや携帯音楽プレーヤー等で広く普及しており、MP3形式は今現在で最も普及している音声圧縮形式と言えます。

MP3形式(フォーマット)の音声ファイルの作成には、「LAME(レイム)」などのMP3エンコーダが用いられるのが一般的です。

※エンコーダもコーデックと混同されやすいので注意が必要です。エンコーダは、その規格のコーデックを使用してフォーマットを作成(符号化)するソフトウェアや機器になります。

LAME(レイム)などの優れたMP3エンコーダや、多くのデコーダ(コーデック規格に基づいてフォーマットを復号化するソフトウェアや機器)、プレーヤーソフトがライセンスフリーで利用できることが普及の要因と言われています。

ただし、著作権保護のための不正コピー防止機能等を持っていないため、MP3形式にコピーされた不正ファイルがウェブを介して出回り、社会問題となっています。

MP3形式に限ったことではありませんが、コピーしたファイルを個人で楽しむのは良いですが、第三者に配布すると違法となります。また、個人のウェブサイトにコピーをアップロードしても、第三者への提供と見なされ違法となりますので注意してください。

また、MP3をベースに音質と圧縮率を向上させ、音質を保ったままMP3の約半分まで圧縮できる「MP3PRO(エムピー スリー プロ)」という圧縮方式も開発されています。

AAC(エーエーシー)

AACは「Advanced Audio Coding」の略で、MPEG2またはMPEG4と呼ばれる動画形式で採用されている音声圧縮形式です。

MPEG1という動画形式で採用されている音声圧縮形式がMP3であり、MP3の後継というべき形式です。MP3が広く普及していたために普及率が上がりませんでしたが、Apple社製品のiTunesやipod、携帯電話の着うたなどが採用したために、広く認知されることとなりました。

AACMP3と同様に、AACコーデックで符号化されたデータ圧縮形式をそのままAACフォーマットに格納してAACファイルとすることもできますし、コンテナファイルに格納することもできます。拡張子は、どのようなコンテナに格納するかによって変わります。

例えば、MPEG4のコンテナフォーマットに格納すれば「.mp4」となり(音声ファイルの場合は「.m4a」となることが多い)、MP3と同様にAACデータをそのままファイル化した場合は、拡張子が「.aac」となります。(MPEG4コンテナには、AAC以外にもMP3などを格納することができます)

AAC形式の音声ファイルは、MP3形式よりも1.4倍ほど圧縮率が高く、サンプリング周波数も、MP3が48KHzまでだったのに対し、AACは最大96KHzまでをサポートしています。

主に、Apple社製品に代表される携帯マルチメディアプレーヤーや、携帯の着うた、ウェブ上の音楽配信、デジタル放送の音声部分などで広く利用されています。

また、不正コピー防止機能を備えています。

WMA(ダブリュ エム エー)

WMAは「Windows Media Audio」の略で、Microsoft社が開発したWindows標準の音声圧縮形式です。拡張子は「.wma」となります。

CD並の音質を保ったまま、22分の1(64Kbps)まで圧縮することが可能とされる高圧縮・高音質のファイル形式です。

また、著作権保護のために暗号化を行うことが可能で、不正なコピーを防止したり、有料コンテンツとして配信することができます。

WMAも、MP3AACと同様に符号化データをそのままフォーマット化したり、WMVという動画コンテナの音声部分に格納されることもあります。

AACと同様に、音楽配信などで広く利用されています。

Ogg Vorbis(オッグ ボルビス)

Ogg Vorbisは、ライセンスフリーの音声圧縮形式で、コンテナフォーマットが「Ogg」、コーデックが「Vorbis」で、合せて「Ogg Vorbis」となります。

拡張子は少し複雑で、音声の拡張子を「.oga」、動画の拡張子を「.ogv」とし、共通の拡張子は当初「.ogg」とされていましたが、「.ogx」に変更されています。ただし、「.ogg」は互換性のために残されています。

Vorbis形式は、MP3コーデックが特許ライセンスを請求し始めたために自由に利用できないことから、ライセンスフリーな代替の非可逆圧縮形式として開発されました。

Vorbisは、可変ビットレートで圧縮し、同じビットレートならMP3よりも高音質とされ、同じ音質ならMP3よりも圧縮率を高くすることができます。

また、Oggコンテナには、Vorbis以外の圧縮形式を格納することもできます。典型的なものがVorbisであり、Vorbisを格納したOggが「Ogg Vorbis」となります。

RealAudio(リアルオーディオ)

RealAudioは、RealNetworks社が開発した音声圧縮形式で、拡張子は「.rm」となります。

また、RealAudioファイルの配布と再生のためのシステムも提供しています。

通常、ファイルの再生は、ダウンロードの完了後でない始めることができませんが、RealAudioファイルは、ダウンロードしつつ、ダウンロードできたところから再生を始めることが可能になります。

この技術を「ストリーミング」と言い、インターネットラジオや、ウェブ配信されるコンサート等の生中継、音楽の視聴などにRealAudioが利用されています。

また、RealAudio形式の音声ファイルを再生するためのアプリケーションソフトとして「RealPlayer」が提供されています。

この他にも、SONYが開発した圧縮形式「ATRAC3(アトラック スリー)」や、映画やDVD、プレステ3のゲームなど5.1chにも対応した臨場感のある音声の再生が可能な「Dolby Digital(ドルビー デジタル)」など、多く種類があります。

最後に、「可逆圧縮」の音声ファイル形式です。可逆圧縮形式はその性質上、非可逆圧縮形式よりも圧縮率は低くなります。

FLAC(フラック)

FLACは「Free Lossless Audio Codec」の略で、主にコーデックとして使われます。可逆圧縮のため、圧縮前の元の状態に完全に復元することができます。

FLACはライセンスフリーの形式で、多くはOggコンテナに格納され、Ogg FLACと呼ばれます。拡張子は「.flac」または「.fla」になります。

CDなどの音源をパソコンに取り込んで保存しておく時には、可逆圧縮のFLACなどの形式に変換して保存しておけば、少ない容量でいつでも原音を完全に復元することが可能になります。

Monkey's Audio(モンキーズ オーディオ)

Monkey's Audioは、WAVE形式を可逆圧縮したライセンスフリーの圧縮形式です。「猿音」「猿」などとも呼ばれ、拡張子は「.ape」になります。

つまり、WAVE形式のファイルを圧縮するのに使われるコーデックとして使われ、WAVE形式を高い圧縮率で保存することができます。

TTA(ティーティーエー)

TTAは「The True Audio」の略で、ライセンスフリーの可逆圧縮方式です。拡張子は「.tta」となりますが、格納するコンテナによって変化します。

デコード(解凍)速度と再生時のハードウェア負荷でFLACに劣り、圧縮率でMonkey's Audioにわずかに劣りますが、エンコード(圧縮)速度では他の形式を上回るとされています。

この他にも、可逆圧縮に対応した「WMA Lossless(ロスレス)」、Apple社製品で使われる「Apple Lossless」などの形式もあります。

このように、音声ファイルはフォーマットとコーデックがどちらの意味でも使われるため、両者の違いが理解しにくいですが、多くの場合は、原音である非圧縮のWAVE形式など圧縮するコーデックの意味で使われます。

更新履歴

2009年11月2日
ページを公開。
2009年11月2日
ページをXHTML1.0とCSS2.1で、Web標準化。レイアウト変更。
2014年5月24日
内容修正。
2018年2月5日
ページをSSL化によりHTTPSに対応。

参考文献・ウェブサイト

当ページの作成にあたり、以下の文献およびウェブサイトを参考にさせていただきました。

文献
図解入門 インターネットのしくみ
サンプリングビット数とサンプリングレート
http://www.asahi.com/digital/column04/TKY200906040214.html
音声ファイルのフォーマットについて
http://www.ulead.co.jp/videostudio/topic/sound/
音楽ファイル形式の種類
http://www.ongaku-dl.com/ongaku-file.shtml