DTM/DAWユーザーだけではなく、近年だとハイレゾオーディオでも耳にするようになったサンプリングレート、ビットデプスという単語。ちょっと難しいですが、この記事ではこれらの単語がなにを意味するのかについて解説していきます。
まず、サンプリングレートとビットデプスの説明の前に、アナログオーディオ信号とデジタルオーディオ信号について簡単にご説明いたします。DTM/DAWでサンプリングレート、ビットデプスを決定する際や、ハイレゾオーディオの導入の際の参考にしてください。
ちなみに、ハイレゾとは、ハイレゾリューション(high-resolution)の略で高解像度という意味です。
目次
アナログ信号とデジタル信号
画像は1kHzの正弦波(Sine Wave)です。
横軸は時間、縦軸が音量を表しています。
1kHz(キロヘルツ)=1000Hz(ヘルツ)とは1秒間に1000回(往復)振動する波ということを表しています。
1kHzの正弦波と言えば、アナログテレビの放送時間終了後、試験信号照射中というテロップとともに『ピー』って鳴ってた音があるのですが、あの音です。
余談ですが、同じく放送終了後の『砂の嵐』の音はピンクノイズといいます。
なぜ急にこんなことを言い出したかと言うと、アナログのオーディオ信号はこのような『音波』だからです。空気中を伝わった音波が鼓膜に届き、人間の聴覚機関である鼓膜を振動させることで、人間は音を認識できます。
では、デジタルのオーディオ信号とはなんであるかと言うと、アナログの波を『0と1』の数字で置き換えたものです。置き換え方は、一定時間ごとに波の大きさを2進数で記録して、時間軸上に並べるという方法です。
この時、波の大きさを採取(サンプリング)する間隔をサンプリングレート、記録する2進数の桁数のことをビットデプスといいます。
デジタルオーディオ信号はそのままでは音波として聴くことはできず、聴くためには再度アナログ信号に戻す必要があります。
アナログ→デジタルの変換のことをA/D変換、デジタル→アナログの変換のことをD/A変換といいます。
サンプリングレートについて
先の説明にもあったとおり、サンプリングレートとは、実際に空気を振動させているアナログ音声信号をデジタル信号に変換する際のサンプリング間隔のことを言います。
測定間隔が短ければ短いほど、D/A変換時に元のアナログ信号の波形を正確に復元することができます。サンプリングレートが高いほど音質が良い、というのにはこういう理由があります。
ちなみに、オーディオCDのサンプリングレートは44.1kHzです、また、ハイレゾオーディオのオーディオファイルは96kHz以上のものが主流です。
kHzとは1秒間に○○千回の単位です。
つまり、CDでは1秒間に44100個のデータがあり、それを連続的に読み出すことでアナログオーディオ信号を復元しているということです。
それに対して96kHzのハイレゾオーディオはCDの倍以上、1秒間に96000個のデータを使用してアナログ信号を復元しています。
サンプリングレートと人間の可聴帯域
サンプリングレートについてはご理解いただけましたでしょうか?
では、なぜCDのサンプリングレートは44.1kHzなのかを考えていきます。これにはデジタルオーディオ信号をサンプリングする方法の弱点と人間の可聴帯域が関係してきます。
結論からいいますと、サンプリングレートが44.1kHzのオーディオCDには22.05kHz以上の超高域は正確に録音できません。その理由をこれからご説明していきます。
代わり映えしない画像で恐縮ですが、画像は22.05kHzのアナログオーディオ信号の例です。これを44.1kHzのA/Dコンバーター(変換器)で変換する工程をイメージにしてみます。
1秒間に22,050回振動する音を1秒間に44,100回サンプリングするA/Dコンバーターでサンプリングすると、図のような地点のサンプルを取ることになります。
グラフのセンターラインはプラスでもマイナスでもないゼロ地点を示しているのですが、各サンプルの音量が、全てゼロになっていることがお分かりいただけるかと思います。
なんということでしょう、各サンプルの音量がゼロ=そこに音が無いということになってしまっています。このように超高域の音が正確に再現されない、これがデジタルオーディオデータの弱点です。
今回はわかりやすくするためにゼロクロスポイント(グラフの0と交わる点)からサンプルを取り始めましたが、山と谷位置で取ったとしても、ギザギザのグラフが出来上がってしまい、D/A変換時に正常に再現されているとは言えない波形になります。
なぜ、正確に再現されない帯域があるのにCDのサンプリングレートが44.1kHzになったかというと、人間の可聴周波数帯域が関係してきます。
一般的に人間の可聴周波数帯域は20Hz〜20kHzと言われています。
人によりある程度の個人差はありますが、22.05kHzの音が正確に聞き取れる人間はいないとみて問題ないです。
このことから、2kHz程度の余裕もあるし、CDのデータ容量の問題もあるし、でCDのサンプリングレートは44.1kHzに決定されました。
えっ!?ハイレゾって聴き取れないの!?
こう書くとではハイレゾ、ハイサンプリングレートって意味ないの?と思われるかも知れませんが、大丈夫です、意味はあります。
音には基音と呼ばれる構成音の中で最も低い音がと倍音と呼ばれる基音よりも高い音程の音が合成されており、実際のところ音色を決定付けるのは倍音成分です。
ストリングスやピアノなどアコースティック楽器や、ボーカル、それらのリバーブのサウンドは倍音成分を多く含んでおり、含まれた倍音成分は合成音全体にも大きな影響を与える場合が多いです。
ハイレゾ、ハイサンプリングレートではこの倍音成分も余すことなく録音、再生することができます。
最終的に44.1kHzまで落としてCDに入る音源でも、途中段階の行程をハイサンプリングレートで行うことには音質的に大きな意味があるんです。
DAWやハイレゾ環境で使用するサンプリングレートは使用する機器の制約を受けます。オーディオインターフェースやDACの対応サンプリングレートを確認してから設定を行うようにしましょう。
DAWで48kHzを超えるサンプリングレートで作業する場合は、データ量も大きくなり、同じくらいのプロジェクトでもCPUやメモリ負荷が高くなるので、プラグインの対応状況やマシンスペックとも相談しながら決定しましょう。
ピットデプスについて
先の説明通り、サンプリングによって音を記録した2進数の桁数がビットデプスです。
16bitなら16桁=1/65536刻み、24ビットなら24桁=1/16777216刻みで音量を表しています。
勘違いしやすいポイントとしては、16bitの倍は32bitではなく、17bitということです。『0か1の2パターン』×桁数分なので、2のbit数乗計算だからです。
もう一つは、ビットデプスに関わらず、基本的には最大記録音量は同じ、という点です。
各桁の使用方法などで例外もあるのですが、16bitの最大65536/65536と、24bitの最大16777216/16777216はどちらも=1となり、記録できる音量に違いはありません。
例えば、
サンプリングしたデータに3.56と4.27いう数字があるとします。ビットデプスの違いはこれを四捨五入するときと同じイメージです。
小数点以下第1桁で四捨五入すると、どちらも4になってしまいますが、小数点以下第2桁で四捨五入した場合、それぞれ3.6と4.3となり、元の数字がより正確に再現出来ます。
また、16bitの最大65536/65536や24bitの最大16777216/16777216のことを『フルビット』と呼び、この状態以上のデータは正確に記録されません、いわゆるデジタル歪みを起こして、使い物にならないデータになってしまうので、注意が必要です。
DAWのメーターにはフルビット時に赤いランプが点灯するものが一般的で、レベルを設定する際にはこのメーターにも注目することが大切です。
ちなみにCD規格のビットデプスは16bitで、ハイレゾでは24bitや32bitが主流です。
サンプリングレート同様、DAWで24bit以上のビットデプスで作業をする場合にはマシンスペックやデータ保存先の容量とも相談する必要があります。
また、CDに収録するために16bitデータに落とす際にはディザーと呼ばれる機能で、データに乱数を加えて自然な仕上がりを目指すのが一般的です。
3行でまとまると
- CDは44.1kHz/16bit!
- ハイサンプリングレート録音では倍音成分がきちんと録れる!
- DAWではデータ容量、マシンスペックに注意!
最後に
大前提の大きな注意点ですが、ハイレゾ、ハイサンプリングレート音源の再生には出力するイヤホン、ヘッドホン、スピーカーがハイレゾに対応している必要があります。
カタログの再生周波数特性を参考に最大値が〜40kHzとか〜60kHzとなっているものを選びましょう。そうでないとせっかくの超高域も再生されず、あまり変化を感じることができません。
ちなみに私は96kHz/24bitで作業を行うことが多いです。高域の倍音感が48kHzよりも96kHzの方が綺麗に出てくれることが多いからです。
Facebookページ作ってみました。
いいね!とかしていただけると歓喜します。