Ring DACについて / dCS

Ring DACの概要

デジタル・アナログ・コンバーター（DAC）は、すべてのデジタル・オーディオ・システムの基本部分です。その設計は、私たちが音楽をどのように観賞し、オーディオシステムがどのように機能するかに大きな影響を与えます。

本稿では、デジタル・アナログ変換の基礎と、現在入手可能なさまざまなタイプのDACについて説明します。すべてのdCS DACに搭載されている独自のデジタル・アナログ変換技術であるdCS Ring DACを検証します。

Ring DACの設計を探求し、従来のラダーDACとの違いを示すとともに、Ring DACが歪みの原因となる問題を解決して、音楽の細部を明らかにし、音のあらゆる側面を解決するクラス最高のパフォーマンスをもたらすことを目指していることを紹介します。

Digital Audio Basics

Ring DACの仕組みを理解するためには、デジタル・オーディオの基礎と、サウンドを取り込み保存するための方法を理解することが役立ちます。

音はアナログであり、さまざまな圧力が空気粒子を振動させ、互いにぶつかり合うことで発生します。これは、2人の人間の間でスリンキーを伸ばしてもらい、1人がスリンキーを前に押してもらうと起こることによく似ています。その一押しによって、スリンキーの中を「波紋」が通過し、各コイルが前方に押し出され、次のコイルに圧縮されます。新しいコイルが前に押し出されるたびに、前のコイルは後ろに引っ込みます。この圧縮の波は、反対側の端に達するまでスリンキーの中を移動します。

これと同じことが音でも起こります。人が声を出すと、声帯が振動して周囲の空気を前後に押し、空気中に縦波が発生します。この縦波が終点である人間の耳に到達すると、気圧の変化が電気信号に変換され、脳が音として認識するのです。

音楽を録音する目的は、このような気圧の変化を、後でスピーカーやヘッドフォンのような変換器で再生出来るように保存し、リスナーが録音された時点でのオリジナルの演奏をそのまま聴けるようにすることです。

今日では通常、ひとつ以上のマイクとアナログ・デジタル・コンバーター（ADC）を使って行われます。音楽演奏は、空気粒子の運動エネルギーを電気エネルギー（電圧）に変換するマイクロフォンで捉えられます。ADC(アナログ・デジタル・コンバーター)は、この電圧をコンピューターに保存したり、インターネットでストリーミング出来る形式に変換するために使われます。ADCは、マイクやミクシング・コンソールなどのスタジオ機器から入力される電圧を見て、その電圧がどれくらい高いかを判断し、「ワード」と呼ばれる2進数（1と0）のグループとして保存します。

CM, bit depth and sample rates

デジタルオーディオをエンコードするための最も一般的なフォーマットは、PCM（パルス・コード・モジュレーション）として知られています。PCMにはふたつの重要な変数があります：サンプルレート（サンプルの取得頻度）とビット深度（各オーディオサンプルワードに何ビット、つまり1と0があるか）です。

この図は、アナログ音波が16ビット44,100サンプル/秒PCMエンコーディングでどのように表現されるかを示しています。

Bit Depth

ビット深度とは、デジタルオーディオ録音において、音波の絶対位置を表すのに何ビットを使うことが出来るか、ということです。CDを含む多くのデジタルオーディオフォーマットは、16のビット深度を使用しています。ADC は任意の時点で可能な総数、65,535 個中のひとつの値を持つことが出来るということです。

一般的に、人間の耳は20ビットのダイナミックレンジを知覚できると言われており、これは約120dBに相当します（上限は痛みの限界値）。CDオーディオは16ビットフォーマットで、約96dBのダイナミックレンジ（サンプリング可能な最も大きなレベルと最も小さなレベルの差）を実現しています。ディザ（信号に低レベルのノイズを加えること）を使用すると、このダイナミックレンジを120dB以上まで向上させることが出来、大幅に改善されます。24ビットのような高解像度フォーマットに移行すると、このダイナミック・レンジは144dBに増加します。

"24ビット・オーディオは単に16ビット・オーディオよりも大きな音や小さな音を記録しているというのが一般的な誤解ですが、そうではありません。"

よくある誤解として、24ビットオーディオは単に16ビットオーディオよりも大きな音と小さな音を記録するものだと思われていますが、そうではありません。代わりに、最も大きい音から最も小さい音までの同じ範囲が測定されますが、24ビットサンプリングでは、16ビットよりもかなり多くのステップで行われます。これは、任意の点における波形の絶対値が、よりよく（より細やかに）表現できることを意味します。

高層ビルのある窓の高さを測ろうとしたときのことをちょっと想像してみてください。1メートル単位でしか測れない場合に、窓の高さが10.7mだとすると、四捨五入して10mにすることも、11mにすることもできますが、いずれにしても正確な高さとは言えません。

今度は同じ状況で0.2m刻みで測定出来る場合を想像してみてください。窓の高さは10.7mです。それでも窓の正確な高さを測ることは出来ませんが、10.6mや10.8mに四捨五入することで、実際の値にかなり近づくことが出来ます。これは要するに、デジタルオーディオのビット深度を上げると起こることと同じです。波形の絶対値をより正確に測定出来るようになり、オーディオの量子化ノイズと呼ばれるものを減らす効果があります。

量子化ノイズとは、測定誤差によって発生する可聴ノイズのことです。例えば、10.7mの窓を11mと測定すると、0.3mの誤差が生じます。デジタルオーディオでは、このような誤差は、可聴帯域に悪影響を及ぼします。ハイレゾオーディオを扱う場合、信号のビット深度が1ビット増えるごとに、量子化誤差は半分になり、誤差は4分の1になります。

サンプルレート

人間の耳が20,000Hzまでしか聴こえないのであれば、20,000Hzより高いサンプルレートを使う理由はあるのでしょうか？その通りなのですが、デジタルオーディオの最も重要な側面のひとつ、デジタルオーディオのサンプルは、オリジナルのアナログオーディオで記録しようとしている最高周波数の最低2倍で採取する必要があるとナイキストの定理で規定されています。

人間の聴覚の上限は20,000Hzと広く受け入れられているため、デジタルオーディオで人間の聴覚のフルレンジを再現するには、少なくとも40,000Hzでサンプリングする必要があります。後述する理由（デジタル・アナログ・コンバーター内のデジタル・フィルタリングに関連する）により、フルレンジの録音はこれよりわずかに高くサンプリングされ、CDオーディオは44,100Hzでサンプリングされます。これらのサンプリングレートはサンプルレートと呼ばれ、1秒間に何個のサンプルが使われるかを定義します。デジタルオーディオをより高いレートで動作させることで、より穏やかなアンチエイリアスフィルターを使用することも出来ます。高いサンプルレートと穏やかなフィルタリングは、フィルターがオーディオに与える影響が少ないことを意味し、音質に影響を与えるプリリンギングやポストリンギングのような効果が少なくなります。

このふたつの数値、サンプルレートとビット深度がPCMオーディオを定義するものです。PCMデータを再生するdCS製品のディスプレイは、192kHz 24ビットデータのPCMストリームを再生する場合、24/192と表示します。

この図は、アナログの音波が24ビット176,400サンプル/秒PCMエンコーディングでどのように表現されるかを示しています。上記のCDオーディオよりも高いサンプルレートは、このグラフのX軸（横軸＝時間）をより大きく表現することを可能にし、高いビット深度は、波の正確な振幅を各サンプル（Y軸）でより正確に表現することを可能にします。

DSD パルス密度変調

ADCサンプリング・プロセスが任意の時点で入ってくるアナログ電圧の絶対値を取るPCMオーディオとは異なり、パルス密度変調（PDM）はふたつのサンプル間の時間に基づいて動作し、波の振幅が増加しているか減少しているかを決定します。サンプルが近ければ、波の振幅は増加し、サンプルが離れていれば、波形の振幅は減少します。波形の絶対値は、PCMのように個々のサンプルを見てもわかりませんが、サンプルをまとめると元のオリジナル波形をよく表しています。

この方法の注意点は、「ダイナミックレゾリューション」（オーディオの1サンプルに保存される振幅の情報量）が1ビットと信じられないほど低いため、PCMオーディオよりもはるかに高いレートでサンプルを採取する必要があることです。

PCMが通常毎秒44,100サンプルでサンプリングするのに対し、DSDは最低でもこの64倍、毎秒2,800,000サンプルで動作します。デジタル・オーディオをエンコードするこのプロセスでは、より多くのノイズが発生します。これは、低いビット深度（1ビットでは量子化ノイズが多くなる）と高いサンプルレート（基本的に、はるかに高いレートで物事をオン・オフするとノイズが発生する）の両方によるものです。このフォーマットを使えるようにするためには、データをノイズ整形して、量子化ノイズをオーディオ帯域から超音波領域（20kHz以上）に押し上げてしまう必要があります。

その結果、オーディオ帯域（0～20kHz）では24ビットに近い性能を発揮し、信号帯域幅は100kHzを超えます。この1ビット・アプローチの代償としては、超音波領域（20kHz～1.4MHz）で非常に多くのノイズが発生しますが、これは通常、顕著なバックグラウンド・ノイズとして聴こえることはありません。音楽をデジタル・エンコードするこの方法は、ダイレクト・ストリーム・デジタル（DSD）というフォーマットで使われているものです。この1ビット変換フォーマットは、ビットストリーム・デルタ・シグマ・デジタル・アナログ・コンバーターの基礎となっているのです。

DSDオーディオはさらに発展し、より高いレートが使われるようになりました。オリジナルのレートはDSD/64またはシングル・スピードDSDと呼ばれ、CDオーディオの64倍のレートで動作します。DSD/128またはダブル・スピードDSDは、CDオーディオの128倍のレートで動作し、DSD/256とDSD/512も同様に256倍、512倍です。DSDファイルは、標準的なDSD/64レートであっても大きいデータです。データ・レートは2チャンネル・ステレオで5644.8kbps(kilo bite per second)となります。

D/A変換

"考慮すべきふたつの要素がある：（DACは）それが録音されたときの波のオリジナルの振幅を完全に再現出来るのか......そして、それは正確に正しいタイミングで出来るのか？"

DAC（デジタル・アナログ・コンバーター）は、ほぼすべての現代の音楽再生システムのセットアップにおいて、何らかの形で重要な役割を担っています。DACは、アーティストのオリジナル音楽パフォーマンスをエンドユーザーが聴こえるように変換するという、重要な役割を果たしています。DACの基本的なコンセプトは、SpotifyやTidalからのストリーミング、DAP（デジタル・オーディオ・プレーヤー）への保存、NAS（Network Attached Storage）からの再生など、デジタル・オーディオをアナログ電圧に変換し、スピーカーやヘッドフォンなどのトランスデューサーを駆動することです。

このデジタルからアナログへの変換を行う場合、考慮すべきふたつの要素があります：コンバーターは、それが記録されたときの波のオリジナルの振幅を完全に再現することが出来るか（言い換えれば、正しい電圧を出力することが出来るか）、そしてそれは正確に正しいタイミングで行うことが出来るかどうかということです。コンバーターが正しい電圧を再現出来るかどうかはDAC回路そのものに起因し、正しいタイミングでサンプルを変換出来るかどうかはシステムのクロッキングに起因します。

デジタルオーディオは、一連の "サンプル "として二進法（1と0）で保存されます。前述したように、元の音波を表現するために使用される連続した2進数の桁数をビット深度と呼びます。DACはこの2進数をアナログ電圧に変換する役割があり、その電圧でトランスデューサーを駆動することによって音が出ます。DACは、一連の電流源（それぞれがアナログ電圧を生成する電子部品）を使ってこれを実現しています。

ラダーDAC

D/A変換の最も一般的なアプローチは第一に、ひとつの電流源を常にデジタル・オーディオ・ビットのひとつ専用に動作させることです。例えば、ある電流源は常にデジタルオーディオ信号の1ビット目の動作に追従します。別の電流源は、デジタルオーディオ信号の2番目のビットの動作に常に追従します。電流源が続くにつれて、それらが生成しなければならないエネルギー量はどんどん小さくなっていきます（電流源が連続するごとに半分になります）。

これらのコンポーネントの配置図を見ると、梯子（はしご）のように見えるので、このタイプのDACには「ラダー(梯子)DAC」という非公式な名前が付けられています。各電流源によって生成される電圧が、チェーンの下に行くほど段階的に小さくなるように、電流源間に抵抗を使用する必要があります。これらの抵抗の値とレイアウトから、ラダー型DACにふたつの顕著なタイプ、R-2R DACとバイナリウェイト（二進法加重）DACの名前が付けられました。

ここでとても重要な違いをひとつ挙げておきます。dCSのDAC（リングDAC）はラダーDACではありません。リングDACとラダーDACの核心的な違いについては、本稿の後のセクションで説明します。

R2R DAC

R-2R DAC（ラダーDACのサブセット）は、各電流源によって生成される電圧の量を制御するために、ふたつの抵抗値のうちのひとつを使用します。R値の抵抗は各電流源セクションの間に使用され、2R値の抵抗は各電流源に使用されます。オーディオ信号の特定のビットがHigh（0ではなく1）になると、対応するスイッチが有効になり、その電流源の出力がHighになります。その後、すべての電流源の出力がサミング・バス(複数の音声信号をミックスして出力する信号回線)に供給されることでDACの全体的な出力が得られます。

二進法加重DAC

バイナリ加重ラダーDACでは、電流源から生成される電力を徐々に小さなステップにするために、値が小さくなる抵抗が使用されます。最初の抵抗の値がRの場合、次は2R、次は4R、次は8R、16Rと、必要な数だけ段階を踏んでいきます。この抵抗値の階層構造が、この手法にバイナリ加重という名前を与えているのです。

誤差

R-2Rとバイナリ重み付けDACの両方のアプローチの主な欠点は、抵抗器は、すべての電子部品のように、その値に誤差の要素を持っているという事実から来るものです。例えば、ゴールド公差の抵抗器と呼ばれるものは、部品の抵抗値がその記載値の5％以内であることを保証します。これは、ラダーDACで使用される抵抗器では、DACのそのセクションで生成される電流が必要以上に低くなったり高くなったりする可能性があることを意味します。重要な点は、ラダーDACはオーディオ信号の特定のビットに対して毎回同じ電流源を使用するため、ビットがハイになるたびに誤差が全く同じになるということです。ここで、成分値の誤差はオーディオ信号に相関しています。その結果、不要な高調波成分が加わり、信号の線形歪みが聴き取れるようになるのです。

この問題点は、大きな電流源（オーディオ信号のより重要なビットに相関する）が、小さな電流源と同じ誤差を持つという事実です。24ビットのラダーDACの場合、最上位ビット（MSB＝最大の電流源）の1％の誤差は、7ビット目全体よりも大きく、24ビット目よりも104dB大きい。24ビットの分解能を実現するためには、MSBは0.000006%の精度が必要になります。

ラダーDACが抱えるもうひとつの問題は、ゼロ交差点歪みです。各電流源に潜在的な相関誤差があることを考えると、例えば16ビットDACで、32,767の振幅を再現するところから32,768の振幅を再現するようになったらどうなるのでしょう？。DACは、最初の（最上位）ビットがローで、続く15ビットがハイという状態から、最初のビットがハイで、続く15ビットがローという状態に変化します。これはゼロクロスポイントと呼ばれます。ここでの各電流源/ビットに関連する誤差の大きさ、具体的には、32,767の15個の誤差の合計と32,768の1個の誤差の合計は、いずれも最下位ビット（LSB）に比べて非常に大きいという事実です。つまり、DACにおける32,767から32,768への変化は、1LSBよりもはるかに大きくなる可能性があります。この結果、線形歪みが生じ、これは極めて望ましくないものです。ラダーDACの線形歪みがもたらす問題の解決策は、元の信号と特定のサンプル値に関連する物理的な抵抗値の誤差との間の関わりを取り除くことです。

Ring DAC

以前にラダーDACについて説明した問題は、どのように解決できるのでしょうか？。DAC自体のエラーを効果的に非相関化し、その結果生じる歪みを除去するために改めて設計されたDACはどのようなものでしょう？。そこで登場するのがdCS Ring DACです。

Ring DACは、すべてのdCS DACに搭載されている独自のDACテクノロジーです。表面的には、リングDACはラダーDACのように見えるかもしれません。各電流源にはラッチと抵抗があり、これらの電流源はサミング・バスに供給されます。しかし、リングDACとラダーDACの決定的な違いは、リングDACが等しい値の電流源を使用することです。これは、「ユニタリー・ウェイト」または「温度計コード化」DACアーキテクチャとして知られているものです。

https://www.rohm.co.jp/electronics-basics/da-converters/da_what7

もうひとつの決定的な違いは、Ring DACはラダーDACとは異なり、毎回同じビットに同じ電流源を使用するわけではないということです。リングDAC内には48個の電流源があり、そのすべてが同量の電流を生成します。Ring DACのFPGA(フィールド・プログラマブル・ゲート・アレイ)制御の性質により、ソースのオン/オフが可能になり、成分値の誤差が時間とともに平均化されます。リングDACで同じビットを3回鳴らすと、ある出力はわずかに高く、次の出力はわずかに低く、次の出力はその中間となります。

温度計コード化されたDACを最適に動作させるには、かなりの信号処理能力とノウハウが必要ですが、この方法の利点は、信号から線形歪みをほぼ完全に除去できることです（多くのDACが生成する高度に人工的な歪みは、人間には非常に目立ち、知覚される音質に悪影響を与えることを念頭に置いてください）。

Ring DACのプロセスは、誤差の非相関化と考えることができます。バックグラウンド・ノイズ（無相関エラー、つまりオーディオ信号自体に関連していないエラー）は自然界に非常に多く存在しますが、人工的な歪み（相関エラー）はそうではありません。この結果、Ring DACは、特に低い信号レベルにおいて、他を寄せ付けないほどの低い歪特性を得ました。このことが意味するのは、リスニング用語で言えば、オーディオでより細かいディテールを分解して聴くことが出来るということです。

Ring DACが、正しい信号を生成するために、どの電流源のオン・オフを決定するかは、dCS Mapperに定義された高度に洗練されたルールによって決定されます。

皆さんにはその時々によって発見があったり、技術が開発されたなどランダムな現象に見えるかもしれませんが、それは30年にわたる継続的な作業の集大成です。その結果は、ノイズ、歪み、クロストークを最小化するために使用さる一方で、時間の経過とともにスペックから外れた部品の特性を平均化することによって最高度のリニアリティを維持するための、注意深く計算された演算の様式として完成しました。マッパーの改良により、Ring DAC固有のリニアなサウンドを維持しながら、より低いノイズフロアを実現することが出来ました。マッパーは、Ring DACによって生成されたノイズを可聴周波数帯域の外側に押し出し、そこでフィルターにかけて消滅させることを可能にするものです。

マッパーは5ビットで動作するため、リングDACに到着したPCMデータはまず706.8kHzまたは768kHzにオーバーサンプリングされます。その後、2.822MHzから6.144MHz（ユニット、設定、コンテンツのサンプル・レートによる）のレートで5ビットに変調されてからマッパーに供給され、マッパーはこの信号をDACの電流ソースに分配します。

この図は、リングDAC内のモジュレーターの出力を示しており、入力されたデジタル・オーディオ信号を5ビットのハイレート・フォーマットに変調し、アナログに変換する準備が整っています。

ビットストリーム　ΔΣ（デルタ・シグマ）DAC

先に説明したDACアーキテクチャに共通する重要な要素のひとつは、PCMデジタル・オーディオデータをDACに供給するという点です。これは、複数のビット深度の一つになるのですが、通常は少なくとも16ビットです。しかし、ビットストリーム・デルタ・シグマDACは1ビットしか使用しません。複雑な波形を単一のオン・オフ信号で再現しようとするのは、奇妙なアプローチに思えるかもしれません。しかし、ここでの重要な違いは、1ビット信号が任意の時点での波の正確な振幅を決定しないということなのです（これはラダーDACの仕組みであり、パルス変調オーディオの基本でもある）。その代わりに、あるビットから次のビットへのタイミングは、波形が振幅を増やしているのか減らしているのか、そしてその度合いを示します。

D/A変換に対するこのアプローチの有用な点は、電流源のパーツの値の誤差（抵抗値）に起因する誤差がすべて取り除かれることです。しかし問題は、大量の量子化ノイズが発生し、可聴周波数帯域外に収まるようにノイズは取り除かねばならないことです(ノイズシェイプ)。ノイズシェイプのためには、非常に高いサンプルレートが必要となり、音源のオンオフを速くすればするほど、より多くのノイズが発生するのです。さらに、ビットストリームの（既知量）知ることができる量は、オンまたはオフの時間だけなので、ここでジッターが問題となります。システムの実行速度と、その結果発生するジッターやノイズの大きさはトレードオフ(相反)の関係にあります。

これらの要素を考えると今日では1ビットシステムはあまり一般的ではないでしょう。DSDビットストリームシステムにおいてさえ、ミキシングやEQといったDSP処理のために信号をマルチビットフォーマットに間引き変換させているほどです。

ノンオーバーサンプリングノンフィルタリング DAC

オーバーサンプリングとそれに続くフィルタリングの使用は、DACが生成するオーディオ品質に現実的にマイナスの影響を与えると考えるオーディオメーカーもあります。彼らの主張は、オーバーサンプリングや、場合によってはフィルタリング処理さえも行わないDACを使用した方が高品質が得られるというものです。フィルターの種類によっては、プリリンギングやポストリンギングが発生したり、フィルタによって位相の問題が発生したりするなど、フィルタが望ましくない効果をもたらす可能性があるからです。

その結果、一部のDAC設計ではフィルターを完全に排除しています。しかし、このアプローチがもたらす課題は、D/A変換中に作られる人工的なナイキスト・イメージが、オーディオ・スペクトラムに依然として存在することです。これは、サンプルレートが低い場合（例えばCDオーディオなど）に現実的な問題となります。下の例では、20kHzの信号が24.1kHzのナイキストイメージで再構成されています。この2つの周波数は一緒に「ビート」し、下の画像のような波形を作ります。

次のグラフに示すように、24.1kHzのトーン自体は聴こえませんが、アンプとスピーカーが良好な相互変調性能を持っていなければ、4.1kHzのトーンは存在します。ここで相互変調がなければ、20kHzのトーンは常に最大振幅となります。しかし、見てもわかるように、その振幅は24.1kHzのトーンによって変調されています。これは人間によって聴き取れるものであり、正しいフィルタリングを使用した場合に達成できる性能と比較すると、トレードオフとしては疑問が残ります。

フィルタを使用するノンオーバーサンプリングDACの場合、これはおそらく22.05kHzのアナログ・フィルタの形を取らなければならないでしょう。オーバーサンプリングしないため、デジタル・フィルタリングを効果的に使用することができず（デジタル・フィルタはアナログ・フィルタと同じ空間で動作することになる）、すべてのサンプル・レートに対して同じシャープなアナログ・フィルタを使用しなければなりません。このフィルターは固定のため、例えば192kHzのコンテンツを再生する場合、（オーバーサンプリングDACで可能なように）通過帯域を上げることはできません。