注意：これは記事の古いバージョンですが、新しいものは私のウェブサイトで入手できます。

オーディオコーディングの進化

2011年の中庭では、最初のMP3エンコーダーが登場してから17年が経過しました。しかし、私たちのほとんどがまだMP3音楽を静かに聴いているという事実は、進歩が目立っていることを意味するものではありません。そして、これはMP3エンコーディングアルゴリズムの開発だけでなく、一般的な損失の多いオーディオエンコーディングの進化にも適用されます。これは、より小さなサイズでより良い品質を実現できる新しい、より高度なコーデックの形式です。 OGG Vorbis、AAC、WMA、Musepackなどのフォーマットは、多くの制限と欠点がある古いMP3から長い間取り残されてきました。

並行して、ロスレスコーディングが勢いを増しています。しかし、大量のデータがあるため、今日ではまだ本格的な使用には適していません-特に、メモリが限られているポータブルデバイス、ネットワークでのストリーミングストリーミング、および単にインターネットでの音楽の迅速な交換には適していません（誰もが認めている必要はありません常に手元にあるわけではなく、100メガビットのインターネットアクセスがあります）。

そのため、MP3は古くなっており、代替品は間違いなく熟しています。初心者ユーザーになる方法ですが、メモリのコストを最小限に抑えながら最高品質のサウンドを実現したい人は誰でしょうか？結局のところ、かなりの数の代替コーデックがあります（少なくともそのうちの3つは本当に注目に値します）：AppleはiTunes Storeを使用してAACフォーマット（Advanced Audio Coding-MP3の後継として位置付けられています）を促進し、Microsoftは独自のライセンスWMA（Windows Media Audio）をさらに促進しています、OGG Vorbisはますます人気を集めており、特に啓発されたものはMusepackのような形式を使用しています。これらのコーデックのどれを選択しますか？

この質問に対する明確な答えはありません。だからこそ、この記事を書いています。

決定方法

いずれかのコーデックの選択は、特定のタスクに依存します。すなわち：

1.サウンドを再生するハードウェアおよびソフトウェアから。つまり 1つまたは別のオーディオ形式のサポートの利用可能性、および再生の品質（ビットレートを選択する際にガイドされることをお勧めします）。

2.最終マテリアルに割り当てられるメモリの量。したがって、より高いまたはより低い目標ビットレート/品質が選択されます。

もちろん、形式とビットレートに加えて、最適なエンコーダーとエンコードパラメーターを選択する必要があります。さまざまなフォーマット/エンコーダーは、ビットレートの範囲によって異なる形で現れることを理解してください。

したがって、アルゴリズムは次のようになります。

1）ターゲットデバイスがサポートする形式を確認します。
2）オーディオ素材に割り当てることができるスペースの量を決定し、エンコード用のオーディオの合計時間を決定します。
3）次の式で希望のビットレートを計算します：ビットレート= disk_space（キロビット）/ total_duration（秒）。
4）ビットレートに応じて、サポートされている形式から最適なものを選択します（これについては後で詳しく説明します）。
5）最適なエンコーダーとそのパラメーターを選択します。

ヒーローについての詳細

Aac

データ圧縮方法と心理音響学の開発により、MP3標準がオーディオコーディングの新しいアイデアの実装のために「amp屈」になったという事実に徐々につながりました。その結果、1997年までに、90年代前半にMP3を作成したフラウンホーファー研究所（IIS）、およびドルビー、AT＆T、ソニー、ノキアは、標準となった新しいオーディオ圧縮方式であるAdvanced Audio Coding（AAC）を開発しましたMPEG-2およびMPEG-4。 MP3標準との主な違いは次のとおりです。

幅広いフォーマット（最大48チャンネル）およびサウンドサンプリング周波数（8 kHz〜96 kHz）のサポート。
より効率的でシンプルなフィルターバンク：ハイブリッドMP3フィルターバンクは、通常のMDCT（修正離散コサイン変換）に置き換えられました。
フィルターバンクでの周波数時間分解能の変動範囲が8倍（MP3の場合は3倍）であるため、オーディオ信号のトランジェント（トランジェント）および静止セクションのコーディングが改善されました。
16 kHzより上の周波数のより良いコーディング;
より柔軟なステレオコーディングモード。異なる周波数帯域で独立してM / S（「ジョイントステレオ」）モードに切り替えることができます。
圧縮効率を高める標準の追加機能：時間領域ノイズ（TNS）の形成技術、時間内のMDCT係数の予測（長期予測）、ステレオ信号のパラメトリックコーディングモード（パラメトリックステレオ）、ノイズ合成（知覚的ノイズ置換）、周波数（SBR）。

これらの機能のおかげで、AAC規格は、より柔軟で効率的な、したがってより良いサウンドコーディングを実現できます。 MP3形式が広く採用された結果、AAC規格はMP3に匹敵する人気をまだ得ていません。ただし、AACは、人気のあるiTunes Store、iPod、iTunes、iPhone電話、PlayStation 3、ニンテンドーWii、およびDAB + / DRMデジタル放送の主な形式です。

OGG Vorbis

Ogg Vorbisは、2002年夏に正式にリリースされた比較的新しいユニバーサルオーディオ圧縮形式です。 MP3、AAC、VQF、WMAと同じタイプの形式、つまり非可逆圧縮形式に属します。 Ogg Vorbisで使用される心理音響モデルは、原則としてMP3とその動作原理に類似していますが、このモデルの数学的処理と実際の実装は根本的に異なり、著者はすべての先行モデルから完全に独立した形式を宣言できます。
Ogg Vorbis形式の主な否定できない利点は、その完全な開放性と自由です。さらに、最新かつ最高品質の心理音響モデルを使用しているため、ビットレート/品質比は他の形式よりもはるかに低くなっています。その結果、音質は向上しますが、ファイルサイズは小さくなります。
この形式には多くの利点があります。たとえば、Ogg Vorbis形式では、ユーザーは2つのオーディオチャネル（ステレオの左右）のみに制限されません。最大192kHzのサンプリング周波数と最大32ビットの解像度（非可逆圧縮形式を許可しない）で最大225の個別チャンネルをサポートしているため、Ogg Vorbisは6チャンネルDVDオーディオサウンドのエンコードに最適です。さらに、OGG Vorbis形式は正確なサンプルです。これにより、エンコード前およびデコード後のオーディオデータにオフセットや追加/失われたサンプルが相互に関連付けられないことが保証されます。ノンストップミュージックをエンコードする場合（あるトラックが別のトラックに徐々に入る場合）は、簡単に評価できます。その結果、サウンドの整合性が保持されます。
ストリーミングブロードキャストの可能性がある人を驚かせることはありませんが、この形式はまさに基礎からのものです。これにより、フォーマットにかなり便利な副作用が与えられます。独自のタグを持つ複数のコンポジションを1つのファイルに保存できます。そのようなファイルをプレーヤーにダウンロードすると、すべての曲がいくつかの異なるファイルからダウンロードされたかのように表示されます。
それとは別に、かなり柔軟なタグシステムに言及する価値があります。タグのタイトルは簡単に拡張でき、画像（たとえば、アルバムカバーの写真）が散在する任意の長さと複雑さの歌詞（たとえば、歌詞）を含めることができます。テキストタグはUTF-8で保存されます。これにより、少なくともすべての言語で同時に記述でき、エンコードに関する問題を排除できます。これは、id3タグのようなさまざまなトリックよりもはるかに便利です。
Ogg Vorbisはデフォルトで可変ビットレートを使用しますが、後者の値はハード値に限定されず、1kbpsでも変化する可能性があります。最大ビットレートは形式によって厳密に制限されておらず、最大エンコード設定では、400kbpsから700kbpsまで変化する可能性があることに注意してください。サンプリングレートにも同じ柔軟性があります-2000Hzから192000Hzの範囲でユーザーに任意の選択肢が与えられます。
Ogg Vorbisは、Xiphophorusコミュニティによって開発され、すべての有料の独自のオーディオフォーマットを置き換えるものです。これはすべてのMP3競合他社の中で最も新しい形式であるという事実にもかかわらず、Ogg Vorbisはすべての既知のプラットフォーム（Windows、PocketPC、Symbian、DOS、Linux、MacOS、FreeBSD、BeOSなど）と多数のハードウェア実装を完全にサポートしています。今日の人気は、すべての代替ソリューションをはるかに超えています。
Ogg VorbisはOgg Squishマルチメディアプロジェクトのほんの一部であり、無料のエンコーダも含まれていることに注意してください。Speex-音声圧縮用。 FLAC-ロスレスサウンド圧縮用。 Theora-ビデオ圧縮用。

ミューズパック

MusePack（mpp、mp +、mpc、MPEG +）は、オーディオ情報を保存するためのライセンスのないファイル形式で、GNU General Public Licenseの下で配布されています。
高ビットレート（160 Kbps以上）でのMPCエンコードの品質は、MP3が提供する品質よりも（大幅ではないにしても）著しく高いです。
主な利点：

この形式は2番目のdct変換を実行しません。MP3、Vorbis、AAC、WMAなどの形式とは異なり、実際にはプリエコーアーティファクトの影響を受けません。
より効率的な可変ビットレートアルゴリズム。 MPCトラックの再生中にビットレートがどのように変化するかをトレースすると、単純なセクションではエンコーダーが低いビットレートを割り当て、複雑なセクションでは非常に高いビットレートを割り当て、時には400（！）Kbit / sを超えることがわかります。興味深い事実の1つは、ここで言及する価値があります：VBRモードのMP3エンコーダーは、無音（44100 Hzのサンプリング周波数）、AACおよびOGG Vorbisに32 kbit / sを割り当てます-2 kbit / s、Musepackは最小コスト、<1 kbitで無音をエンコードします/ s（たとえば、1分間の無音には約514バイトかかります）。これはすべて、このエンコーダーの極端な「節約」を表しています。
強力で柔軟な心理音響モデル。ここでは、たとえば、フレームに基づいたダイナミックローパスフィルターに言及できます（他のエンコーダーでは、各品質プリセットに固定帯域幅が設定されます）。
最適化されたハフマンテーブルに基づくより高度な圧縮（同じLAME MP3はビットレートの約20％を無駄にします-単に不完全な数学的圧縮のため）

Wma

Windows Media Audioは、オーディオ情報の保存とブロードキャストのためにマイクロソフトが開発したライセンスファイル形式です。

当初、WMA形式はMP3の代替として宣伝されていましたが、今日マイクロソフトはAAC形式に反対しています。通常、WMA形式は優れた圧縮能力を特徴とし、MP3形式を「バイパス」し、Ogg VorbisおよびAAC形式とパラメーターを競います。しかし、独立したテストおよび主観的評価で示されているように、形式の品質は依然として明確に同等ではなく、Microsoftが主張するように、MP3に対する優位性も明白です。

フォーマット、エンコーダー、パラメーターの選択

今すぐポイントに。

あなたの選択を容易にするために、多数の比較、聴取を通じて得られた経験を共有したいと思います。また、オープンな聴覚テストの結果の分析に基づいています。

そのため、以下では、個々のケースに最も適したエンコーダーと、パラメーターの正しい選択について説明します。変換には、 foobar2000を使用することをお勧めします（コンバーターの設定についてはここで詳しく説明します）。パラメーターはそのためだけに指定されます。さらに、foobar2000には、オーディオの前処理に役立つ多数の便利なDSPがあります。

コンソールまたは別のプログラムを使用して変換する場合：％s変数はソースファイル（または同様の変数）の名前に、％dは出力ファイルの名前に置き換える必要があります。

ビットレートの範囲ごとに、可能なフォーマットオプションが示されていることに注意してください。最初のオプションが最高の優先度です。プレーヤーが最初のオプションをサポートしていない場合-以下に注意してください。すでに書いたように、実際、今日注目に値するコーデックは3つだけです。これらはAAC、OGG Vorbis、およびMusepackです。ただし、WMAはその近さから、特別な品質の違いはありませんが、ほとんどの場合、MP3よりも優れています。代替の一部のデバイスはWMAのみをサポートしているため、4つの形式のそれぞれについて推奨事項を示します。

ビットレートに関しては、いわゆる最適なエンコードモードが真のVBR、つまりビットレートではなく、ターゲット品質のモード。理想的には、結果は可変ビットレートのトラックですが、品質は一定です（これら2つの概念を同一視しないでください。トラックのより複雑なフラグメントは、品質を維持するためにより多くのビットを必要とします）。したがって、出力のビットレートを予測することは困難です。したがって、以下のビットレート値は、可能であれば概算としてのみ表示されます-複雑さの異なる多数の構成の平均です。

この記事で言及されている他のエンコーダーと同様に、主要なパラメーターと推奨事項のロシア語の説明はこちらにあります。

超低ビットレート（〜25-40 kbit / s）

この範囲は、オーディオブックのエンコードに最適です。そして、ここでは、AAC、またはむしろNero AACという 1つのオプションしかありません。パラメーターは次のとおりです。

-lc -q 0.35 -ignorelength -if - -of %d

この場合、素材は事前にモノに変換し、22050 Hzの周波数にサンプリングする必要があります（できればSoXリサンプラーで）。出力では、約25 kbpsのビットレートで通常の低複雑度AACを取得します。

この範囲の音楽には、オプションもあります。

1） Nero AAC 。変換は必要ありません。

-q 0.15 -ignorelength -if - -of %d

出力は、高効率AAC v2（パラメトリックステレオおよび高周波合成）、〜35 kbpsです。ある種のインターネットラジオに最適なオプションです。ここでのみ、プレーヤーのデコーダーがHE-AACv2をサポートする必要があることを忘れないでください。そうしないと、高音とモノフォニーが完全に失われます。

2） OGG Vorbis AoTuV-このlibvorbisの変更には、低ビットレートでのコーディングアルゴリズムの改善が含まれており、SBRテクノロジーがなくても、HE-AACv2ほど劣っていません。コマンドライン：

-s %r -Q -q-2 - -o %d

結果のファイルは、標準のOGG Vorbisデコーダーと完全に互換性があります。ビットレート-同様-約35 kbps。

3） WMA 10 Pro そのような場合、MicrosoftにはSBR（高周波合成）のようなものもあります。真のビットレートはわずかに-48 kbit / sを超えています。

-silent -a_codec WMA9PRO -a_mode 3 -a_setting 48_44_2_16 -input %s -output %d

古い（特にハードウェア）デコーダーはWMA 10をサポートしていないことに注意してください。この場合、WMA 9.2（同じエンコーダー）を使用できますが、低ビットレートでの品質ははるかに劣ります。

-silent -a_codec WMA9STD -a_mode 3 -a_setting 48_44_2 -input %s -output %d

低ビットレート、最大64 kbps

当初は、すぐに高速化することを考えていました。しかしごく最近、hydrogenaudio.orgでこのビットレートのエンコーダーの比較があったため、見逃すのは罪です。

1）QuickTime AAC-同じテストの勝者（新しく作成されたOpus / CELTを除く）。 QAACエンコーダーの設定は次のとおりです。

-s -v 64 --he -q 2 --ignorelength - -o %d

出力にはHE-AAC（SBRあり、パラメトリックステレオなし）があり、これはさまざまなiPodなどでサポートされます。

2） OGG Vorbis AoTuV-QAACからかなり離れていることが判明したが、それでも：

-s %r -Q -q0 - -o %d

3）念のため、 WMA 10 Pro ：

-silent -a_codec WMA9PRO -a_mode 3 -a_setting 64_44_2_16 -input %s -output %d

古いデコーダーの場合-WMA 9標準：

-silent -a_codec WMA9STD -a_mode 3 -a_setting 64_44_2 -input %s -output %d

もう少し高い、〜80-100 kbps

そして、私はこのビットレートをVorbisのためにすでに考えています。

1）テストが示したように、 OGG Vorbis AoTuVエンコーダーが最適に処理します。

-s %r -Q -q1 - -o %d

2） Nero AAC-非常に良い結果。高音がそれほど顕著でない場所では、Vorbisよりも音が良くなります（高音では合成により失われます）。
30 -ignorelength -if--of％d

使用されるプロファイルはHE-AACです。

事実上の標準、128 kbps

興味深い事実：MP3の場合、128 kbpsが「境界ビットレート」であると多くの人が主張しており、そこからオリジナルと区別できない品質が始まります。おそらくこれはそうです...泥棒を持つプラスチック製の中国人スピーカーのために。実際には、このしきい値は約200 kbit / sであり、新しいフォーマットはこのビットレートでより安定した品質を提供します。

現代のコーダーは、この128 kbpsバーをほぼ2回過小評価することができました（これも開発者によると）。しかし、それでも、ある程度の音響（またはヘッドフォン）があれば、128 kbpsでも複雑なフラグメントの違いをキャッチできます。

1） Nero AAC ：

-q 0.40 -ignorelength -if - -of %d

プロファイル-通常のAAC LC。

2） OGG Vorbis AoTuV ：

-s %r -Q -q2.8 - -o %d

3） WMA 10 Pro ：

-silent -a_codec WMA9PRO -a_mode 3 -a_setting 128_44_2_24 -input %s -output %d

古いデコーダーの場合-WMA 9標準：

-silent -a_codec WMA9STD -a_mode 3 -a_setting 128_44_2 -input %s -output %d

〜160-192 kbps

この範囲では、Nero、QuickTime AAC、およびVorbisエンコーダーの違いはほとんどありません。しかし、ここではまさにMusepackがすでに登場しています。これらのビットレートでちょうどその利点が現れ始めます（非常に柔軟なVBRモードと根本的に異なる圧縮アルゴリズムのため）：

1） Musepack --silent --quality 5 - %d

2） Nero AAC -q 0.50 -ignorelength -if - -of %d

3） OGG Vorbis -s %r -Q -q5 - -o %d ： -s %r -Q -q5 - -o %d

4） WMA 9標準：

-silent -a_codec WMA9STD -a_mode 3 -a_setting 160_44_2 -input %s -output %d

透明度のしきい値：〜200-225 kbps

私が話していたこと。同時に、ほとんどすべてのエンコーダーのビットレートは、ほとんどのリスナーに透明なサウンドを提供します。そして、サイズ/品質の点で最適なのはこの範囲です。

ちなみに、LAME MP3にもこの領域（VBR V2）に同様のしきい値がありますが、このコーデックにはプリエコー（信号の急激なバーストに先行する歪み）に非常に大きな問題があり、ノイズシェーピングはしばしば耳に聞こえます（このように量子化誤差からのノイズ高周波領域に転送されます）。

Vorbis、AAC、MPCなどの同じコーデックで、このしきい値で、コンポジションの背景ノイズの明確なレンダリングが開始されます。

1） Musepack --silent --quality 6 - %d

2） Nero AAC -q 0.55 -ignorelength -if - -of %d

3） OGG Vorbis -s %r -Q -q6 - -o %d ： -s %r -Q -q6 - -o %d

4） WMA 10 Pro ：

-silent -a_codec WMA9PRO -a_mode 3 -a_setting 192_44_2_24 -input %s -output %d

WMA 9標準、古いデコーダーが認識する最大ビットレート：

-silent -a_codec WMA9STD -a_mode 3 -a_setting 192_44_2 -input %s -output %d

合理的な最大値：〜320-350 kbps

私はあなたの注意を払わなければなりません：〜225 kbit / sの後、ビットレートの増加はほとんどの場合、音質の向上をもたらさず、ファイルサイズは自然に増加します。それでも、特に複雑な構成（および優れた機器/耳）の場合、より高い品質設定があります。 MuseppackやVorbisなどのエンコーダーのこれらのビットレートでは、キラーサンプル（エンコードアルゴリズムの欠陥が明らかに現れる問題のあるサンプル）を見つけることさえできませんでした。など：

1） OGG Vorbis -s %r -Q -q9 - -o %d

2） Musepack --silent --quality 10 - %d

3） QAAC -s -V 127 -q 2 --ignorelength - -o %d

4） WMA 10 Pro -silent -a_codec WMA9PRO -a_mode 3 -a_setting 384_44_2_24 -input %s -output %d

あなたの質問に先んじて：はい、これらのエンコーダーの中には、より高品質の設定がありますが、それ以上の増加は意味がありません。音楽が占有するメモリの量があなたにとって本当に重要であり、あなたのデバイスが無損失のサポートを持っていない限り。

実際、私があなたと共有したかったのはそれだけです。試して、コメントして、質問してください。

損失の多いオーディオエンコーディング。何に？

オーディオコーディングの進化

決定方法