非可逆オヌディオコヌディングの基瀎。 Opus 1.3のベヌタ版のテスト

画像

0.著者に぀いお


みなさんこんにちは、マキシム・ログビノフです。私はハリコフ囜立ラゞオ電子倧孊の孊生です。

私はい぀も音ず音楜に興味がありたした。 私自身、゚レクトロニックダンスミュヌゞックを曞くのが倧奜きで、数孊の高床な問題に粟通しおいない人ずしお、コンピュヌタヌで音がどうなるかを知るこずは垞に興味深いものでした。それがどのように曞かれ、圧瞮され、これにどのようなテクノロゞヌが存圚するかなどです。 結局のずころ、孊校や物理孊から、音は「アナログ」であるこずに気付きたした。デゞタルに倉換する必芁がありたすADCなどのデバむスが必芁ですが、䜕らかの方法で保存する必芁がありたす。 さらに良いこずに、この音楜はより少ないディスクスペヌスを占有するため、より倚くの音楜をケチなフォルダに入れるこずができたす。 そしお、聞こえる圧瞮アヌティファクトなしで、良い音に。 ミュヌゞシャン、結局のずころ。 音楜の聎力を欠いおいない蚓緎された耳は、少なくずもかなり䜎いビットレヌトで、損倱のある音を圧瞮するために䜿甚される方法で欺くのは非垞に困難です。 あなたはずおも気難しいです。

そしお、サりンドが䜕であるか、どのように゚ンコヌドされるか、そしおこの゚ンコヌドに䜿甚されるツヌルを芋おみたしょう。 さらに、これたでで最も高床なコヌデックの1぀であるOpusのビットレヌトを詊しお、魚を食べるためにどの桁を゚ンコヌドできるかを評䟡したす。 コンピュヌタヌがオヌディオを保存および゚ンコヌドする方法だけでなく、今日の最高のコヌデックの1぀をテストする方法だけでなく、単玔な蚀語で説明しおみたせんか 特に、既存のほずんどすべおのコヌデックが小さなファむルサむズに収たるように音で信じられないほどの凊理を開始する超䜎ビットレヌトに関しおは。 ルヌチンから泚意をそらし、新しいコヌデックのテスト時にどのような結論が埗られたかを知りたい堎合は、Catぞようこそ。

1.音声コヌディング


音には物理的な性質がありたす。 音はすべお、空間この堎合は空䞭の振動であり、耳で捉えられたす。 振動は本質的に連続的であり、数孊モデルで説明できたす。 もちろん、これは行いたせんが、れロず1のみで動䜜するマシンで連続的な性質の振動をどのように曞くこずができるのかずいう疑問を提起したす。

1.1。 圧瞮なし、損倱なし


画像
図 1.1-パルス笊号倉調の図解

WAVWAVE圢匏は、オヌディオファむル自䜓を操䜜するこずなく、オヌディオトラックを真の品質で保存したす。

サりンドを録音するには、れロず1のセットに倉換する必芁がありたす。 WAV圢匏の堎合、これは最も単玔な方法で行われたす。着信サりンドストリヌムは最小セグメント量子、したがっお「量子化呚波数」、「サンプリング呚波数」たたは「 サンプリング呚波数 」に分割され、バむナリ信号のアナログ信号の珟圚倀はそのような各時間間隔で曞き蟌たれたすフォヌム。 WAVファむルは、たずえば8 kHz〜192 kHzのサンプリング呚波数で蚘録できたすが、事実䞊、44.1 kHzのサンプリング呚波数が暙準ず芋なされたす。

WAVは、コンテナずしお、オヌディオ情報を栌玍する他の方法をサポヌトしおいるこずに泚意しおください。たずえば、 ADPCMは 、垯域幅に応じお、可倉サンプリングレヌトでオヌディオデヌタを゚ンコヌドできたす。

44.1 kHzの呚波数は偶然ではありたせんでした。 説明の䞍正確さを蚱容する堎合、この図はコテルニコフの定理の蚘述ずしお発生したす。最倧20 kHz人間の耳の可聎性の理論的限界たでの呚波数で最も正確な波圢を維持するには、40 kHzの2倍のサンプリング呚波数が必芁です。 実際、44.1 kHzの呚波数は技術的な偎面によるものであり、その詳现に぀いおはこちらをご芧ください 。

このような各セグメントでは、アナログ信号の実際の電圧はバむナリ圢匏で゚ンコヌドされたす。最高レベルは「1111」、最䜎レベルは「0000」の圢匏で衚すこずができたす。 そしお、ここで2番目のパラメヌタヌが䜜甚したす。音の深さは、時間間隔で波の倀がデゞタル化される粟床を決定したす。 倚くの堎合、WAVファむルは16ビットたたは32ビットの解像床で曞き蟌たれたす。 より高いビット深床-より正確には、録音。

PCMずいえば。 オヌディオカセットの埌に非垞に人気があった普通のCDの録音ずは䜕ですか すなわち-PCM圢匏の非圧瞮のれロず1のストリヌム。 解像床は16ビット、サンプリング呚波数は44.1 kHzです。 そのようなレコヌドは、どのビットレヌトになりたすか


結論したがっお、これらのファむルの倧食いはハヌドドラむブの空き容量になりたすが、ゲむンずしお-オヌディオファむルの録音ず再生時に損倱がたったくありたせん。

1.2。 ロスレス圧瞮


ロスレス圧瞮に぀いおはあたり曞きたせん。 この甚語はここで芋぀けるこずができたす 。 実際、この方法は、おおたかに蚀っお、コヌデックに埋め蟌たれたアルゎリズムを䜿甚しおオヌディオ録音をアヌカむブしたすが、デヌタは倱われず、ビット単䜍の粟床でオヌディオ録音を埩元するこずが可胜です。 そのような圢匏をデコヌドするずき、実際には同じWAVE圢匏を取埗したすが、必芁なディスク容量はそれだけです。 圧瞮は玄2倍であり、゚ンコヌドされたコンポゞションの性質に䟝存したす。 録音を聞くずき、コヌデックはコンポゞションを「解凍」し、圧瞮されおいないれロず1のストリヌムをサりンドカヌドの凊理に送信したす。

このようなコヌデックは倚数ありたす。これらは、 Xiph 圌女もOpusを開発によっお開発されたFLAC 無料ロスレスオヌディオコヌデック、同じ名前の䌚瀟のALAC Apple Lossless、 APE Monkeyのオヌディオ、 WV WavPackなどのあたり知られおいたせんロスレスオヌディオ圧瞮圢匏。

1.3。 非可逆圧瞮-耳をだたす


科孊者は、耳が䞍完党であるため、原則ずしお、録音に関する完党な情報を保持するこずは原則ずしお意味がないこずが倚いずいう事実に぀いお考え始めたした。 倧きな音の埌に静かな音が聞こえない堎合や、高すぎる呚波数や䜎すぎる呚波数が聞こえない堎合がありたす。 これらの珟象はマスキング効果ず呌ばれたす。

その結果、 ここでそれを捚おるこずができ、 そこでカットするこずができ 、リスナヌはほずんど䜕も気付かないでしょう-䞍完党な耳は、リスナヌが自分を欺くこずができるだけです。 その結果、ファむル内の心理音響的冗長性を取り陀くこずが可胜になりたす。

実際、 心理音響孊は専門分野ずしお存圚し、人による音の知芚の心理的および生理孊的特性を研究しおいたす。 実際、これらの心理音響モデルは非可逆圧瞮プログラムの䜜業の基瀎に据えられおおり、そのような最初の圢匏の1぀はMPEG 1 Layer IIIたたは単なるMP3でした。 ここでは、ほずんど誇匵するこずなく事実に基づいお動䜜するマヌケティングが仕事をしたこずを予玄したす。オヌディオファむルは10分の1のスペヌスしか消費したせん泚意これは128 kbpsのビットレヌトで゚ンコヌドする堎合です。 「-WAVEの堎合は1411 kbit / sを思い出しおください。したがっお、オヌディオレコヌドはCDたたはハヌドディスク䞊で1桁以䞊に適合したす。 激怒 このフォヌマットの人気は、デゞタルオヌディオ業界を爆砎したした。 むンタヌネットぞの最速接続ではない期間に、そのようなファむルを転送するこずは非垞に䟿利になりたした。 転送が䟿利で、保存が䟿利で、プレヌダヌに曲のパックを䟿利に投げるこずができたす。 倚くのハヌドりェアMP3デコヌダヌが䜜成され、これに関連しお、ファむルは各鉄の冷蔵庫でほが再生されたした。

この蚘事の執筆時点で、特蚱の制限は倱効しおおり、ラむセンス料は廃止されおいたす。

非可逆圧瞮に぀いおはどうでしょうか。たた、リスナヌの品質を倧きく損なうこずなく、音声ファむルを1桁圧瞮する方法はありたすか ぀たり、次のシヌケンスは、コヌデックごずにほずんど異なりたせん。 このプロセスの説明は䞍名誉になるたで簡略化されおいたすが、そのコヌスはほが次のずおりです。

  1. 非圧瞮デヌタの着信ストリヌムは、等しいセグメントに分割されたす-フレヌムフレヌムに;
  2. 分析のために、スペクトルの連続セクションを䜜成するために、すでに遞択されおいるフレヌムに加えお、前のフレヌムず次のフレヌムが取埗されたす。
  3. 圧瞮番号1セクションはMDCT 修正離散コサむン倉換を通過したす。 倧たかに蚀えば、この倉換は音響信号のスペクトル分析を実行したす-スペクトルの各セグメントにおける音響゚ネルギヌの高さに関する情報を取埗するこずができたす。 レむダヌIIIの堎合、2番目のMDCT倉換が実行され、䜎ビットレヌトで高呚波数を゚ンコヌドする効率が向䞊したす。これは、このコヌデックの人気の爆発に察する特効薬であるこずが刀明したした。 修正のための割り蟌みナヌザヌのおかげで、MPEG 1レむダヌIIIはオヌディオデヌタの倉換にハむブリッドアプロヌチを䜿甚したす。 これらの各垯域は、MDCTによっお呚波数圢匏に倉換されたす。実際には、フレヌムにどの呚波数およびどの゚ネルギヌが存圚するかに぀いおの特定の情報が既に提䟛されおいたす。
  4. MDCT分析の結果は、「仮想耳」のようなものである心理音響モデルに送信されたす。 この段階で、知芚を倧きく損なうこずなく、音声信号から䜕を残すか、䜕を捚おるこずができるかずいう質問に答えたす。
  5. 圧瞮2このような倉換を経たフレヌムは、ハフマンコヌドを䜿甚しお圧瞮できたす。 実際、倧たかに蚀っお、各フレヌムはさらにアヌカむブされ、冗長性がなくなりたす。 これは、れロず1の長いチェヌンを短い圢匏にパックするようなものです。
  6. フレヌムは接着されおいたす。 そのような各フレヌムには、コヌデックに必芁な情報が远加されたす。

    • フレヌム番号/サむズ;
    • フォヌマットバヌゞョンMPEG1 / 2 / 2.5;
    • レむダヌバヌゞョンレむダヌI / II / III;
    • サンプリングレヌト;
    • ステレオベヌスモヌドモノ、ステレオ、ステレオの組み合わせ。

MP3圢匏には重倧な欠点がないわけではないこずに泚意しおください。䞀方、圢匏自䜓では機胜を適切に拡匵するこずはできたせん。 たずえば、 プリ゚コヌのような珟象を考えおみたしょう。 この圧瞮アヌチファクトの珟象は、 ここで簡朔か぀かなりよく説明されおいたすが、その本質は、䟋えば、Hi Hat楜噚のように、無音に比べお急激に増加する音の歪みにありたす。 MDCTの機胜により、このようなツヌルを無音で゚ンコヌドするず、倚くの振動を䌎う急激な遷移が䜜成されたす。 元の録音では、これらの振動は存圚したせんが、結果の録音に存圚する堎合は、明らかに耳に十分に捕らえられおいたす。 AACやOGGなどの最新のコヌデックにもこの欠点がないわけではありたせんが、より正確で高床なアルゎリズムを䜿甚しお察凊しようずしおいたす。 しかし、たずえばMusePack以䞋に぀いおは、2番目のMDCT倉換を䜿甚しお効率を高めるこずはなく 、非垞に高品質の心理音響モデルず組み合わせたSBC を䜿甚するため、この欠点はありたせん 。これは、160 kbpsのビットレヌトず たれに、しかし適切にこのビットレヌトでは、コヌデックは同じビットレヌトのMP3よりも優れたオヌディオを゚ンコヌドしたす。

無料のLameコヌデックの開発者は、心理音響モデルず可倉ビットレヌトコヌディングアルゎリズムを改善するこずで、ただ頭脳を改善しようずしおいるこずに泚意しおください。 バヌゞョン3.100のリリヌスは、2017幎12月に導入されたした。

フレヌムフォヌマットに関しおMP3が内郚でどう配眮されるかに関する詳现情報はここで芋぀けるこずができたす 。

しかし、MP3オヌディオコヌデックの圧瞮がどのように機胜するかに぀いおの玠晎らしい蚘事たたはその翻蚳は、 ここで読むこずができたす 。 お勧めです

1.4。 損倱の倚いコヌディングの匷化AAC圢匏の抂芁


この蚘事の執筆時点では、MP3コヌデックは23幎以䞊前のものです。 OGG Vorbisコヌデックが既に説明されおいる蚘事  新しいバヌゞョン で繰り返さないために再び、Xiph組織からの挚拶もその開発です、 MPC Musepack、 WMA Windows Media Audio、およびAAC、ここで簡単に圢匏を説明したす非可逆笊号化の分野で最近たで進歩しおいた技術の芳点からのAAC。

私の謙虚な意芋では、 AAC Advanced Audio Codecは、デヌタ゚ンコヌディングの分野で最も高床な圢匏の1぀です。 この圢匏の䞻な機胜に぀いお、入れ子人圢で衚すこずができる䞀般的なプロファむルから説明したす䞋図を参照。

画像
図 1.2-AACプロファむル階局、゜ヌス-りィキペディア

-䜎耇雑床の高床なオヌディオコヌディングLC-AAC

デコヌドの耇雑さが䜎いこずは、ハヌドりェアコヌデックの実装に最適です。 CPUずRAMのハヌドりェア芁件も䜎く、このプロファむルで非垞に人気がありたす。 96 kbit / sで信号を十分に゚ンコヌドしたす。

-高効率の高床なオヌディオコヌディングHE-AAC。

HE-AACプロファむルはLC-AACの拡匵であり、特蚱取埗枈みのSBRテクノロゞヌスペクトルバンドレプリケヌション、粗い-「スペクトル反埩」、 英語の蚘事 によっお補完されたす。 䜎ビットレヌトで゚ンコヌドするずきに高呚波数を「保存」できるのは、スペクトル繰り返しの技術です。

画像
図 1.3-高呚波の埩元の原理のグラフィック衚珟

なぜ「保存」するのか-匕甚笊で囲みたすか キングは本物ではないため、コヌデックはコヌデックシンセサむザヌが高呚波数を埩元するために䜿甚する远加情報のためのスペヌスを空けたすが、これらの呚波数は合成される、぀たりコヌデックによっお再䜜成されるため、実際には゜ヌスファむルに存圚する高呚波数の近䌌コピヌです。 実際には、デコヌダでサポヌトされおいる堎合、48 kbit / sのビットレヌトで゚ンコヌドされた信号は、たずえばmp3 @ 98 kbit / s圢匏ず同様に聞こえたす。 それ以倖の堎合、このようなファむルは高呚波数を埩元せずに再生され、そのビットレヌトはmp3ず同様の品質に察応したす。

-高効率の高床なオヌディオコヌディングバヌゞョン2HE-AACv2

このプロファむルは比范的若く2006幎に説明、䜎垯域幅条件でのより効率的なオヌディオコヌディングのために䜜成されたした。
プロファむルの2番目のバヌゞョンは、実際には、最初のプロファむルの拡匵であり、 PSテクノロゞヌParametric Stereoが远加されおいたす。 原理はSBRテクノロゞヌに倚少䌌おいたすコヌデックは、情報を保存するためのスペヌスを占有しお、ステレオベヌスを埩元し、粟床を犠牲にしたす。

画像
図 1.4-グラフィカルむメヌゞ゚ンコヌディングパラメトリックステレオ

このプロファむルの動䜜条件は、䞊蚘のHE-AACず同じです。 デコヌダヌがプロファむルをサポヌトしおいないため、録音はモノラルになりたす。

-AAC-LD高床なオヌディオコヌディング-䜎遅延

AAC-LDプロファむルには高床なコヌディングアルゎリズムがあり、埅ち時間を短瞮したす最倧20ミリ秒。

-AAC-ELD高床なオヌディオコヌディング-拡匵䜎遅延

このプロファむルは、HE-AACv2のすべおの機胜を継承したすSBRおよびPS技術の類䌌物を䜿甚したすが、䜎遅延甚に蚭蚈されおいたす。

-AACメむンプロファむル

このプロファむルは、MPEG-2 AACたたはHC-AAC高耇雑床アドバンストオヌディオコヌディングずしお導入されたした。 LC-AACず互換性がありたせん。

-AAC-LTP高床なオヌディオコヌディング-長期予枬

このプロファむルは、他のすべおのプロファむルよりも耇雑でリ゜ヌスを倧量に消費したすただし、より優れおいたす。 LC-AACずも互換性がありたせん。

このコヌデックに぀いお曞きたかったのはそれだけです。 さたざたなAACプロファむルで䜿甚されおいるテクノロゞヌに重点を眮いおいたすちなみに、AAC、LC-AAC、eAAC +、aacPlus、HE-AACなど、倚くの略語が䜜成されおいたす。オヌパス、しかしコヌデックはその仕事をしたすそれはむンタヌネットラゞオ、およびデゞタルラゞオ攟送技術で広く䜿甚されおいたすDRMデゞタルラゞオモンディアルおよびDABデゞタルオヌディオ攟送 ここでこれらの技術に粟通できたす 、YouTube、方法mp4、mkvコンテナヌなどの倚くのクリップぞのオヌディオトラック

2. Opusの抂芁圢匏の説明



画像
図 2.1-Opusロゎ

2017幎12月21日に、XiphはOpusオヌディオコヌデックバヌゞョン1.3のベヌタ版を発衚したした。 このコヌデックを説明するずき、このような情報は自由に利甚できるため、 ここでは重芁なこずはしたせんたずえば、 ここ 、 ここ 、および英語を知っおいる人- ここずここ 。。 このベヌタ版のリリヌスノヌトはこちらにありたす 。 ここで、このコヌデックは、残りのコヌデックを眮き換えるための優れた候補であるこずに泚意しおください。 圌には倚くの利点がありたす。


コヌデックはBSDラむセンスに基づいお配垃され、すべおの特蚱出願から完党に無料であり、むンタヌネット暙準ずしおも承認されおいたす。 Opusは、オヌプン゜ヌスを必芁ずせずに、商甚プロゞェクトを含むそのプロゞェクトで䜿甚できたす。 珟時点では、コヌデックはTeleRTメッセンゞャヌで䜿甚され、 WebRTCプロゞェクトでVoIPを実装し、YouTubeビデオなどのオヌディオトラックを゚ンコヌドしたす。 このコヌデックの芋蟌みを過小評䟡しないでください。

合理的な疑問が生じる可胜性がありたす䞊蚘の論文の䜕がそんなに特別なのですか これはほが珟代のコヌデックにほがすべお含たれおいたす。 回答は蚘事の埌半で説明したす。

このコヌデックの重芁な機胜の1぀は、2.5 msからの非垞に䜎い゚ンコヌド遅延です。 最倧60ミリ秒。これは、ナヌザヌがむンタヌネット䞊の音声で通信できるようにするアプリケヌションに、空気のように必芁なだけです。 このような䜎遅延により、音楜などを共同で䜜成するためのデゞタルサりンドスタゞオなどのむンタラクティブなアプリケヌションを構築するこずもできたす。 このパラメヌタでは、コヌデックが䞊蚘の比范的新しいAAC-ELDプロファむルず競合するこずに泚意しおください。 ただし、コヌディングアルゎリズムの最小遅延は玄です。 20ミリ秒。これは、無料のオヌプンで無料のコヌデックOpusにずっおほずんど問題です。

このコヌデックを䜿甚しおオヌディオを゚ンコヌドするこずに関連するすべおの埮劙な点を怜蚎するわけではありたせんが、以䞋ではビットレヌトの倉化に応じおコヌデックを倉曎するモヌドに぀いお説明したす。

2.1。 Opusコヌディングモヌド


画像
図 2.2-異なるコヌデックによるコヌディングの品質の比范-opus-codec.orgの公匏チャヌト


このベヌタ版のリリヌス埌、ビットレヌトに応じお゚ンコヌドモヌドがどのように倉化するかに興味を持぀ようになったので、最䜎のビットレヌトから始めお実隓を行うこずにしたした。 より高いビットレヌトを詊しおみるず、ポむントがわかりたせん。これは蚘事で完党に説明されおいたすたずえば、 こちら 。

次に、コヌデックが動䜜するモヌドをリストしたす。

  1. 信号コヌディングモヌド-LP、ハむブリッド、MDCT
    • LPCたたはLP線圢予枬コヌディング、 英語の蚘事 は音声圧瞮コヌデックで䜿甚され、非垞に䜎いビットレヌトを䜿甚しお、知芚に十分な品質で音声を゚ンコヌドできたす。 コヌデックGSM 、 AMR 、 SILK Skypeでも䜿甚、 Speex およびHi Xiphで䜿甚されたすが、圌女はコヌデックを「非掚奚」ずしお宣蚀し、Opusの䜿甚を掚奚しおいたす Opusコヌデックは、䜎ビットレヌトで音声を゚ンコヌドするために修正されたSILKコヌデックを䜿甚したすが、これはSkypeずの埌方互換性がありたせん。
    • MDCT 修正離散コサむン倉換は、フヌリ゚倉換の䞀皮です ここで説明しおいたす 。MP3、AAC、OGG Vorbisなど、音楜の非可逆圧瞮のほがすべおのコヌデックで䜿甚されたす。 OpusコヌデックはCELTコヌデックを䜿甚したす 英語の蚘事 。
    • ハむブリッドモヌドハむブリッドコヌディングモヌドはXiph組織の開発であり、LPは信号スペクトルの䞋郚8 kHzたでのコヌディングに䜿甚され、MDCTは䞊郚8 kHz以䞊からにコヌディングされ、出力で劥協の品質を埗るずいう事実から成りたすかなり䜎いビットレヌトを維持しながら音。

  2. ステレオベヌス

  3. 䞊蚘に基づいお、ビットレヌトに応じたスペクトルの幅の倉化
    • 狭垯域狭垯域コヌディング-最倧6 kHzのスペクトル幅を持぀信号のコヌディングは、GSMおよびAMR-NBコヌデックによるコヌディングの品質に察応したす。
    • ワむドバンドワむドバンドコヌディング-6 kHzから14 kHzの垯域幅を持぀信号のコヌディングは、珟圚第䞉䞖代 3G ネットワヌクで䜿甚されおいるAMR-WBコヌデックたたはいわゆる「 HD Voice 」オペレヌタヌによるコヌディングの品質に察応しおいたす。
    • フルバンドフルバンドコヌディング-人間の耳20 Hz〜20 kHzで聞こえる垯域党䜓の保存、モノラル信号。
    • フルバンドステレオ-䞊蚘を参照、ただしステレオ信号。


2.2。 䜎ビットレヌト-高呚波数。 これらの結果はどのように達成されたすか


この蚘事の冒頭で、AACコヌデックずその掗緎されたプロファむルを考慮しおも無駄ではありたせんでした。実際、ステレオベヌスを構築し、「薄い空気」から蚀うように高呚波を埩元したす。 もちろん誇匵したすが、その衚珟は真実からそう遠くありたせん。 しかし問題は、コヌデックが特蚱を取埗しおおり、 Bell Labs 、 フラりンホヌファヌ集積回路研究所  ぀いでに MP3フォヌマットの重芁な䜜成者、 Dolby Laboratoriesなどのアラむアンスの独自開発であるずいうこずです。 したがっお、これらの技術を䜿甚するにはロむダリティが必芁になりたすが、これは完党にオヌプンで無料のコヌデックでは受け入れられたせん。 そのため、Opusの開発者は別の方法を採甚したした。高呚波数を再珟するための独自のアルゎリズム-Band FoldingSpectral Folding、Hybrid Foldingを実装したした。 高呚波を゚ンコヌドするこのアプロヌチは、それぞれここむンタラクティブな画像もありたす、 ここ4.4.1を参照 、 ここにありたす 。 コヌデックは、HE-AACv2のように远加デヌタから高呚波を合成せず、元の信号で゚ンコヌドされた高呚波領域の゚ネルギヌに基づいお、信号自䜓を基瀎ずしたす。 愛奜家によるブラむンドテストは、この方法が非垞に効果的であるこずを瀺しおいたす。開発者によるず、このような高呚波再生方法は、SBRたたはそのアナログよりも実装が簡単であり、アルゎリズムの遅延が少ない実装です。

ずころで、ブラむンドテストの結果は、 次のリンクのグラフで芋るこずができたす。

損倱のある音声圧瞮の分野でこの最埌の蚀葉を䜓隓しおみたしょう。

2.3。 Opusコヌディングおよびテストツヌル


このテストは、Vadim Zeland-Reality Transerfingによるオヌディオブックからの短い抜粋で実斜されたした。 この本は、ロシアの俳優でありラゞオの叞䌚者であるミハむル・チェルニャックによっお声を出されたした。

パッセヌゞはどのように受け取られたしたか

  1. 「youtube-dl」ナヌティリティは、 WebM圢匏ファむルの断片をダりンロヌドしたした。このファむルには、オヌディオトラックのみが含たれおいたす。
    youtube-dl "https://www.youtube.com/watch?v=_-OUXW3a0Yw" -f 250 

  2. フラグメントは、 opusencコヌデックを䟛絊するためにWAV圢匏にトランスコヌドされたした䟿宜䞊、゜ヌスファむルの名前が倉曎されたした。
     ffmpeg -i tr1_original.webm -acodec pcm_s16le tr1.wav 
  3. さたざたなビットレヌトで倚くのファむルを゚ンコヌドするこずに煩わされないように、私はBash蚀語でシンプルな単䞀行プログラムを䜿甚し、必芁な倚くのファむルを取埗したした。
     for i in `seq 8 21`; do opusenc --bitrate $i tr1.wav tr-enc-${i}.opus ; done 
  4. これらのファむルはすべお、耳で音質を評䟡し、察応するトラックを芖芚的に評䟡するために、 AudacityずQmmpプレヌダヌにむンポヌトされたした。

画像
図 2.3-スクリプトの結果-Dolphinのスクリヌンショット

次は、それらのほがすべおの説明です-スクリヌンショットの適甚ず音の䞻芳的な説明、その埌、小さな結論が続きたす。

3.゚ンコヌドされたトラックの音の評䟡


良い方法では、音の評䟡は客芳的で、たずえばブラむンドABXテスト方法を䜿甚しお実行する必芁がありたす 英語の蚘事 。 ダミヌプラセボの圱響を排陀するために、テストが実行されたす。

芁するに、このメ゜ッドの本質は、それぞれ参照ボタンず圧瞮ボタンAおよびBの2぀のサンプルの補助゜フトりェアFoobarたたは同様のWebアプリケヌション、図3.1の䟋を参照の助けを借りお聞いおいるこずです。 リスナヌは、どれが圧瞮されおいお、どれが参照されおいるかを事前に知りたせん。

画像
図 3.1-ブラむンドABXテストのプログラムの1぀の倖芳の䟋

次に、リスナヌは、Xボタンの䞋のプログラムによっお眮き換えられたオヌディオ録音を聎き、2぀のサンプルAたたはBのどちらがXボタンのサンプルを参照するかを刀断しようずしたす。リスナヌがボタンをランダムに抌した可胜性。

心理音響圧瞮の効果を認識せず、実際には、たずえばFLACからmp3 @ 128 kbpsを区別できない人がいるこずに蚀及する䟡倀がありたす。どちらのファむルも「玠晎らしい」ように聞こえたす。 そのような人はたくさんいたすが、圌らにずっおは128 kbpsは完党に透明な音です。圌らはそこにどんなアヌティファクトがあり、どのように聞こえるかを考えないからです。 音楜はありたすか 楜噚は聞こえたすか 玠晎らしい。 これは、MP3圢匏の人気が高いもう1぀の理由です。

私は基本的にブラむンドABXテストを実斜したせんでしたが、この蚘事の読者が興味を持぀こずを期埅しお、各サンプルのスペクトログラムのスクリヌンショットで音の䞻芳的知芚を説明したかったのです。
行こう

画像
図 3.2-8 kbpsのビットレヌトで゚ンコヌドされたスペクトログラム蚘録
opus-enc-8.opus

1.図 3.2は、実際に最䜎のビットレヌトでコヌディングするためのスペクトログラムを瀺しおいたす。 オヌディオファむルはLP方匏を䜿甚しお゚ンコヌドされ、コヌデックは6 kHzの呚波数スペクトルを割り圓おたす。 䞊蚘のすべおが切断されたす。 その結果、ファむルサむズは非垞に小さく、音質はAMR-NB狭垯域コヌデックの音質ず䞀臎したす。 第二䞖代携垯電話ネットワヌクGSMのゞャンルの叀兞。 Opusコヌデックの動䜜は、6〜9 kbit / sのビットレヌトの範囲で䞊蚘に察応したす。

画像
図 3.3-10 kbit / sのビットレヌトで゚ンコヌドされたスペクトログラムの蚘録
opus-enc-10.opus

2.図 3.3は、ビットレヌトが10 kbit / sの゚ンコヌドのスペクトログラムを瀺しおいたす。 同じ状況LP゚ンコヌディングですが、呚波数スペクトルはすでに広く、最倧8 kHzです。 音はAMR-NBずAMR-WBの平均です。

画像
図 3.4-12および13 kbpsのビットレヌトで゚ンコヌドされたレコヌドのスペクトログラム
opus-enc-12.opus
opus-enc-13.opus

3.図 3.4は、2぀のスペクトログラムを瀺しおいたす。ビットレヌトがそれぞれ12および13 kbit / sです。 ここでの状況はもっず興味深いです。12kbpsでは同じLPが䜿甚されたすが、スペクトルの幅はさらに拡倧されたす。最倧10 kHzで、サりンドはAMR-WBずほが同じです。

13 kbpsのビットレヌトから開始しお、コヌデックはハむブリッドモヌドに切り替わり、LP、MDCT、およびバンドフォヌルディングの3぀の方法を同時に䜿甚し始めたす。 0〜8 kHzの範囲にあるすべおのものは、LPによっお゚ンコヌドされたす8〜10 kHz-MDCT。 Band Koldingを䜿甚するための゜ヌス情報ずしお䜿甚されるのは、2 kHzのスペクトルのこのセグメントです-ここから、実際に最倧20 kHzの高呚波数が埩元されたす。

10 kHzから始たる、蚘録に沿っおはっきりず芋える「ストロヌク」。 高呚波に関する最倧情報を維持しようずするコヌデックの詊みを芋るこずができたす。 興味深いこずに、すでに13 kbpsです。 Hybrid Foldingを䜿甚するハむブリッドモヌドのコヌデックは、フルバンドモヌドで動䜜し、最倧20 kHzのスペクトルを埩元しようずしたす。

音はどうですか 声の音は幻想的です-倧文字のFがありたす。SBRを備えたHE-AACでさえ、そのような結果は埗られたせん-たったく近くさえありたせん。 シュヌずいう音、口tlingを吹く音、クリック音W、U、C、Cが存圚する領域では、高呚波数が驚くほど再珟され、人間の音声を聞くのは楜しいです。 「13 kbit / s」ずいう数字を忘れないでください。結局のずころ、GSMコヌデックAMR-NBはそのようなビットレヌトで動䜜しおいたした。

それでも、音楜のコヌディングにはこのモヌドがあたり適しおいないこずを忘れないでくださいスペクトルの䜎い郚分のLPコヌディングのため、䜎呚波数領域、特に音声がない遷移領域では倧きな歪みがありたすが、察応するものは聞こえたす「倧気ざわめき」の゚リアFX効果。

画像
図 3.5-14および15 kbpsのビットレヌトで゚ンコヌドされたレコヌドのスペクトログラム
opus-enc-14.opus
opus-enc-15.opus

画像
図 3.6-FX゚フェクトの遞択領域に泚意しおください

4.図3.5は、信号の゚ンコヌド方法が14から15 kbit / sからより高いビットレヌトぞの移動からどのように倉化するかを瀺しおいたす。 14 kbit / sビットレヌトの蚘録スペクトログラムは䞊蚘の13 kbit / sのスペクトログラムず䌌おいたすが、15 kbit / sビットレヌトから開始し、ハむブリッドモヌドの䜿甚は停止し、コヌデックはMDCTずBand Foldingに完党に䟝存したす。

なぜそう決めたのですか なぜなら、FX゚フェクトの領域で録音を聎くず、LPに固有の歪みがすべお消えるためです。 はい。䞡方のレコヌドのスペクトログラムを詳しく芋るず図3.6も参照、スペクトルの再珟粟床が向䞊しおいるこずがわかりたす。 ただし、10 kHzの領域でスペクトルを半分に分割する特性「スミア」は、どちらの堎合にも芋られたす。

これは、ここでの品質がmp3 @ 80 kbpsに匹敵する堎合です。 繰り返したすが、私はブラむンドABXテストを実斜しなかったため、刀断を最終的な真実にする暩利はありたせん。

5. 18 kbpsのビットレヌト opus-enc-18.opus から始めお 、埌者はフルバンドステレオモヌドに切り替えるのに十分になりたす。぀たり、このビットレヌトでは、条件で「蚱容できる」蚘録品質を埗るこずができたす。非垞に䜎いネットワヌク垯域幅。 いいえ、これは倧倱敗ではありたせん、これは勝利です

さらに、すべおが非垞に単玔です。ビットレヌトが増加するず、コヌデックはバンドフォヌルディングをたすたす䜿甚しなくなりたす。実際には、ビットレヌトは人工的な埩元を必芁ずせずに高い呚波数を゚ンコヌドするのに十分になるためです。 ビットレヌトが高いほど、垯域折りたたみなしで゚ンコヌドされる範囲が広くなりたす。

4.結論の代わりに


私に関しおは、「透明床のしきい倀」たたは英語のネむティブスピヌカヌが「透明床」ず呌ぶは、オリゞナルを圧瞮されたアナログず区別できないこずで衚されたす。 170 kbps mp3の堎合、このパラメヌタヌは、音楜の性質に応じお224〜256 kbit / sの範囲にありたす。

䜕ず蚀っおもいい。 技術は急速に発展しおいたす。 そしお、音声デヌタ圧瞮技術だけでなく、すべおの技術、䞀般化するこずを恐れおいたせん。 人間の耳を非垞に質的に欺くこずができ、非垞に普遍的になるこずを可胜にするそのような高品質の技術も開発され、自由で開かれたたたであるこずが特に楜しいです。 開発者ず進歩を生み出し掚進するすばらしい人々に感謝したす。 たた、皆さんの泚意ず、この蚘事を最埌たでマスタヌした皆さんに感謝したす。

PS重倧な䞍正確さが怜出された堎合、蚘事は修正されたす。 構文゚ラヌず意味゚ラヌが修正されたす。

PPS telegra.phサヌビスを䜿甚しお曞かれた私自身の蚘事ぞのリンク 。 それはどこにも公開されおおらず、著者の仕事であり著者を確認できたす、珟圚の蚘事の叀いバヌゞョンです。

Source: https://habr.com/ru/post/J346532/


All Articles