この記事の3行まとめ
- 音声圧縮コーデック「Opus」のバージョン1.5がリリース
- 信号の処理や生成に機械学習を導入し、パケットロスによる音声途切れへの耐性が向上
- 公式サイトでは、以前のバージョンと聞き比べられるサンプルが公開されている
2024年3月4日(現地時間)、音声圧縮コーデック「Opus」がバージョン1.5に大型アップデートされました。
(画像は公式サイトより引用)
Opusは、The Internet Engineering Task Force(IETF)によって開発され、BSD-3 Clauseライセンスの下で提供される、オープンフォーマットの音声圧縮コーデックです。
低ビットレートでも音質の劣化が少なく、低レイテンシで圧縮できるため、ボイスチャットやストリーミングなど双方向性が必要なリアルタイム通信などに適しています。
Opusは以前より音声か音楽かどうかの検出などに機械学習を使用していましたが、信号そのものの処理や生成に機械学習を用いたのは今回が初めて。これにより、音声通話などで起こり得るパケットロスに対する耐性が向上したほか、ネットワーク状況の悪い環境などで使用される低ビットレートでの音質が向上しています。
ほとんどのコーデックには、パケットロスに対応する「PLC(Packet Loss Concealment)」が搭載されており、パケットロスが起こっても前後の音声情報から途切れた部分を補完するなどで不自然な音声になることを防いでいます。
しかし、大きなロスでは単語ごと失われてしまう可能性もあるため、予備的な重複データを用いて冗長性(Redundancy)を持たせています。今回、Opusはこれらに併せてディープラーニングを用いて効率的に冗長性を持たせる技術「DRED(Deep REDundancy)」を導入したことで、より大きなパケットロスにも対処できるようになりました。
パケットロスへの対処技術の有無で音質を比較したグラフ。DREDを使用することで、音質評価がより大きく向上するのがわかる(画像は公式サイトより引用)
公式サイトでは、DREDの有無によって聞こえ方を比較できるサンプル音声が試聴できます。
低ビットレートでの音質向上に関する技術的な解説やそのほかのアップデート内容などの詳細は、公式サイトをご確認ください。
Opus 1.5 ReleasedOpus 公式サイト