banner

ブログ

Jul 10, 2023

Meta SeamlessM4T の紹介: 多言語翻訳者

Meta は SeamlessM4T と呼ばれる印象的な新しいツールをリリースしました。 このおしゃれな AI モデルは、約 100 の言語を文字に起こし、翻訳することができ、言語の壁を過去のものにする上で大きな前進となります。

同社は、大規模多言語およびマルチモーダル機械翻訳である SeamlessM4T は、ほぼ 100 の言語で音声からテキストへ、およびテキストから音声へ変換できると主張しています。 100 の入力言語を識別し、音声合成およびテキスト読み上げ機能用の 35 の出力言語に変換します。

クリエイティブ コモンズ CC BY-NC 4.0 ライセンスに基づいて配布されているため、研究者は自由に改良できます。 Meta のオープン翻訳データセットの一部である SeamlessAlign の情報も、SeamlessM4T とともに利用できるようになりました。 複数のシステム間で翻訳を分割する既存の大規模な翻訳モデルとは対照的に、SeamlessM4T は 1 回の操作で完全な翻訳作業を完了し、「大きな進歩」であると Meta 氏は述べています。

SeamlessM4T が意図したとおりに機能する場合、その興味深い側面の 1 つは、コードの切り替え、または 1 つのフレーズ内で 2 つ以上の言語間の移行を検出できると考えられる機能です。 たとえば、メタ氏はビデオで、モデルがどのようにしてヒンディー語、テルグ語、英語を即座に区別できるかを示しました。

ヒンディー語、テルグ語、英語を難なく区別する魅力的なビデオで実証されているように、話者が複数の言語を行き来するときを即座に識別する可能性を誇っています。 この機能は異文化間のコミュニケーションに革命をもたらし、言語がもはや障壁ではない世界を促進する可能性があります。

「オープン サイエンスへのアプローチに合わせて、研究者や開発者がこの研究に基づいて構築できるように、研究ライセンスの下で SeamlessM4T を一般公開します。また、これまでで最大のオープン マルチモーダル翻訳データセットである SeamlessAlign のメタデータもリリースします。合計 270,000 時間の音声とテキストの調整が行われました」とメタ氏は言います。

ラマ2とは:メタのAIが解説

より軽量なモデルを作成し、より多くの情報を管理するために、Meta は、Fairseq シーケンス モデリング ツールボックスを変更して SeamlessM4T を生成したと主張しました。

Meta氏によると、SeamlessM4Tを作成する際に有害なフレーズやデリケートなフレーズを認識できるシステムを構築したという。 Meta の定義によると、有害な単語とは「翻訳によって憎悪、暴力、冒涜、虐待を誘発する可能性がある」単語のことです。 目的は、出力翻訳によって導入された有害性がソース コンテンツにこれまで存在していなかったインスタンスを識別できるようにすることです。

ラマ2とは
共有