AIを活用したゲーム開発の現在――Microsoftが持つAI技術と活用例をまとめて紹介&スクウェア・エニックスによる“個性を持った合成音声”の実例を詳しく解説

2023.06.13 [PR]
注目記事ゲームづくりの知識しくみをつくるゲームの舞台裏講演レポートお役立ち情報ツール紹介公開資料まとめ
この記事をシェア!
Twitter Facebook LINE B!
Twitter Facebook LINE B!

ChatGPTサービス開始から約半年。AIが仕事を手助けする未来が少しずつ見えてきましたが、ゲーム業界でもAI/MLに関する研究開発がハイスピードで進められています。

「どんな技術が、どうゲーム開発に活かせるのか?」という問いかけの前段として、本記事では日々の業務を手助けする「Microsoft 365 Copilot」から、Microsoftの持つコンピューティングリソースをフル活用する機械学習プラットフォーム「Azure Machine Learning」まで、Microsoftが持つAI技術を広く紹介します。また、これらの技術の具体例として、Azure AI Day 2023で発表されたスクウェア・エニックスによる講演内容を解説します。

TEXT / 神山 大輝

目次

28年の歴史を持つ研究機関「Microsoft Reseach」

「MicrosoftのAI技術」といえば、ChatGPTなどの生成AIで圧倒的なシェアを誇るOpenAIとの戦略的なパートナーシップ締結が印象的ですが、Microsoft自身も28年の長きにわたってAI開発領域をリードしていました。

こうした研究を牽引するのは、1991年に設立された独立型の研究機関「Microsoft Reseach」。8箇所の研究拠点と1,000人を超える研究者を有する規模感、そして20,000以上のAI関連特許と1,000本以上の研究論文が公開されています。規模だけ見ても世界有数の研究と言えますが、特に視覚・音声・言語の各分野では人間と同じレベルの正誤率を達成してきたという研究成果もあるとのことです。

これらのAI技術はゲーム制作とも無縁ではありません。それもそのはず、Microsoftはゲーム事業としてXboxシリーズも手掛けており、もちろんMicrosoft ReseachとXbox Game Studiosとの共同研究も盛んだからです。

Officeから“基盤”まで、幅広い領域で活用されるAI技術

こうしたAI技術は私たちにも提供されています。5月10日にはMicrosoft 365 Copilotのアーリーアクセスも発表されており、日々の業務をCopilot(副操縦士)としてサポートするAIサービスが複数紹介されました。

とはいえ、AIと一言で言っても領域が広いため、具体的にどのようなテクノロジーを享受できるか(あるいは、既に享受しているか)は一見すると分かりません。

例えば、私たちが普段から使用するWordにはAI構成機能が付いており、スペルや文法のミスを自動的にチェックしてくれます。PowerPointのスライドデザイン提案も、AI技術が使われています。Copilotが搭載されれば、近い将来文書やスライドを自動的に生成できるようになるはずです。

一方、これとは別にゼロからAIモデルを構築する基盤として「Azure Machine Learning」専門家でなくともアプリケーションに学習済のAI技術を活かせる「Azure Cognitive Services」など、多岐にわたる領域に向けたAIサービスも提供されています。

日頃のオフィスワークにも、先端的なゲーム開発にも役立つ機能群を具体的な製品として提供できる部分は間違いなくMicrosoftの強みですが、具体的にどんなサービスを展開しているのでしょうか。今回は、これらのAI技術を「使う難易度が高い順」に紹介していきます。

機械学習プラットフォーム「Azure Machine Learning」

提供される中で最もディープな領域が、機械学習プラットフォームである「Azure Machine Learning」です。教師データの用意からラベル付け、データセットによるモデルの構築と実験・検証、デプロイまでをトータルでサポートする基盤技術です。

専門家や研究者が独自のモデルをゼロから作ってデプロイする場合に用いるサービスで、Microsoftの持つ潤沢なコンピューティングリソースを使って「なんでもできる」といった内容。例えばユーザーの行動や属性を分析・予測し、チャーン(継続利用を前提としたサービス群を解約すること)を防止する目的でモデルをカスタマイズする際などに用いられます。

Azure Machine Learning - サービスとしての ML

カスタム可能な学習済みAIモデルを提供する「Azure Cognitive Services」

Azure Machine Learningではゼロからモデル構築を行う必要がありましたが、専門家がいないと少し敷居が高めです。「Azure Cognitive Service」では、あらかじめMicrosoft側で学習されたモデルを自分のゲームに組み込むことができます。

Azure Cognitive Servicesの中には、テキストを読み上げる「Text to Speech」や自動翻訳を行う「Translator」などがあります。翻訳や画像認識などの汎用的なAIモデルはゼロから作るとコストが高いので、“ありもの”を自分のゲームやアプリケーションに使わせていただく、といったイメージになります。ちなみに、OpenAIの各技術も他のモデルと同様に使用することができます。AI専門チームがいない場合のゲーム開発においては、ここがメインになりそうです。

業務シナリオに特化したサービス「Azure Applied AI Services」

最後は業務シナリオに特化したサービス群です。一般的に良くある業務の一連の流れをAIでサポートするイメージで、例えば大量のテキストや画像、図表を認識することが可能なOCRサービス「Form Recognizer」などが含まれています。

事前に構築されているモデルとして、例えば請求書やレシート、名刺などを高精度で認識できます。他にも、チャットボット構築なら「Bot Service」などを使ったり、場合によっては「Text to Speech」を組み合わせてAIナレーターを作ったりすることもできます。

それでは、業務シナリオ特化のサービスよりも簡単に使えるのは?これは、皆さんのお手元にあるMicrosoft 365のツール群など、具体的なMicrosoftの製品になります。

ゲーム開発で想定される使い方と技術課題の解決アプローチ

ここまでに紹介したサービスカテゴリを見てみると、「1つ1つの細かなパーツがたくさん存在して、これらを組み合わせて使用する」といったケースが想像できます。実際にゲームで使用する際のユースケースを簡単にまとめました。

    • 音声:声優の音声を学習させたボイスを生成することで収録コストを下げる。または、音声データをテキストに変換することで「ユーザーの肉声による操作」を実現する。
    • 言語:自動翻訳によるコミュニケーションの円滑化やローカライズの効率化。SNSの声を自動的に分析し、ネガポジを判断する。または、チャットボットによるユーザーサポートの効率化。
    • 意思決定:ユーザー同士のコミュニケーションにおいて、不適切な表現があるかを検知する。ゲーム内の画像や文字をテキスト化し、自動抽出。
    • 機械学習:テストプレイを自動化する。または、ユーザー行動の予測や属性を分析し、チャーン(離脱)を減少させる。

    「音声」は非常に想像のしやすい部分です。誰かの声質を真似た音声を生成したり、あるいはユーザーの肉声をテキスト化してゲームの入力に活かしたり、こうした使用用途はSpeech APIを使えば簡単に行えます。「言語」や「意思決定」も、比較的使いやすい部分です。

    Speech APIに含まれる「Speechサービス」。音声テキスト変換や、既に学習済みのボイスデータによる音声生成が可能。もちろん、外部ソースを用いた、ユーザー独自の学習も可能

    手書きの文字列を識別するOCR。こちらも既にMicrosoftによって学習済みのモデルが提供されるほか、独自ソースを用いたカスタム画像認識も可能。例えば、「犬」ではなく「ポチ」のように固有の名称で識別したい場合は、独自の画像を教師データとして用いる

    続いて、これらのユースケースを実現するための道具、つまり「Azure Cognitive Services」に含まれる機能を領域ごとに見ていきます。「なるほど、ユーザーの発言が不適切かどうかを自動的にジャッジするためには、“文字起こし”と“テキスト分析”が必要なんだな」「つまり、Speech APIとLanguage APIを使えば良いんだな!」といったかたちで考えを進めると効率的です。

    公式サイトでは視覚、音声、Language、決定、Azure OpenAI Serviceに分類されている。それぞれのAPIに対して、さまざまな機能を持つ「サービス」が含まれる。例えば言語=Language APIには、「言語サービス」や「Translator」、「Language Understanding LUIS」などが含まれるといったかたちになる

    Azure Cognitive Services とは

    ローカライズのサポートや音声実装などの実例を紹介

    続いて、具体的にサービスインしている技術について解説します。まずは高品質フライトシミュレーターである『Microsoft Flight Simulator』。空港の管制塔からの音声をSpeech APIを用いて自動生成しています。

    また、『March of Empires』ではユーザー同士のチャット内容をリアルタイム翻訳しており、センシティブな用語も同時に検出しています。セキュリティやプライバシーについても万全で、Microsoftはこれらのデータを用いて他モデルの強化などを行いません

    ゲーム業界以外にも、東京メトロでは正常な線路の画像を学習させ、設備劣化や異常を検知する画像認識システムを開発しています。これもAzure Cognitive Servicesに含まれるVisionサービスを用いることで極めて迅速に開発できたとのこと。点検の精度を高め、作業者の負担を減らす好事例となっています。これはゲームにも転用可能で、例えば誤ったマテリアルの検知やレベル上の不審な点をチェックするなどの画像テストにも応用ができます。

    合成音声でキャラクター性の表現に挑戦。スクウェア・エニックスによるAzure Cognitive Services活用

    さらなる先端的なAI/MLに関する研究とその活用法について、Microsoftが主催する「Azure AI Day 2023」からスクウェア・エニックス社の事例を紹介します。Azure AI Day 2023はAIを用いた業務改善や課題解決の事例を紹介するカンファレンス型イベントで、今年は10社以上の講演が行われました。

    Azure AI Day 2023 ~最先端AIテクノロジーのこれからと今~

    本イベントにおいて、スクウェア・エニックスは「合成音声でキャラクター性の表現に挑戦」と題した講演を実施。登壇したのは株式会社スクウェア・エニックス・AI&アーツ・アルケミー 代表取締役社長COO 水口 舞氏で、カスタムニューラル音声に個性を宿す試みと収録のコツなどが語られました。

    水口氏は、今後リアルタイムに生成したテキストをゲーム内コンテンツとして活かす時代が到来すると予期し、事前の収録なく音声を生成できる合成音声に着目。ただし、現状の合成音声はゲームで用いるには機械的な印象を受けるため、同社では「個性を持ったキャラクターとの対話表現」を目的とし、カジュアルな喋り口調の実現を目指した研究が進められています。

    Microsoftが提供する音声合成サービスには、既に学習済みの音声を利用するものと、自分たちでモデルを独自に用意して読み上げに利用する「カスタムニューラルボイス」の2種類があります。講演内では後者を用いて、モーションアクターが実際に発話した音声を学習させて生成した合成音声が披露されました。

    合成音声は実際の肉声と比べても「普通」に聞こえます。この普通さこそが、同社の目指す個性的な合成音声の目指すべき方向性とのこと。水口氏は「人それぞれが持つ喋り方の特徴をTTS(Text to Speech)で再現できたら面白いのではないか」と併せて解説しました。

    カスタムニューラルボイスを使用した合成音声の作り方は至ってシンプル。まずは用意した台本に沿ってボイス収録を行い、これをファイル化します。その後、カスタムニューラルボイスの管理画面上で音声ファイルをアップロードし、トレーニングを行います。

    カスタムニューラルボイスの管理画面ではGUIでファイルのアップロードとトレーニング状況が確認できるため、非エンジニアでも容易に実装が可能とのこと。データの問題や、どのようなデータが不足しているかなども表示されるため、非常に使いやすい仕様となっています。

    一方、Azureカスタムニューラルボイスを使用してTTSのトレーニングデータ用の音声収録を行うための台本は、あらかじめ用意されたものを読み上げるのではなく自分たちで作成する必要があります。ニュースキャスターや自動音声案内などに用いられる合成音声と異なり、個性的なボイスを生成するためにはITAコーパス(424分から成るパブリックドメインの日本語テキストコーパス)では不足していたとのこと。

     ITAコーパスでは効率よく音素を収集できる反面、演者が台本のテイストに沿ったフォーマルな話し方をしてしまう傾向にある。汎用的な台本だけでは、特徴的なキャラクターの表現は難しいと水口氏は説明。例えば、「わらわは~なのじゃ」と話すような特徴的なキャラクターは、その個性を表現できる台本が必要不可欠です。 

     そこで、水口氏は「実在する人物の話し方の特徴を観察する」というアプローチを選択。緊張度合いやシチュエーションごとに、喋り方の特徴を資料として収集します。合成音声にカジュアルな喋り方をさせたいなら、カジュアルなトーンになるような台本を用意します。

    個性をTTSで再現するために、トレーニングデータ用の音声収録では特徴的な語尾に繋がる言葉のパターンを大量に収録し、一般的でない固有名詞を織り交ぜたり、文頭と文末のバリエーションを数多く持たせたりすると効果的だと語られました。

    講演の終わりに、水口氏は「物語性のある特別なシーンでは、今後も声優さんの生の演技は必要です。ですが、アプリケーションで動的に話すことを変えたいとき、ユーザーさん1人1人の家にどんな時間でも声優さんが訪れて喋るというわけにもいきません。 エンターテイメント用コンテンツで、状況に応じて話すことを変えたいということはままありますので、TTSは可能性を感じる技術です」と述べ、Microsoftの展開するAI技術への高い期待感を示しました。

    合成音声でキャラクター性の表現に挑戦(株式会社スクウェア・エニックス ・AI&アーツ・アルケミー)[Azure AI Day 2023]

    ゲームメーカーズとのコラボイベント「Microsoft Game Dev in Japan」で、AI技術の最新情報をチェック!

    2023年6月22日(木)に、ゲームメーカーズとMicrosoftのコラボイベント「Microsoft Game Dev in Japan 2023」を開催します!これまでに説明したAIサービスに関する最新情報だけでなく、生成AIや大規模言語モデルなどのAI関連技術を分かりやすく紹介します。

    今回で2度目の開催となる「Microsoft Game Dev in Japan」は、初のオフラインイベントとして日本マイクロソフト品川オフィスで実施されます。セッションラインナップは後日公開となりますので、ぜひ参加登録をしてお待ちください!

    【2023年6月22日(木) 東京開催】『Microsoft Game Dev in Japan 2023 – ゲーム開発に役に立つ!?Azure Open AI の可能性』イベント開催! (随時更新)
    神山 大輝

    ゲームメーカーズ編集長およびNINE GATES STUDIO代表。ライター/編集者として数多くのWEBメディアに携わり、インタビュー作品メイキング解説、その他技術的な記事を手掛けてきた。ゲーム業界ではコンポーザー/サウンドデザイナーとしても活動中。

    ドラクエFFテイルズはもちろん、黄金の太陽やヴァルキリープロファイルなど往年のJ-RPG文化と、その文脈を受け継ぐ作品が好き。

    関連記事

    ゲームメーカーズが贈る“ゲーム制作の入門書”が2024年9月下旬 発売決定!『ゼロから始めるゲーム制作!プロが使うUE5で3Dアクションゲームを作ろう(仮)』
    2024.05.25
    【2024年6月版】注目のゲーム展示会・コンテスト・カンファレンス・勉強会情報まとめ
    2024.05.24
    VESAによるHDRモニターの認証規格「DisplayHDR」がバージョン1.2へ更新。色域要件の厳格化が行われたほか、新たなテスト手法の追加も
    2024.05.17
    仮想化ソフト「VMware Workstation Pro」「VMware Fusion Pro」が非商用・個人利用に限り無料に
    2024.05.15
    【2024年5月25日(土) 東京開催】ゲームづくりで盛り上がろう!「ゲームメーカーズ スクランブル2024」 イベント情報(随時更新)
    2024.05.15
    設定漏れも一目で分かる。おかず氏、Actor・PrimitiveComponentを条件で色分けできるUE5.4用プラグイン「Custom Actor Coloration」を公開
    2024.05.14

    注目記事ランキング

    2024.05.20 - 2024.05.27
    VIEW MORE

    イベントカレンダー

    VIEW MORE

    今日の用語

    フォグ(Fog)
    フォグ 「霧」を意味する英単語。3DCGにおいて、現実の霧による見た目をシミュレーションする画面効果やエフェクトを指す。代表的なものとして、カメラから遠くにあるオブジェクトの色調を変化させることで遠近感を出す手法がある。
    VIEW MORE

    Twitterで最新情報を
    チェック!