「探索的テスト」で初級者とベテランの違いはどこに出る?テスターの思考過程を可視化し、ゲームバグ発見効率を上げる手法を3社で研究【CEDEC+KYUSHU 2023】

2023.12.28
CEDEC注目記事ゲームの舞台裏講演レポートCEDEC+KYUSHU 2023QA
この記事をシェア!
Twitter Facebook LINE B!
Twitter Facebook LINE B!

ゲーム開発者向けのカンファレンス「CEDEC+KYUSHU 2023」が、2023年11月25日に開催されました。ゲームのバグを効率的に探す「探索的テスト」の初級テスター向けレベルアップ手法の研究』と題した講演ではディー・エヌ・エー 品質管理部 花房 輝鑑氏が登壇。

QA研究会に所属する花房氏が、社外活動の「QA研究会」で研究した結果を基に「ゲームのQA経験が浅いテスターが効率的なゲームテストを行うためには、どういった手法が有効か」を解説した本講演をレポートします。

TEXT / セレナーデ☆ゆうき

EDIT / 酒井 理恵

目次

登壇したのは、ディー・エヌ・エー 品質管理部 花房 輝鑑氏。ゲーム業界だけでなく、テスト会社などさまざまな業種で製品の品質に寄与する業務を経験しています。また『ゲームをテストする バグのないゲームを支える知識と手法』(翔泳社)の著者でもあります。

本講演は、登壇した花房氏が社外活動として行ってきた「QA研究会」10か月の成果発表です。本講演の研究には、花房氏のほか、グリーの奥泉 卓也氏、ProVisionの行方 洸二氏の3人が関わっています。

「QA研究会」とは

QAとはQuality Assurance(品質保証)の略で、ゲームが想定した通りに動作するか、バグや不具合が起きていないかを確認する作業のことです。

「QA研究会」は、ゲーム業界のQAに携わるさまざまな会社のメンバーで構成された、より良いサービス提供を目指して技術の研究を行っている研究会です。

「QA研究会」は毎年9月から翌年6月を1タームとして活動しています。期初の9月に各社から現場の課題を持ち寄り、研究テーマを策定。その後、研究テーマごとにチームを作って研究活動を行い、毎月その研究成果を発表しています。そして期末になると、外部に対しての発表会も行っています。

2022年から2023年前期に行われた研究では「テストケースの適正粒度や「メンバーの育成などについての研究が行われました。本講演では、そのうちのテーマの1つである「テスト手法の改善・推進」を基にしています。

なぜすぐ気づけそうなバグを見逃してしまうのか?――ディスカッションで研究テーマを策定

「テスト手法の改善・推進」チームは結成されると、どのように研究活動を進めるかのディスカッションを行うところから始まりました。

そこで挙げられた現場の課題は「リリース前にバグを見つけきれず、リリースとともにバグも流出してしまう」というものでした。必須の確認項目としてはないものの、少しプレイすれば気づけそうな大きめのバグの見逃しもありました。

こういった見逃しは、過去には少なかったように感じられるとのことで、「現在では一般的となった、テストケース(※1)の利用などが原因なのではないか」「過去のベテランゲームテスターは、なぜそういった見逃しが少なかった/少ないように感じられたのか」といったことが話題に挙がりました。

結果、「バグを探し出せるテスターと、そうではないテスターは何が違うのか」という疑問から探索的テスト(※2)が今回の研究テーマになりました。

※ 1 事前にテスト内容を決めておき、決められた手順に従って行われるゲームテストの方式
※2 ある程度の目安のみを決め、内容を柔軟に作成しながらテストを進めていく方式

探索的テスト経験の浅いゲームテスターのパフォーマンス向上を――研究計画の策定

研究の目的

今回の研究内容は探索的テストの効率化アプローチです。そのためのゴールとして「探索的テストの経験の浅いゲームテスターのパフォーマンスを向上する」という目標を掲げました。研究により、カバレッジの向上・不具合検出率向上等を目指します。

調査方法

研究にあたり、独自に2種類の言葉を定義しました。バグ探索が得意なベテランのゲームテスターである「エキスパートテスター」、そして、テスター経験がおよそ1年以下の「一般テスター」です。

エキスパートテスターと一般テスターの間にどのような思考の差があるかの可視化にはマインドマップ(※)を利用しました。

※ 自身の思考の流れを、中心概念から樹状に枝わかれさせて可視化した図

調査はエキスパートテスターと一般テスターそれぞれから探索的テストの複数のサンプルを取得し、データを比較します。この調査・分析を基に、一般テスターにどのようなインプットをするとパフォーマンスが向上するのかノウハウを作成。そして、ノウハウをインプットした一般テスターが探索的テストでどのようなパフォーマンスを示したかも測定しました。

 

今回調査の題材にされたのは、横スクロールのスマートフォン用アクションゲーム。このゲームを用いて探索的テストを実施し、その際の思考をマインドマップで可視化します。

使用したアクションゲームはカテゴリーの認知度が高いため、事前学習の時間やコストを抑えられます。また、実際にアクションを行うインゲーム部分の自由度も高いため、このゲームが選定されました。全員が同じステージをプレイして、マインドマップを作成します。

マインドマップの書き方は詳しく説明してしまうと、被験者がそれにとらわれすぎてしまう懸念があったため、あえて多くを説明せず、自身で調べて自由に作成してもらいました。

実施スケジュール

2022年10月頃から研究テーマ・方針決めを始め、準備期間を経て、2023年1月頃からエキスパートテスターと一般テスターを対象にした一次調査を開始しました。

その後、3月までの2か月ほどでエキスパートテスターのノウハウを整理し、調査結果を一般テスター向けの資料にまとめました。

4~5月に行なった二次調査では、一般テスターのみが参加し、3月に作成した資料を読み込んだうえで探索テストを実施しました。

6月に二次調査で行った資料の効果を分析をして、本研究は終了しました。

研究のスケジュール

一次調査で明らかになった「正常系」「機能系」に偏りがちな一般テスター

今回の研究には、エキスパートテスター・一般テスター合わせて13名が参加。そのうち、エキスパートテスターは5名、一般テスターは8名でした。

各被験者のQAキャリアや普段遊んでいるゲーム、客観的視点での自身の人柄なども併せて調査しています。

エキスパートテスターの情報では、QAキャリアは全員が10年以上。年齢層も比較的高めでした。社会人としてもキャリアが長いことから、分の考えを持ち、かつ、人に伝えることが得意な傾向にあったそうです。普段遊んでいるゲームは、スマートフォンよりはコンシューマーゲームが多い傾向でした。

一般テスターは、QAキャリアがほとんどの場合1年未満、年齢層としても20代が多くなっています。普段遊んでいるゲームに偏りはあまりないものの、比較的ライトなゲームをプレイする割合は多かったそう。人柄の面では、大人しく真面目で、協調性があるという傾向が見られたとのこと。

青色セルがエキスパートテスター

青色セルが一般テスター

エキスパートテスターのマインドマップ

一次調査では、上記の13名におよそ半日ほど探索的テストを行ってもらい、マインドマップを作成してもらいました。

エキスパートテスターのマインドマップを見ると、第1階層(中心概念から伸びる、1つ目のボックス)の数が、全体的に多くなっています。また、階層がおよそ第4階層ほどまで分岐していることも分かります。

第1階層が多いということは、中心概念である「探索的テスト」「デバッグ」という要素から考えられるが広いことが分かります。また、階層の深さにしたがい、考える内容も比較的深くなっています。

マインドマップには、表示系の観点が少なく、異常系テストや非機能要件、スマートフォンの機能が多く記載されました。

エキスパートテスターのマインドマップ。左側のマインドマップでは、1つの観点をほかの観点と連動させていることも特徴的

一般テスターのマインドマップ

一般テスターのマインドマップでは、第1階層の数が比較的少ないものでした。表示系の確認や正常系のテスト、パターン網羅を多く行っていました。

一般テスターのマインドマップ。目で見て認識できる範囲の確認が多く、異常操作などが少ない

一次調査の分析結果

13名のマインドマップ完成後にQA研究会のチーム3名で行ったクロスレビューでは、想定通り、得点上位をエキスパートテスターが、得点下位を一般テスターが占めるという結果になりました。

得点上位のテスターは発想の幅が広く、非機能系や端末操作の観点もテストに含まれていました。また、機能・操作・状態といったテストの各要素を複合させてテストが行われていました

対して、得点下位のテスターは、正常系・表示系の確認が多く、複合要素があまりありませんでした。また、階層が浅い時点で詳細度が高い傾向も見られました。このことから、得点下位のテスターは抽象的な事項から具体的な事項を考えていくのが苦手であることも推測できます。

青セルが得点上位者、黄色セルが得点下位者

一般テスターの思考・視野を広げることが課題に

一般テスターの思考傾向をまとめると次のような傾向がありました。

  1. 具体的な情報から思考を始めてしまうため視野(観点の幅)が狭くなりがち
  2. 視覚的な情報にとらわれ、物事を単一的に考えてしまう。深掘りやほかの概念との連動に繋がらず、考えの深度が浅くなる
  3. 異常系や非機能系、端末操作などの概念が少ないため、無自覚に確認事項をゲームの中のみに制限して考える傾向がある

    これらの傾向を解消し、探索的テストの効果を上げるために、探索的テストそのものについての解説や思考や視野を広げるヒントなどをまとめたハンドブックのようなインプット資料が必要だと考えました。

    実際に制作したインプット資料から一部抜粋したもの

    インプット資料は一般テスターが視覚的情報に意識が向きがちなところから、視覚要素以外にも目を向けるべく「状態」「操作」などのワードが資料内に頻出するように作りました。また、観点を引き出すためのヒントとして、マインドマップや具体的なテスト観点の一例なども記載しています。

    この資料はパワーポイント24ページほどで、すべて読んでもあまり時間がかからないようなボリュームにしました。

    この資料を一般テスターに読み込んでもらい、二次調査として再度マインドマップ作成してもらいます。

    一般テスターにインプット資料を読んでもらい臨んだ二次調査

    一次調査時のレビュー得点が8~19点と、点数の幅が広めの一般テスター5名で二次調査が行われました。二次調査でテストに用いられるゲームや条件は一次調査の時と変えません。変更点は「インプット資料を読んだかどうか」のみです。

    二次調査は一次調査の後にフィードバックなどは行わずに実施します。一次調査が終わってから二次調査が始まるでは2~3か月間空いていました。

    黄色部分のテスター5名により二次調査が行われた

    調査を受けた5名全員の得点が上昇した二次調査

    一次調査の際に課題となっていた第一階層の数については、一次調査と比べると1.5倍ほどになっていました。また、内容の面でも、異常系の観点や端末操作、サーバーの状態を考慮した観点など、観点の幅としても非常に広がりました。

    二次調査時の一般テスターのマインドマップ

    二次調査では調査を受けた5名全員の得点が上昇していました。

    インプット資料を読むことにより、ほとんどの被験者の観点が広がったことが分かります。発想や視野が広がったことが影響してか、マインドマップも抽象から具体へと体系化した表現になったそうです。

    二次調査を受けた5名の点数。一番下のテスターにいたっては、点数が2倍以上に

    二次調査までテストを受けた被験者に実施したアンケートでは、「新たな気づきがあったか」という質問に対し、機能系以外の観点を持つ必要性や、状況によって柔軟にテスト内容を変更をするようになったという回答がありました。

    また、2度の調査で意識したことの違いを尋ねた質問では、一次調査では機能を網羅するテストをしていたところから、二次調査では通常プレイでは行わない異常プレイ時の動作を意識するように変化したと回答していました。

    「資料の内容が理解できたか」という質問に対しては、ネガティブな「1」からポジティブな「6」までの6段階のうち、平均4.6という結果でした。

    テスト時の考え整理に使う時間や、マインドマップのまとめ方の意識変化についても聞かれている

    観点を深める方法は?なぜバグの質や量の違いが生まれるか?――今後に託された研究課題

    今回の研究活動を通じて、探索的テストのハンドブック資料によって、非機能系や端末操作に意識が向くようになり、観点や視野の広がりに効果が表れました。

    しかし、観点の深掘りという点ではあまり大きな変化はありませんでした。機能や状態、操作を複合的に考えることはエキスパートテスターの強みです。これによって、エキスパートテスターはバグを狙って出せるのではないかと花房氏は述べました。

    最後に、今回の研究を踏まえての今後の研究アイデアが語られました。1つは、効果があまり見られなかった「観点の深掘り」に対する有効な手段の研究です。これを強化することができれば、パフォーマンスに大きな向上が期待できます。

    また、今回のテストでは実際に検出できるバグの量や質が、エキスパートテスターと一般テスターの間でどう違うのかという比較ができませんでした。新たな研究ではこういったバグの量や質の変化も研究してみたいと花房氏は述べました。

    最後に、テスト設計(※)への影響が挙げられました。一般テスターの観点の広がりには一定の効果があったため、テスト設計者にも今回のインプット資料を使ってパフォーマンスに違いが出るかどうかを比較したいとのこと。

    ※ ゲームテストの際に行う内容や目的を決めること。これに沿ってテストを行うのがテストケース

    研究活動の中で作成したインプット資料については、一般的な探索的テストの説明や内容、テスト観点に関しても比較的一般的な例などを記載しているため、どのような組織でも同じことができると述べる花房氏。今回の講演で興味を持った人にもこうした活動に取り組んでいただきたいと話し、講演を結びました。

    ディー・エヌ・エー 公式サイトゲームのバグを効率的に探す「探索的テスト」の初級テスター向けレベルアップ手法の研究
    セレナーデ☆ゆうき

    ゲームのタイムアタックを中心に、ストリーミングサイト・Twitchで活動をしているストリーマー。ゲームイベントの紹介記事など、WEBメディアでの活動実績もあるが、繰り出されるダジャレのクオリティには賛否両論がある。

    https://www.twitch.tv/serenade_yuuki

    関連記事

    ソニーによるPlayStation®5 ゲームプレイ自動化の取り組み。人間のプレイヤーと同条件でのテストをAI技術で目指す【CEDEC2024】
    2024.09.06
    『ペルソナ3 リロード』自動プレイ機能で約300人日のQA工数を削減。収集したログから導く「おすすめ行動」でプレイヤー挙動を効率的に再現する【CEDEC2024】
    2024.09.02
    『ゼルダの伝説 ティアーズ オブ ザ キングダム』のトーレルーフ開発秘話。各セクションの独立した取り組みが重なり合い、新たな遊びが作られる任天堂流の開発プロセスに迫る【CEDEC2024】
    2024.09.02
    AIがテスト工数約53%削減。モバイルゲームに適したUnityプラグイン「Playable!Mobile」無料で先着10社にクローズドベータを先行提供
    2024.08.22
    『ARMORED CORE VI』は何をコアと見据えてリブートしたのか。ポジショニングから見る、ゲーム開発とマーケティングの密接な関係【CEDEC+KYUSHU 2023】
    2023.12.26
    CC2が語る“魅力的なゲームエフェクトの作り方”ーー新入社員の研修をベースにしたエフェクト制作の基礎を解説【CEDEC+KYUSHU 2023】
    2023.12.19

    注目記事ランキング

    2024.11.14 - 2024.11.21
    VIEW MORE

    連載・特集ピックアップ

    イベントカレンダー

    VIEW MORE

    今日の用語

    フォワードシェーディング(Forward Shading)
    フォワードシェーディング オブジェクト毎にライティングの計算を行い、その計算結果を描画するレンダリング手法。フォワードレンダリングともいう。ディファードシェーディング(Deferred Shading)に比べてポストプロセスの自由度は低いが、(何も物を配置しなかった際にかかる)最低限の描画コストが低く、アンチエイリアス処理などにおいてフォワードシェーディングの方が有効な分野も存在する。
    VIEW MORE

    Xで最新情報をチェック!