ゲーム開発者向けのカンファレンス「CEDEC+KYUSHU 2023」が、2023年11月25日に開催されました。『ゲームのバグを効率的に探す「探索的テスト」の初級テスター向けレベルアップ手法の研究』と題した講演ではディー・エヌ・エー 品質管理部 花房 輝鑑氏が登壇。
QA研究会に所属する花房氏が、社外活動の「QA研究会」で研究した結果を基に「ゲームのQA経験が浅いテスターが効率的なゲームテストを行うためには、どういった手法が有効か」を解説した本講演をレポートします。
ゲーム開発者向けのカンファレンス「CEDEC+KYUSHU 2023」が、2023年11月25日に開催されました。『ゲームのバグを効率的に探す「探索的テスト」の初級テスター向けレベルアップ手法の研究』と題した講演ではディー・エヌ・エー 品質管理部 花房 輝鑑氏が登壇。
QA研究会に所属する花房氏が、社外活動の「QA研究会」で研究した結果を基に「ゲームのQA経験が浅いテスターが効率的なゲームテストを行うためには、どういった手法が有効か」を解説した本講演をレポートします。
TEXT / セレナーデ☆ゆうき
EDIT / 酒井 理恵
登壇したのは、ディー・エヌ・エー 品質管理部 花房 輝鑑氏。ゲーム業界だけでなく、テスト会社などさまざまな業種で製品の品質に寄与する業務を経験しています。また『ゲームをテストする バグのないゲームを支える知識と手法』(翔泳社)の著者でもあります。
本講演は、登壇した花房氏が社外活動として行ってきた「QA研究会」10か月の成果発表です。本講演の研究には、花房氏のほか、グリーの奥泉 卓也氏、ProVisionの行方 洸二氏の3人が関わっています。
QAとはQuality Assurance(品質保証)の略で、ゲームが想定した通りに動作するか、バグや不具合が起きていないかを確認する作業のことです。
「QA研究会」は、ゲーム業界のQAに携わるさまざまな会社のメンバーで構成された、より良いサービス提供を目指して技術の研究を行っている研究会です。
「QA研究会」は毎年9月から翌年6月を1タームとして活動しています。期初の9月に各社から現場の課題を持ち寄り、研究テーマを策定。その後、研究テーマごとにチームを作って研究活動を行い、毎月その研究成果を発表しています。そして期末になると、外部に対しての発表会も行っています。
2022年から2023年前期に行われた研究では「テストケースの適正粒度」や「メンバーの育成」などについての研究が行われました。本講演では、そのうちのテーマの1つである「テスト手法の改善・推進」を基にしています。
「テスト手法の改善・推進」チームは結成されると、どのように研究活動を進めるかのディスカッションを行うところから始まりました。
そこで挙げられた現場の課題は「リリース前にバグを見つけきれず、リリースとともにバグも流出してしまう」というものでした。必須の確認項目としてはないものの、少しプレイすれば気づけそうな大きめのバグの見逃しもありました。
こういった見逃しは、過去には少なかったように感じられるとのことで、「現在では一般的となった、テストケース(※1)の利用などが原因なのではないか」「過去のベテランゲームテスターは、なぜそういった見逃しが少なかった/少ないように感じられたのか」といったことが話題に挙がりました。
結果、「バグを探し出せるテスターと、そうではないテスターは何が違うのか」という疑問から探索的テスト(※2)が今回の研究テーマになりました。
※ 1 事前にテスト内容を決めておき、決められた手順に従って行われるゲームテストの方式
※2 ある程度の目安のみを決め、内容を柔軟に作成しながらテストを進めていく方式
今回の研究内容は探索的テストの効率化アプローチです。そのためのゴールとして「探索的テストの経験の浅いゲームテスターのパフォーマンスを向上する」という目標を掲げました。研究により、カバレッジの向上・不具合検出率向上等を目指します。
研究にあたり、独自に2種類の言葉を定義しました。バグ探索が得意なベテランのゲームテスターである「エキスパートテスター」、そして、テスター経験がおよそ1年以下の「一般テスター」です。
エキスパートテスターと一般テスターの間にどのような思考の差があるかの可視化にはマインドマップ(※)を利用しました。
※ 自身の思考の流れを、中心概念から樹状に枝わかれさせて可視化した図
調査はエキスパートテスターと一般テスターそれぞれから探索的テストの複数のサンプルを取得し、データを比較します。この調査・分析を基に、一般テスターにどのようなインプットをするとパフォーマンスが向上するのかノウハウを作成。そして、ノウハウをインプットした一般テスターが探索的テストでどのようなパフォーマンスを示したかも測定しました。
今回調査の題材にされたのは、横スクロールのスマートフォン用アクションゲーム。このゲームを用いて探索的テストを実施し、その際の思考をマインドマップで可視化します。
使用したアクションゲームはカテゴリーの認知度が高いため、事前学習の時間やコストを抑えられます。また、実際にアクションを行うインゲーム部分の自由度も高いため、このゲームが選定されました。全員が同じステージをプレイして、マインドマップを作成します。
マインドマップの書き方は詳しく説明してしまうと、被験者がそれにとらわれすぎてしまう懸念があったため、あえて多くを説明せず、自身で調べて自由に作成してもらいました。
2022年10月頃から研究テーマ・方針決めを始め、準備期間を経て、2023年1月頃からエキスパートテスターと一般テスターを対象にした一次調査を開始しました。
その後、3月までの2か月ほどでエキスパートテスターのノウハウを整理し、調査結果を一般テスター向けの資料にまとめました。
4~5月に行なった二次調査では、一般テスターのみが参加し、3月に作成した資料を読み込んだうえで探索テストを実施しました。
6月に二次調査で行った資料の効果を分析をして、本研究は終了しました。
今回の研究には、エキスパートテスター・一般テスター合わせて13名が参加。そのうち、エキスパートテスターは5名、一般テスターは8名でした。
各被験者のQAキャリアや普段遊んでいるゲーム、客観的視点での自身の人柄なども併せて調査しています。
エキスパートテスターの情報では、QAキャリアは全員が10年以上。年齢層も比較的高めでした。社会人としてもキャリアが長いことから、自分の考えを持ち、かつ、人に伝えることが得意な傾向にあったそうです。普段遊んでいるゲームは、スマートフォンよりはコンシューマーゲームが多い傾向でした。
一般テスターは、QAキャリアがほとんどの場合1年未満、年齢層としても20代が多くなっています。普段遊んでいるゲームに偏りはあまりないものの、比較的ライトなゲームをプレイする割合は多かったそう。人柄の面では、大人しく真面目で、協調性があるという傾向が見られたとのこと。
一次調査では、上記の13名におよそ半日ほど探索的テストを行ってもらい、マインドマップを作成してもらいました。
エキスパートテスターのマインドマップを見ると、第1階層(中心概念から伸びる、1つ目のボックス)の数が、全体的に多くなっています。また、階層がおよそ第4階層ほどまで分岐していることも分かります。
第1階層が多いということは、中心概念である「探索的テスト」「デバッグ」という要素から考えられる幅が広いことが分かります。また、階層の深さにしたがい、考える内容も比較的深くなっています。
マインドマップには、表示系の観点が少なく、異常系テストや非機能要件、スマートフォンの機能が多く記載されました。
一般テスターのマインドマップでは、第1階層の数が比較的少ないものでした。表示系の確認や正常系のテスト、パターン網羅を多く行っていました。
13名のマインドマップ完成後にQA研究会のチーム3名で行ったクロスレビューでは、想定通り、得点上位をエキスパートテスターが、得点下位を一般テスターが占めるという結果になりました。
得点上位のテスターは発想の幅が広く、非機能系や端末操作の観点もテストに含まれていました。また、機能・操作・状態といったテストの各要素を複合させてテストが行われていました。
対して、得点下位のテスターは、正常系・表示系の確認が多く、複合要素があまりありませんでした。また、階層が浅い時点で詳細度が高い傾向も見られました。このことから、得点下位のテスターは抽象的な事項から具体的な事項を考えていくのが苦手であることも推測できます。
一般テスターの思考傾向をまとめると次のような傾向がありました。
これらの傾向を解消し、探索的テストの効果を上げるために、探索的テストそのものについての解説や思考や視野を広げるヒントなどをまとめたハンドブックのようなインプット資料が必要だと考えました。
インプット資料は一般テスターが視覚的情報に意識が向きがちなところから、視覚要素以外にも目を向けるべく「状態」「操作」などのワードが資料内に頻出するように作りました。また、観点を引き出すためのヒントとして、マインドマップや具体的なテスト観点の一例なども記載しています。
この資料はパワーポイント24ページほどで、すべて読んでもあまり時間がかからないようなボリュームにしました。
この資料を一般テスターに読み込んでもらい、二次調査として再度マインドマップ作成してもらいます。
一次調査時のレビュー得点が8~19点と、点数の幅が広めの一般テスター5名で二次調査が行われました。二次調査でテストに用いられるゲームや条件は一次調査の時と変えません。変更点は「インプット資料を読んだかどうか」のみです。
二次調査は一次調査の後にフィードバックなどは行わずに実施します。一次調査が終わってから二次調査が始まるでは2~3か月間空いていました。
一次調査の際に課題となっていた第一階層の数については、一次調査と比べると1.5倍ほどになっていました。また、内容の面でも、異常系の観点や端末操作、サーバーの状態を考慮した観点など、観点の幅としても非常に広がりました。
二次調査では調査を受けた5名全員の得点が上昇していました。
インプット資料を読むことにより、ほとんどの被験者の観点が広がったことが分かります。発想や視野が広がったことが影響してか、マインドマップも抽象から具体へと体系化した表現になったそうです。
二次調査までテストを受けた被験者に実施したアンケートでは、「新たな気づきがあったか」という質問に対し、機能系以外の観点を持つ必要性や、状況によって柔軟にテスト内容を変更をするようになったという回答がありました。
また、2度の調査で意識したことの違いを尋ねた質問では、一次調査では機能を網羅するテストをしていたところから、二次調査では通常プレイでは行わない異常プレイ時の動作を意識するように変化したと回答していました。
「資料の内容が理解できたか」という質問に対しては、ネガティブな「1」からポジティブな「6」までの6段階のうち、平均4.6という結果でした。
今回の研究活動を通じて、探索的テストのハンドブック資料によって、非機能系や端末操作に意識が向くようになり、観点や視野の広がりに効果が表れました。
しかし、観点の深掘りという点ではあまり大きな変化はありませんでした。機能や状態、操作を複合的に考えることはエキスパートテスターの強みです。これによって、エキスパートテスターはバグを狙って出せるのではないかと花房氏は述べました。
最後に、今回の研究を踏まえての今後の研究アイデアが語られました。1つは、効果があまり見られなかった「観点の深掘り」に対する有効な手段の研究です。これを強化することができれば、パフォーマンスに大きな向上が期待できます。
また、今回のテストでは実際に検出できるバグの量や質が、エキスパートテスターと一般テスターの間でどう違うのかという比較ができませんでした。新たな研究ではこういったバグの量や質の変化も研究してみたいと花房氏は述べました。
最後に、テスト設計(※)への影響が挙げられました。一般テスターの観点の広がりには一定の効果があったため、テスト設計者にも今回のインプット資料を使ってパフォーマンスに違いが出るかどうかを比較したいとのこと。
※ ゲームテストの際に行う内容や目的を決めること。これに沿ってテストを行うのがテストケース
研究活動の中で作成したインプット資料については、一般的な探索的テストの説明や内容、テスト観点に関しても比較的一般的な例などを記載しているため、どのような組織でも同じことができると述べる花房氏。今回の講演で興味を持った人にもこうした活動に取り組んでいただきたいと話し、講演を結びました。
ディー・エヌ・エー 公式サイトゲームのバグを効率的に探す「探索的テスト」の初級テスター向けレベルアップ手法の研究ゲームのタイムアタックを中心に、ストリーミングサイト・Twitchで活動をしているストリーマー。ゲームイベントの紹介記事など、WEBメディアでの活動実績もあるが、繰り出されるダジャレのクオリティには賛否両論がある。
西川善司が語る“ゲームの仕組み”の記事をまとめました。
Blenderを初めて使う人に向けたチュートリアル記事。モデル制作からUE5へのインポートまで幅広く解説。
アークライトの野澤 邦仁(のざわ くにひと)氏が、ボードゲームの企画から制作・出展方法まで解説。
ゲーム制作の定番ツールやイベント情報をまとめました。
東京ゲームショウ2024で展示された作品のプレイレポートやインタビューをまとめました。
CEDEC2024で行われた講演レポートをまとめました。
BitSummitで展示された作品のプレイレポートをまとめました。
ゲームメーカーズ スクランブル2024で行われた講演のアーカイブ動画・スライドをまとめました。
CEDEC2023で行われた講演レポートをまとめました。
東京ゲームショウ2023で展示された作品のプレイレポートやインタビューをまとめました。
UNREAL FEST 2023で行われた講演レポートをまとめました。
BitSummitで展示された作品のプレイレポートをまとめました。
ゲームメーカーズ スクランブルで行われた講演のアーカイブ動画・スライドをまとめました。
UNREAL FEST 2022で行われた講演レポートやインタビューをまとめました。
CEDEC2022で行われた講演レポートをまとめました。