プログラミング教育論文解説

プログラミング教育におけるAI（GPT）を活用した学生の誤ったメンタルモデル検出：その可能性と課題

2026-05-10 ✍️ ADVANCE 講師 ⏱️ 約10分で読めます

📌 この記事の結論

GPT-5はGPT-4と比較して、学生の誤ったプログラミングのメンタルモデル検出において大幅な精度向上を示しました。
GPT-5は教員の判断と82.7%の高い一致率（GPT-4は66.9%）を達成しましたが、完全に人間の専門家を置き換えるにはまだ信頼性が不十分です（Kappa値0.38）。
LLMは分析コストと時間を劇的に削減し、大規模な教育現場での適用を現実的なものにしています。
最も効果的な運用方法は、LLMを初期分析に活用し、教員が最終的なレビューと修正を行う「ハイブリッドな人間-AIフレームワーク」です。

1. はじめに：プログラミング教育におけるメンタルモデルの重要性

プログラミング教育において、生徒がシステムの動作を理解し予測するための「正確なメンタルモデルの構築」は学習の鍵となります。しかし、誤ったメンタルモデルは「従来の指導では修正されにくい持続的な誤り」を引き起こすため、早期の検出が極めて重要です。

これまでの研究では、学生の誤解を特定するための反復的な方法論が確立されてきましたが、「手作業による分析に数十時間の教員時間が必要」というスケーラビリティの課題に直面していました。この課題に対し、「GPTのような大規模言語モデル（LLM）」が解決策として大きな注目を集めています。

LLMは学生の自由回答を分析し、仮説的な誤解の証拠を「体系的にコーディングする」能力を持つ可能性を秘めています。GPT-4を用いた先行研究では、教員との約65%の一致に加え、当初教員が仮説立てていなかった「追加の誤解パターンも発見」できることが示唆されました。この結果は、LLM分析が単に人間の評価を近似するだけでなく、教育に補完的な視点を提供しうることを意味します。

本記事では、この研究をさらに深掘りし、GPT-5の性能向上と、LLMを「ハイブリッドな人間-AIフレームワーク」にどのように組み込むべきかについて、その可能性と課題を詳しく解説します。

2. 紹介する論文の概要

📄 論文情報

タイトル	Evaluating GPT as automated analyzer for detecting students’ erroneous mental models in programming education
著者	Francisco J. Gallego-Durán, Patricia Compañ-Rosique, Carlos J. Villagrá-Arnedo
掲載誌	Universal Access in the Information Society (2026) 25:51
研究対象	C++プログラミングを学ぶ大学生（4年生50名）の誤ったメンタルモデル検出
研究期間	2024年（GPT-4）、2025年（GPT-5）

研究の目的

本研究の目的は、プログラミング教育において、学生の誤ったメンタルモデルを検出する自動分析器として、GPT-4およびGPT-5の性能を評価することです。特に、手作業による分析のスケーラビリティの課題を解決できるか、信頼性、エラーパターン、計算上の実現可能性を検証することが目的です。

研究の方法

研究では、以下の6段階の反復的な方法論が実施されました。

仮説設定：教員がこれまでの経験に基づき、27種類の誤ったプログラミングのメンタルモデルを仮説として定義しました。
質問紙設計：学生の理解度や推論プロセスを明らかにするため、C++プログラミングに関する24問の自由回答形式の質問を作成。
調査実施：50名の大学生に対し、2時間の授業中に質問紙を配布。間違いは学習の貴重な情報であることを強調し、正直な回答を促しました。
人間による分析：4名の教員が各回答を独立して分析し、27の仮説的メンタルモデルの有無（二値判定：1=あり、0=なし）を評価。合計5,300の判定が行われました。
LLMによる分析：GPT-4およびGPT-5に、教員と同様の分析を行うよう自動化スクリプトを通じて指示。プロンプトエンジニアリングにより、最適な応答形式とパラメータが設定されました。
比較評価：教員と各GPTモデルの分析結果を比較し、一致率、CohenのKappa係数、混同行列などを用いて信頼性とエラーパターンを定量的に評価しました。

3. 研究結果のポイント3つ

この研究から明らかになった、重要な3つのポイントを解説します。

✅ ポイント1：GPT-5は学生の誤解検出において大幅な精度向上を達成しました。

GPT-5は、学生の回答から誤ったメンタルモデルを検出するタスクにおいて、教員の評価と82.7%という高い一致率を達成しました（GPT-4は66.9%）。これは、GPT-4からGPT-5への世代間で15.8ポイントの改善を意味します。

CohenのKappa係数（偶然の一致を排除した信頼性指標）も、GPT-4の0.18（わずかな一致）からGPT-5の0.38（公平から中程度の一致）へと向上しました。これは、GPT-5が人間の専門家の判断により近づいていることを示唆しています。ただし、この信頼性は、一般的な人間間の評価者一致（通常Kappa値0.60〜0.80）にはまだ及ばず、完全な自律運用には不十分であることが明らかになりました。

✅ ポイント2：LLMは分析コストと時間を劇的に削減し、教育現場での大規模な活用を現実的にしました。

学生1,500件の回答を分析するのにかかった時間は、GPT-4の約36時間からGPT-5では約4.7時間へと7.6倍高速化されました（87%の時間削減）。これにより、1営業日での分析完了が可能になりました。

分析にかかる費用も、GPT-4の19.06ドルからGPT-5では12.51ドルへと34%削減されました。この結果は、学生100人のクラス全体の分析でもわずか50ドルと1日あれば可能であることを意味します。これは、数十時間の専門教員の労力と比較して、圧倒的なコストパフォーマンスを実現しています。例えば、C++のコードレビューを教員が行う場合と比較すると、その効率性は明らかでしょう。

✅ ポイント3：LLMは「過検出」の傾向があるものの、GPT-5で大幅に改善されました。最適な運用には「人間とAIのハイブリッド型」が鍵です。

混同行列分析によると、両GPTモデルは教員が誤解を検出しないケースで、誤って検出してしまう「偽陽性（過検出）」のバイアスがあることが示されました。しかし、この偽陽性率は、GPT-4の23.1%からGPT-5では11.6%へと大幅に減少しており、検出精度の向上の主要因となっています。

研究では、GPTが生成した分析のうち、教員との不一致を詳細に検討した結果、約半数のケースでGPTの推論の方が教員よりも妥当である可能性も示唆されました。さらに、教員が当初仮説立てていなかった新しい誤解パターンをAIが発見することもあり、人間の専門知識を補完する可能性も秘めています。

これらの結果から、現時点でのLLMは「初回分析器」として活用し、その結果を教員が体系的にレビュー・修正する「ハイブリッドな人間-AIフレームワーク」が最も効果的であると結論付けられています。

4. ADVANCEの現場から見た実感

堺市南区のプログラミングスクールADVANCEで実際にプログラミングを教えている講師としての意見は以下の三つです

🎮 現場で感じる3つの変化

個別の誤解への早期アプローチ

私たちがプログラミング指導を行う中で、生徒一人ひとりがScratchやPythonでコードを書く際、特定の概念（変数、ループなど）について独自の誤解を抱えていることがあります。本論文で示されたAIによる分析は、これらの誤解を早期に、かつ具体的に特定する上で非常に有用だと感じます。例えば、Scratchで変数を扱う際に「変数は値そのものであり、メモリ空間ではない」と誤解している生徒がいれば、AIがそれを検出し、より的を絞った指導が可能になります。

教員の負担軽減と質の向上

学生の自由回答を詳細に分析し、誤解のパターンを特定することは、膨大な時間を要します。特にRoblox StudioでのLuaスクリプトやUnityでのC#など、複雑なプログラミング言語の場合、コードだけでなく生徒の思考プロセスを読み解くのは骨が折れます。AIが初回分析を行うことで、教員は単純なパターン検出から解放され、より高度な教育的判断や、個別のアドバイスに集中できるようになります。これにより、指導の質が向上し、生徒はより効率的に学習を進められるでしょう。

新たな誤解パターンの発見とカリキュラム改善

AIが、教員が想定していなかったような新しい誤解パターンを提示する可能性は、私たちのカリキュラム改善に大いに役立つと期待しています。例えば、JavaScriptで非同期処理を学ぶ際、特定の記述方法が予期せぬ誤解を生んでいることをAIが発見すれば、その知識をカリキュラムに反映させ、より効果的な指導法を開発できます。これは、人間だけでは見過ごしがちな死角を補完し、教育内容を継続的に最適化するための強力なツールとなります。

生徒の個性を尊重したパーソナライズされた学習
AIの活用は、生徒の学習進度や理解度に合わせたパーソナライズされた教育を可能にします。例えば、Web制作のHTML/CSSを学ぶ生徒が特定のCSSプロパティについて誤解している場合、AIはその誤解を即座に特定し、教員はそれに基づいて、その生徒に合わせた補足説明や演習を提供できます。これは、個別のニーズに応じた指導を大規模に展開するために不可欠な要素となります。ADVANCEでは、このようなAIの可能性を追求し、生徒一人ひとりの「わかった！」を最大化する教育環境を目指しています。

5. 保護者の方へ：家庭でできること

プログラミング教育におけるAIの可能性が示された一方で、ご家庭でのサポートも引き続き重要です。お子様の学習をさらに深めるために、以下の3つのポイントを参考にしてみてください。

🏠

お子様が抱える「なぜ？」に耳を傾けてください

お子様がプログラミングでつまずいた時、「なぜこうなるんだろう？」と疑問を口にすることがあります。その際に、すぐに答えを与えるのではなく、お子様がどのように考えているのか、どのような「メンタルモデル」を持っているのかを尋ねてみてください。例えば、Scratchでキャラクターが思った通りに動かない時、「どうしてそう思ったの？」と問いかけることで、お子様自身の思考プロセスを整理させることができます。

📅

質問を「アウトプット」する機会を設けてください

論文でも言及されているように、自由回答形式で自分の考えを説明することは、誤解を表面化させる効果的な方法です。プログラミングの学習に限らず、お子様に「今日学んだことを説明してみて」と促したり、絵や言葉で表現する機会を与えたりすることで、ご家庭でもアウトプットの練習ができます。例えば、簡単なHTMLのタグについて、お子様に説明してもらうのも良いでしょう。

👏

間違いを恐れない学習環境を作ってください

プログラミング学習において、エラーや間違いは避けて通れません。むしろ、間違いから学ぶことこそが成長の鍵となります。お子様がプログラムでミスをしても、それを責めるのではなく、「よくあることだよ」「どうすれば直せるかな？」と一緒に考える姿勢を示すことで、安心して挑戦できる環境を作ってあげてください。失敗を恐れず、解決策を探すプロセスが、プログラマーとしての重要な資質を育みます。

🎮 ADVANCEで一緒にプログラミングを始めませんか？

堺市南区のプログラミングスクールADVANCEでは、Scratchからはじめて、Roblox、Unity(C#)まで段階的に学べます。

研究で効果が実証されたプログラミング教育を、ゲーム制作を通じて楽しく体験できます。

🕹️ ▶ ぼうけんをはじめる無料体験会に申し込む！ 🎮

6. 参考文献

Gallego-Durán, F.J., Compañ-Rosique, P., & Villagrá-Arnedo, C.J. (2026). Evaluating GPT as automated analyzer for detecting students’ erroneous mental models in programming education. Universal Access in the Information Society, 25:51.
Gallego-Durán, F.J., Compañ-Rosique, P., Villagrá-Arnedo, C.J., et al. (2023). Decoding Student Error in Programming: An Iterative Approach to Understanding Mental Models. In: Zaphiris P, Ioannou A (eds) Learning and Collaboration Technologies, vol 14040. Springer Nature Switzerland, Cham, p 256–273.
Gallego-Durán, F.J., Compañ-Rosique, P., Villagrá-Arnedo, C. (2024). ¿puede gpt4 identificar modelos mentales erróneos? In: Actas de las JENUI - Vol. 9 (2024), La Coruña, pp 25–34.

メニュー