汎化ギャップを探るためのセマンティック・ラウンドトリップ・ベンチマーク

1. 緒言

現代の言語モデル（LLM）研究の最前線は、マルチステップ推論や自己修正といった反復的なプロセスを通じて高度な能力を達成することに焦点を当てている。しかし、これらのプロセスの信頼性、特に資源が限られた環境における小規模言語モデル（SLM）の信頼性は、十分に検証されていない。モデルの出力におけるわずかな揺らぎが、連続する反復によって増幅され、破滅的な失敗につながる可能性がある。このようなプロセス全体を通じて論理的な一貫性を維持するモデルの能力を評価することは、重要な未解決の課題である。

この課題に取り組むため、我々は**「セマンティック・ラウンドトリップ」という新たなベンチマーク手法を導入する。これは、モデルが繰り返しの変換を通じて意味を保持する能力を測定するために設計されたものであり、我々はこの中心的な特性を「反復安定性（Iterative Stability）」**と名付けた。このベンチマークの有用性を実証し、研究コミュニティに価値あるリソースを提供するため、我々は24種類のSLMに多様なタスクを適用する大規模な研究を実施した。

本研究の主要な貢献は以下の通りである：

コード関連タスクにおける言語モデルの反復安定性を測定するための、新たなベンチマーク手法「セマンティック・ラウンドトリップ」。
反復的なストレス下でのモデルの挙動に関する詳細なサイクルごとの洞察を提供する、7,000件以上の実験試行ログからなる公開データセット。

我々のデータセット分析は、重要な発見を明らかにした：fizzbuzzのような既知のタスクと、論理的に同等な新規タスクとの間で、モデルの性能に劇的なギャップが存在する。このことは、標準的なベンチマークでの高い性能が必ずしも真の汎化能力を示すとは限らない可能性を示唆しており、より深いモデルの挙動を明らかにする上での我々のベンチマークの価値を浮き彫りにしている。

本稿では、我々のベンチマーク手法、その結果得られたデータセット、そしてそれらの有用性を示す主要な発見について詳述する。すべての実験リソース（コード、プロンプト、生データを含む）は、以下のリポジトリで公開されている：https://github.com/aikenkyu001/semantic_roundtrip_benchmark

2. 関連研究

LLMのコード生成能力の評価は活発な研究分野であり、HumanEval [1]やMBPP [2]のような標準的なベンチマークは、単一パスでの機能的正しさを評価する上で大きな貢献をしてきた。我々の研究は、反復プロセスに焦点を当てている点で、Self-Refine [3]のような手法とも関連がある。近年の研究では、既知の問題と新規の問題との間の性能ギャップを探るものもあるが（例: arXiv:2503.02296）、それらは通常、ワンショットの正解率に焦点を当てている。我々の研究は、単一パスの正しさに焦点を当てるのではなく、反復プロセスにおける持続的な信頼性に焦点を当てる点で、根本的に異なっている。近年の研究（例: 2503.02296, 2407.14985）がコード書き換えなどの手法を用いて単一パス生成における記憶を調査しているのに対し、我々の反復的なラウンドトリップ・ベンチマークは、記憶されたパターンが複数サイクルにわたってどのように破滅的に崩壊するかを明らかにし、汎化の脆弱性に対するより感度の高いプローブを提供する点で独自性を持つ。記憶への依存が、複数サイクルにわたる「破滅的な失敗の連鎖」としてどのように現れるかを観測することは、モデルの汎化能力の脆弱性に対する、より深い洞察を与えると我々は主張する。この「反復安定性」という概念は、Espejelら[8]が指摘する信頼性の揺らぎや、Raviら[7]が報告する反復的生成における品質劣化のリスクと密接に関連している。

我々の発見はまた、LLMの基礎的な推論能力に関する研究[5, 6]とも共鳴する。Berglundら[5]によって特定された「反転の呪い」は、LLMが双方向の論理関係を学習できず、表面的なパターンに依存することを示唆しており、我々が観測した記憶への依存の根底にあるメカニズムを説明しうる。さらに、Schaefferら[6]は、LLMの「創発的能力」が非線形な評価指標によって生み出された幻影である可能性を論じており、これは標準的なベンチマークが体系的にモデルの性能を過大評価している可能性があるという我々の懸念と一致する。

3. 手法：セマンティック・ラウンドトリップ・ベンチマーク

3.1. 「反復安定性」の操作的定義

本研究では、「反復安定性」を「初期状態C0C0から開始されるコード↔仕様の反復変換プロセス Ci+1=f(g(Ci))Ci+1=f(g(Ci)) において、意味論的・構文的に有効な状態を維持し続けられる能力」と操作的に定義する。ここで、 $g$ gはコードから仕様への変換、ƒは仕様からコードへの変換を行うモデルの関数である。この安定性は、Nサイクルの反復後にタスクを完遂できた成功率によって測定される。

3.2. ベンチマーク設計

この反復安定性を測定するため、以下の2ステップからなるサイクルをN=10回反復するベンチマークを設計した。

コード → 仕様 (関数g): Python関数を抽象的な仕様に変換する。
仕様 → コード (関数f): 生成された仕様を基にPython関数を再生成する。

各ステップの出力が意味的・機能的に等価であるかを検証し、サイクルが途中で失敗することなく完走できたかを評価する。具体的には、各ステップで生成されたコードの機能的な正しさは、事前に定義されたユニットテストスイートを実行することで検証する。成功率は、全Nサイクルを失敗せずに完了した試行の割合として算出される。N=10というサイクル数は、不安定性を十分に露呈させつつ、計算的に実行可能な範囲であるため選択された。N=5およびN=15での予備的な検証でも、質的に同様の傾向が確認されている。

3.3. テストケースの設計思想

本研究では、モデルの異なる側面を評価するため、意図的に性質の異なる3つのタスクを設計した。

get_magic_number: return 42という極めて単純な関数。モデルの基礎的な反復安定性を測定する「足切り」テスト。
fizzbuzz: プログラミングの古典的な課題。訓練データに頻出すると想定され、モデルの記憶想起能力を測る指標となる。
separate_vowels_and_consonants: fizzbuzzと同程度の論理的複雑性を持ちつつ、新規性が高い課題。モデルの未知の問題に対する汎化・推論能力を測る指標となる。

4. セマンティック・ラウンドトリップ・データセット

本研究の主要な貢献の一つは、我々の実験から生成された大規模なデータセットである。我々はこのデータセットを、反復安定性、汎化、および言語モデルの挙動の他の側面に関するさらなる研究を促進するために公開する。

4.1. データセットの構造と内容

データセットは、24種類のSLMで実施された実験から得られた7,000件以上の個別の試行ログで構成されている。各試行は、完全な10サイクルのセマンティック・ラウンドトリップ・テストを表す。

構成: データは階層的に整理されている。各実験実行では、テストパラメータをエンコードした名前を持つ親ディレクトリ（例: adaptive_composite_n30_separate_vowels_and_consonants_20260101_160101）が作成される。その内部には、各試行の特定のモデル、言語、実行番号を記録したサブディレクトリが配置される。
豊富なロギング (result.json): データセットの中核は、各試行ディレクトリ内のresult.jsonファイルである。このファイルには、以下を含む詳細なサイクルごとのログが含まれている：
- 最終ステータス（SUCCESSまたはFAIL）と完了したサイクル数。
- 各変換（コード→仕様および仕様→コード）のためにモデルに送信された完全なプロンプト。
- モデルからの生の、逐語的な出力。
- 次のステップのために使用された、クリーンアップおよび解析された出力。
- 各コード生成ステップでの機能検証の結果。

4.2. アクセスと有用性

完全なデータセットは、プロジェクトのリポジトリで入手可能である。その詳細で透明なロギングにより、本稿で提示された分析を超えて、細粒度のエラー分析、意味ドリフトの研究、モデル固有の失敗モードの調査など、広範な潜在的研究課題にとって価値あるリソースとなっている。データセットはZenodoにアーカイブされており、DOI: 10.5281/zenodo.18181174 を使用して引用できます。

5. 実験と結果

我々のベンチマークとデータセットの有用性を実証するため、反復安定性と汎化に関する主要な問いに答えるべく設計された一連の実験を実施した。

5.1. 基礎安定性と後処理効果の検証

get_magic_numberタスクを用いた実験で、まず「構文的寛容な後処理」の効果を検証した。小規模な主実験(n=36)では、llama2:7bが厳格テストで0%→寛容テストで19.4%と性能向上を見せたが、試行回数を360に増やした大規模実験では、両テスト間の成功率に統計的に有意な差は観測されなかった（20.3% vs 20.8%）。この結果は、反復タスクにおける失敗の主要因が、後処理で吸収可能な構文の揺らぎではないことを強く示唆している。

5.2. 課題の複雑性と性能の関係

次に、fizzbuzzタスクを用いて、課題の複雑性の影響を調査した。驚くべきことに、gemma3:4bとfalcon3:3bは、より複雑なfizzbuzzタスクにおいて、単純なget_magic_numberタスクを上回る成功率を示した（例: gemma3:4bで56.7%→83.9%）。この直感に反する結果は、タスクの論理的複雑性とは別の要因がモデルの性能を支配している可能性を示唆し、我々を次の実験へと導いた。

5.3. 課題の新規性と汎化能力の評価

上記の結果がタスクの「既知性」に起因するという仮説を検証するため、新規タスクseparate_vowels_and_consonantsを用いて、fizzbuzzとの性能を比較した。結果は図1に示す通り、決定的であった。

テストした全てのモデルで、新規タスクに対する性能は劇的に低下した。特にfalcon3:3bは61.7%から0%へと下落した。この結果は、fizzbuzzでの高い成功率が、モデルの汎用的な問題解決能力ではなく、訓練データからの記憶の想起に強く依存していたという我々の仮説を強力に裏付けるものである。この性能低下がどのように進行するかは、図2の性能劣化曲線（Degradation Curve）にさらに明確に示されている。この図は、既知タスクでは安定性が維持される一方、新規タスクでは反復を経るごとに安定性が損なわれていく様子を描写している。これらの曲線は、モデルが失敗したか否かだけでなく、どのように失敗に至るかを明らかにし、単一パス評価では捉えきれない意味論的ドリフトの時間的ダイナミクスを暴き出す。

IterativeStabilityDegradationCurves ダウンロード

5.4. 大規模モデルとの比較

観測された性能低下がSLMに固有のものかを調査するため、より大規模なモデルである llama3:8b で同様の実験を行った。結果は驚くべきものであった。新規タスク separate_vowels_and_consonants では、SLMで見られた性能の崩壊と同様に、英語と日本語の両方で成功率が0%となった。

さらに驚くべきことに、このモデルは反復設定において「既知」の fizzbuzz タスクでも苦戦した。日本語プロンプトでは46.7%の成功率を達成したものの、英語プロンプトでは性能が0%であった。この結果は、モデルが単一パスではこのタスクを完璧に解けるため、特に衝撃的である。失敗は反復プロセスにおいてのみ顕在化し、問題が能力不足ではなく、意味論的ドリフトによる安定性の崩壊であることを浮き彫りにしている。この発見は、我々のベンチマークが標準的な単一パス評価とは異なる、より脆弱な能力をテストしていること、そしてモデルサイズを大きくしても反復安定性が自動的に向上するわけではないことを裏付けている。

6. 考察

6.1. 反復安定性の欠如はどこから来るのか

我々の実験は、SLMの信頼性を損なう根源的な問題が「反復安定性」の欠如にあることを示唆している。この不安定性は、Transformerアーキテクチャにおけるアテンション機構の性質に起因する可能性がある。反復の各サイクルで生じる僅かな表現の差異が、後続の層やサイクルで増幅され、最終的に意味論的なドリフトを引き起こす、一種の「誤差の累積」が発生していると推察される。この複合エラー（compounding error）は、モデルが自身の（時に不完全な）過去の出力に自己条件付けする逐次生成タスクにおいて既知のリスクであり、多数の反復にわたってアテンション機構により増幅されうる「表現ドリフト」を引き起こす可能性がある。

新規タスクにおける失敗モードは、この仮説を裏付ける具体的な証拠を提供する。gemma3:4bが新規タスクの4サイクル目で戻り値の型を誤ったのは、この現象の典型例である。このときモデルは、母音と子音を正しく分離しながらも、仕様に反して2つの文字列を結合して単一の文字列として返し、テストの機能要件を破壊した。他の典型的な失敗には、仕様で要求されていない機能（例: 母音判定を大文字小文字を区別しないようにする）を自発的に追加する、ループの境界条件を誤解してオフバイワンエラーを引き起こす、あるいは、機能的には正しいが非標準的な表現に陥り、次のサイクルでそれが誤って解釈される、といったものが含まれる。

表1: 新規タスクにおける主な失敗モード

カテゴリ	典型サイクル	説明 & コード例
意味論的ドリフト	4サイクル以降	ロジックは正しいが出力形式を誤る。 `return vowels, consonants` → `return vowels + consonants`
自発的な機能追加	3-5サイクル	仕様にない機能を追加し、次サイクルの解釈を破壊する。 `if char in 'aeiou'` → `if char.lower() in 'aeiou'`
境界条件エラー	2-4サイクル	ループやスライスにおけるオフバイワンエラー。 `for i in range(len(s))` → `for i in range(len(s)-1)`

6.2. ベンチマークにおける記憶と推論のジレンマ

本研究の最も重要な発見は、タスクの新規性がSLMの性能評価に与える劇的な影響である。fizzbuzzのような「既知」の課題で測定された性能は、モデルの真の能力を反映していない可能性がある。これは、機械学習における「内挿（interpolation）」と「外挿（extrapolation）」の問題、あるいは認知科学における「宣言的記憶（事実の記憶）」と「手続き的記憶（スキルの記憶）」の区別に類似している。

現在の多くの標準的なベンチマークは、意図せずしてモデルの「宣言的記憶」に近い能力、すなわち訓練データに含まれるパターンをどれだけ正確に思い出せるかを測定しているのかもしれない。fizzbuzzでの高い成功率は、モデルがその問題を「解いた」のではなく、「覚えていた」だけであることを示唆している。このことは、既存のベンチマークがSLM、ひいてはLLM全体の汎化能力を体系的に過大評価しているという、憂慮すべき可能性を提起する。

llama3:8b から得られた結果は、単純なスケーリング仮説にさらなる疑問を投げかける。より小さなモデルが成功した英語の fizzbuzz タスクで完全に失敗したという事実は、反復安定性がモデルサイズに対して単調に改善するわけではない可能性を示唆している。大規模モデルは、単一ターンの生成能力は高いかもしれないが、より複雑な内部状態を持つため、多数の反復にわたって安定を保つことがより困難である可能性がある。これは、モデル評価における新たな重要な側面を浮き彫りにする。すなわち、ピーク時の能力だけでなく、反復的なストレス下での安定性も評価する必要があるということだ。

6.3. 限界と今後の展望

我々は、今後の研究の道筋を示すいくつかの限界を認識している。第一に、本実験は計算資源の制約からn=30で実施したが、傾向は明確に観測された。n=100での予備実験でも同様のパターンが見られたことから、効果の安定性は示唆されるものの、将来の研究ではより大規模なサンプルで頑健な信頼区間やp値を算出し、正確な効果量を検証することが望まれる。第二に、現在のタスクセットは小規模である。より多様なドメイン（例: 文字列操作、数学的推論）にわたる新規タスクを追加することで、我々の発見の一般性を検証できるだろう。第三に、本実験は決定的（温度0.0）な設定で行われた。温度0.2での予備的な検証では、新規タスクにおいてさらに急速な性能劣化が見られ、確率性が不安定性を助長することを示唆しており、これは将来的に正式に調査すべきである。確率性（すなわち、より高い温度設定）が反復安定性にどう影響するかを調査することで、モデルの信頼性に関するさらなる洞察が得られる可能性がある。

最後に、我々の研究は主にSLMに焦点を当て、中規模モデルとの初期比較を行った。重要な次のステップは、セマンティック・ラウンドトリップ・ベンチマークをより広範なモデルサイズ（例: 8B〜70Bパラメータ）に体系的に適用することである。これにより、この「汎化の幻想」がSLM特有の弱点なのか、それともTransformerアーキテクチャのより根本的な特性なのか、そして、それを克服する能力が予測可能なスケーリング則に従うのかを調査することが可能になる。

7. 結論

本研究の主要な貢献は、「セマンティック・ラウンドトリップ」ベンチマークの導入と、その適用によって生成された包括的なデータセットの公開である。このベンチマークは、モデルの信頼性において重要でありながら未踏であった側面、「反復安定性」を測定するための堅牢な方法論を提供する。7,000件以上の詳細な試行ログを含む我々のデータセットは、コミュニティがさらなる分析を行うための価値あるリソースとして機能する。

我々のデータセットの分析は、重要な発見をもたらした：既知のタスクと新規のタスクとの間における、モデル性能の著しいギャップである。あるモデルでは成功率が60%以上から0%にまで崩壊するというこの結果は、一般的なベンチマークでの高スコアが真の汎化能力を反映しているのではなく、一種の記憶である可能性を示唆している。この発見は、単一パス評価では見逃される、より深く、より脆弱なモデルの挙動の側面を明らかにする上での我々のベンチマークの有用性を浮き彫りにしている。

我々は研究コミュニティに対し、記憶と推論の関係、反復安定性のダイナミクス、そしてより堅牢な言語モデルの開発をさらに調査するために、我々のベンチマークとデータセットを活用することを奨励する。今後の研究は、タスクセットの拡大、より広範なモデルアーキテクチャとサイズへのベンチマークの適用、そして確率性の影響の正式な調査に焦点を当てるべきである。最終的に、真に信頼性の高いAIシステムを構築するには、単に高いベンチマークスコアを追い求めるだけでなく、進捗を測定するために我々が使用するツールそのものを継続的に洗練させていくことが求められる。

8. 参考文献

[1] Chen, M., et al. (2021). “Evaluating Large Language Models Trained on Code” (コードで訓練された大規模言語モデルの評価). arXiv:2107.03374.
[2] Austin, J., et al. (2021). “Program Synthesis with Large Language Models” (大規模言語モデルによるプログラム合成). arXiv:2108.07732.
[3] Madaan, A., et al. (2023). “Self-Refine: Iterative Refinement with Self-Feedback” (Self-Refine: 自己フィードバックによる反復的改良). arXiv:2303.17651.
[4] Wei, J., et al. (2022). “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”. NeurIPS 2022.
[5] Berglund, L., et al. (2023). “The Reversal Curse: LLMs trained on ‘A is B’ fail to learn ‘B is A'”. ICLR 2024.
[6] Schaeffer, R., et al. (2023). “Are Emergent Abilities of Large Language Models a Mirage?”. NeurIPS 2023.
[7] Ravi, R., et al. (2025). “Security Degradation in Iterative AI Code Generation”. arXiv:2506.11022.
[8] Espejel, J., et al. (2025). “Code Generation with Small Language Models: A Deep Evaluation”. arXiv:2504.07343.
[9] Zhu, Y., et al. (2024). “A Systematic Survey of Prompt Engineering in Large Language Models: Techniques and Applications”. arXiv:2402.07927.
[10] Yin, P., et al. (2024). “DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models”. EMNLP 2024.
[11] Yin, P., et al. (2025). “Where Do LLMs Still Struggle? An In-Depth Analysis of Code Generation”. arXiv:2511.04355.
[12] Wang, Y., et al. (2024). “A Comprehensive Survey of Small Language Models in the Era of Large Language Models”. arXiv:2411.03350.
[13] Liu, H., et al. (2025). “Evaluation and Optimization of Small Language Models for Agentic Tasks on Edge Devices”. arXiv:2511.22138.
[14] Zhang, X., et al. (2025). “Revealing the Power of Post-Training for Small Language Models in Edge Deployment”. arXiv:2509.26497.
[15] Kim, S., et al. (2025). “SLM-Bench: A Comprehensive Benchmark of Small Language Models for Efficiency and Impact”. arXiv:2508.15478.
[16] Patel, R., et al. (2025). “Bridging the Digital Divide: Small Language Models as a Pathway to Accessible AI”. arXiv:2506.12403.
[17] Smith, J., et al. (2025). “Small Language Models: Survey, Measurements, and Insights”. arXiv:2409.15790.
[18] Johnson, M., et al. (2025). “An End-to-End Approach to Fine-Tune Small LLMs for Code Generation”. TechRxiv.
[19] Brown, T., et al. (2025). “LLMs and IoT: A Comprehensive Survey on Large Language Models Integration”. TechRxiv.