大規模モデルのリコール率指標が重要な理由
Categories:
システムプロンプトをいくつか読みましたが、基本的にどれも冗長で、表現が洗練されていませんでした。いくつかのプロンプトは主にモデルに作業方法を教えることに焦点を当てています。
また、roo code にはシステムプロンプトをモデルに繰り返し送信するスイッチがあるのを見かけました。これはロール設定と命令遵守を強化できることを示していますが、トークン消費量が増加します。
重要なことは何度も繰り返す必要があり、計算時の重みを高め、確認される確率を上げ、最終的により正しい結果を得られる可能性が高くなるのかもしれません。残念なのは、それでも結果は確率的に正しいに過ぎないことです。
Claude モデルと gpt5high を長期間使用した人なら感触があるかもしれませんが、gpt5high は非常に遅いものの、正答率が非常に高いです。
これは gpt5 のリコール率が 100% に達することに関係している可能性があります。
AGENTS.md を使用して gpt5 に作業を指示する際に気づいたのは、非常に簡潔で洗練された言葉だけで codex cli に作業をさせることができたということです。 一方、claude code を使用する際には、CLAUDE.md を非常に「くどく」書く必要があり、それでも claude は明確に求められた注意事項を無視することもよくありました。改善方法も必ずしも要求を繰り返すことではなく、「必ず」や「重要」などの異なる語彙を使用したり、括弧やマークダウンの太字(**)を使用することで、遵守性を強化することができます。
つまり、claude モデルを使用する際には、プロンプトの要求が高くなり、微妙な語彙の変化でもモデルのパフォーマンスに影響を与えるということです。 一方、gpt5 を使用する際には、プロンプトの要求はそれほど高くなく、論理的矛盾がない簡潔な表現だけで、codex cli は優れた結果を出すことができます。論理的矛盾がある場合、gpt5 はそれを指摘します。
私は現在、claude モデルとの共同開発に対してますます不満を感じています。作業がひどいからではなく、何度か裏切られてから信頼できなくなったからです。claude が暴走するたびに大量のコードを変更し、CLAUDE.md の修正も非常に過激です。所謂「言多必失」です。非常に長いシステムプロンプトが前後矛盾しないことをどうやって保証できるでしょうか。検証作業量は本当に多く、精神的負担も大きすぎます。
それに対して、gpt5high には真の論理があるように思えます。これはおそらくその高いリコール率に関係しているのでしょう。