Dlaczego wskaźnik skuteczności odzyskiwania modeli dużych jest ważny

Tuesday, October 14, 2025

Categories:

Ogólne

Przeczytałem kilka systemowych promptów, które były w zasadzie bardzo rozwlekłe i niezgrabne w wyrażaniu. Niektóre z tych promptów głównie uczyły model wykonywania zadań.

Zauważyłem również, że w roo code istnieje przełącznik powtarzania systemowego promptu do modelu, co sugeruje możliwość wzmocnienia ustawienia roli i przestrzegania instrukcji. Jednak zwiększa to zużycie tokenów.

Być może ważne rzeczy wymagają wielokrotnego powtarzania, aby zwiększyć wagę podczas obliczeń i zwiększyć prawdopodobieństwo potwierdzenia, co ostatecznie prowadzi do bardziej prawdopodobnych poprawnych wyników. Niestety, takie wyniki nadal są poprawne jedynie w sposób probabilistyczny.

Osoby długotrwale korzystające z modelu Claude i gpt5high mogą zauważyć, że pomimo swojej powolności gpt5high ma bardzo wysoki wskaźnik poprawności.

Czy to może być związane z 100% skutecznością odzyskiwania przez gpt5?

Podczas używania AGENTS.md do kierowania pracą gpt5 zauważyłem, że wystarczy bardzo zwięzłe i klarowne wypowiedzenie, aby móc kierować pracą codex cli. Natomiast używając Claude code, często trzeba pisać CLAUDE.md w bardzo “rozwlekły” sposób, i mimo tego Claude nadal pomija niektóre wyraźne wymagania. Poprawienie tego niekoniecznie wymaga wielokrotnego powtarzania tego samego żądania - użycie różnych słów, takich jak “musi”, “ważne”, użycie nawiasów, pogrubienia markdown (**), wszystko to może wzmocnić przestrzeganie.

Innymi słowy, podczas współpracy z modelem Claude wymagania dotyczące promptu są wyższe, a subtelne zmiany słownictwa mogą wpływać na wydajność modelu. Natomiast podczas używania gpt5 wymagania dotyczące promptu są niższe, wystarczy zwięzłe wyrażenie, które nie ma logicznych sprzeczności, i codex cli może działać bardzo dobrze. Jeśli występują logiczne sprzeczności, gpt5 wskazuje na nie.

Moje zadowolenie z współpracy programistycznej z modelem Claude rośnie coraz bardziej, nie dlatego że wykonuje ona zbyt złą robotę, ale dlatego że po kilku niepowodzeniach trudno mi zaufać temu modelowi. Za każdym razem, gdy Claude się “psuje”, zmienia wiele linii kodu, a nawet bardzo agresywnie zmienia CLAUDE.md. Jak mówi przysłowie: “Im więcej się mówi, tym więcej błędów się popełnia”. Jak zagwarantować brak sprzeczności w długim systemowym promptcie? Praca kontrolna jest naprawdę duża, a obciążenie poznawcze również.

W porównaniu z tym, gpt5high似乎 wydaje się mieć prawdziwą logikę, co może być związane z jego wysoką skutecznością odzyskiwania.