LLMs i AI Generatywne

Claude Opus 4.8 już dostępny: agenci AI dostali cichy, ale ważny upgrade

Anthropic wypuścił Claude Opus 4.8. To nie jest pokaz fajerwerków, tylko praktyczny upgrade dla kodowania, agentów i pracy wiedzy: lepsze benchmarki, więcej szczerości, dynamiczne workflow i ta sama cena regularnego trybu.

Autor: TreffikAI Editorial6 min czytania
Miniatura Claude Opus 4.8 z logo inspirowanym Claude i napisem Opus 4.8

Anthropic wypuścił Claude Opus 4.8 i tym razem najciekawsze nie jest to, że model ma wyższe słupki w benchmarkach. Najciekawsze jest to, że firma bardzo wyraźnie przesuwa akcent z "model odpowiada mądrze" na "model da się bezpieczniej zostawić z trudnym zadaniem".

To drobna różnica w opisie, ale ogromna w praktyce. Kiedy AI działa jako agent, pisze kod, używa narzędzi, czyta dokumenty i wraca po kilkudziesięciu minutach z gotowym wynikiem, największym problemem nie jest brak błyskotliwości. Największym problemem jest pewność siebie bez pokrycia.

Opus 4.8 ma być właśnie odpowiedzią na ten ból: lepszy w kodowaniu, stabilniejszy w długich zadaniach, ostrożniejszy w deklarowaniu sukcesu i sprawniejszy w pracy z narzędziami.

Co właściwie wypuścił Anthropic

Claude Opus 4.8 jest następcą Opusa 4.7 i od razu trafia do użycia w Claude, Claude Code, API oraz głównych platformach chmurowych. Identyfikator API to claude-opus-4-8.

Najważniejsze punkty premiery:

  • Cena regularnego trybu zostaje bez zmian: 5 USD za milion tokenów wejściowych i 25 USD za milion tokenów wyjściowych.
  • Fast mode działa około 2,5 razy szybciej, a według Anthropic jest trzykrotnie tańszy niż szybki tryb w poprzednich modelach. Dla Opusa 4.8 kosztuje 10 USD za milion tokenów wejściowych i 50 USD za milion tokenów wyjściowych.
  • Claude Code dostaje dynamic workflows w research preview, czyli możliwość planowania pracy i uruchamiania setek równoległych subagentów w jednej sesji.
  • Claude.ai i Cowork dostają kontrolę effortu, więc użytkownik może wybrać, ile "myślenia" Claude ma włożyć w odpowiedź.
  • Messages API przyjmuje teraz wpisy system wewnątrz tablicy messages, co pozwala zmieniać instrukcje agenta w trakcie zadania bez rozbijania prompt cache i bez udawania kolejnej wiadomości użytkownika.

Brzmi technicznie, bo to techniczna premiera. Nie ma tutaj jednego efektownego demo. Jest za to kilka zmian, które mają znaczenie, jeśli budujesz coś produkcyjnego.

Benchmarki: Opus 4.8 rośnie tam, gdzie agent ma dowozić

Anthropic pokazuje Opusa 4.8 obok Opusa 4.7, GPT-5.5 i Gemini 3.1 Pro w zadaniach kodowania, używania komputera, rozumowania i pracy wiedzy.

Tabela benchmarków Claude Opus 4.8 względem Opus 4.7, GPT-5.5 i Gemini 3.1 Pro

(Źródło obrazu: Anthropic.)

Najkrótsza interpretacja: Opus 4.8 wyraźnie poprawia się względem 4.7 i bardzo często prowadzi tam, gdzie zadanie przypomina realną pracę agenta, a nie pojedyncze pytanie do chatbota.

Kilka liczb, które warto zapamiętać:

  • SWE-Bench Pro: 69,2% dla Opusa 4.8 wobec 64,3% dla Opusa 4.7, 58,6% dla GPT-5.5 i 54,2% dla Gemini 3.1 Pro.
  • Terminal-Bench 2.1: Opus 4.8 robi duży skok z 66,1% do 74,6%, ale w pokazanej tabeli GPT-5.5 ma 78,2%. W przypisie Anthropic dodaje też, że GPT-5.5 z harness Codex CLI ma raportowane 83,4%, więc tutaj lepiej nie udawać, że temat jest prosty.
  • Humanity's Last Exam: Opus 4.8 prowadzi zarówno bez narzędzi, jak i z narzędziami: 49,8% oraz 57,9%.
  • OSWorld-Verified: 83,4% dla Opusa 4.8, czyli niewielki, ale istotny skok nad Opusem 4.7.
  • GDPval-AA: 1890 punktów, przed GPT-5.5 i wyraźnie przed Gemini 3.1 Pro.
  • Finance Agent v2: 53,9%, czyli najwyższy wynik w tabeli, choć przewaga nad GPT-5.5 nie jest ogromna.

To nie jest obraz modelu, który miażdży wszystko w każdej kategorii. To raczej obraz modelu, który stał się bardziej równy. A w agentach równość bywa ważniejsza niż pojedynczy rekord.

Najważniejsza poprawa: model lepiej wie, kiedy nie wie

Najbardziej praktyczna część ogłoszenia dotyczy szczerości modelu. Anthropic twierdzi, że Opus 4.8 jest około cztery razy mniej skłonny niż poprzednik do przepuszczania niezauważonych błędów we własnym kodzie.

To brzmi mniej efektownie niż "nowy rekord w benchmarku", ale dla zespołów programistycznych jest znacznie ciekawsze. Agent, który popełnia błąd i mówi "tu coś nie gra", jest dużo łatwiejszy do opanowania niż agent, który z uśmiechem oddaje pull request pełen cichych założeń.

To samo dotyczy pracy analitycznej. Wczesne opinie, które cytuje Anthropic, powtarzają jeden motyw: Opus 4.8 częściej sygnalizuje niepewność, zwraca uwagę na słabe dane wejściowe i nie dopisuje sobie zwycięstwa tam, gdzie dowody są zbyt cienkie.

Właśnie tego brakowało w wielu "autonomicznych" workflow. Nie większej pewności siebie. Lepszej samokontroli.

Dynamic workflows: Claude Code zaczyna przypominać orkiestratora

Największą nowością platformową są dynamic workflows w Claude Code. W research preview Claude może zaplanować większe zadanie, uruchomić wiele subagentów równolegle, zweryfikować ich wyniki i dopiero potem wrócić do użytkownika z podsumowaniem.

Anthropic podaje przykład migracji dużej bazy kodu, obejmującej setki tysięcy linii, od startu do merge'a, z istniejącym zestawem testów jako kryterium jakości.

To brzmi jak dokładnie ten kierunek, w którym idą narzędzia dla programistów: nie "napisz mi funkcję", tylko "przeprowadź zmianę przez cały system i pokaż, co sprawdziłeś".

Na razie to preview, więc nie traktowałbym tego jak gotowej obietnicy dla każdej firmy. Ale kierunek jest jasny. Kodowanie z AI coraz mniej przypomina rozmowę z jednym modelem, a coraz bardziej zarządzanie małym zespołem agentów z limitem kosztów, testami i prawami dostępu.

Effort, koszty i realne użycie

Opus 4.8 domyślnie działa na wysokim effortcie. Anthropic uznaje to za najlepszy kompromis między jakością i doświadczeniem użytkownika. Na trudniejsze zadania można wybrać "extra" albo xhigh w Claude Code, a także "max".

To jest zdrowy ruch, bo użytkownicy wreszcie dostają suwak między szybkością, jakością i zużyciem limitów. Tylko warto pamiętać o jednej rzeczy: większy effort to zwykle więcej tokenów. Nawet jeśli cena bazowa się nie zmieniła, prawdziwy koszt zależy od tego, jak często pozwalasz modelowi myśleć dłużej.

W praktyce:

  • Do szybkich odpowiedzi i prostych poprawek nie ma sensu odpalać maksymalnego effortu.
  • Do migracji, review, wieloetapowej analizy i pracy asynchronicznej warto rozważyć xhigh.
  • Fast mode może być świetny do interaktywnych zadań, ale jest droższy od regularnego trybu.
  • Przy agentach produkcyjnych trzeba mierzyć koszt na zadanie, a nie tylko cenę za milion tokenów.

Dla kogo Opus 4.8 ma największy sens

Najmocniej skorzystają trzy grupy.

Pierwsza to zespoły software'owe, które używają Claude Code albo własnych agentów do pracy na dużych repozytoriach. Tu liczy się nie tylko jakość kodu, ale też planowanie, użycie narzędzi, testowanie i umiejętność zatrzymania się przed złym ruchem.

Druga to firmy budujące agentów dla pracy dokumentowej: prawo, finanse, analizy, raporty, research, slajdy. Benchmarki GDPval-AA i Finance Agent v2 sugerują, że Opus 4.8 jest mocny właśnie w zadaniach, gdzie odpowiedź musi być użyteczna biznesowo, a nie tylko elokwentna.

Trzecia to twórcy workflow, w których model musi utrzymać styl, kontekst i jakość przez dłuższą sesję. Jeśli AI ma przez godzinę pracować na tym samym projekcie, "nie zgub się po drodze" jest funkcją premium.

Co nadal warto traktować ostrożnie

Po pierwsze, benchmarki są potrzebne, ale nie są produkcją. Twoje repo, dane, testy i prompt są ważniejsze niż tabela z premiery.

Po drugie, część różnic jest mała. W OSWorld-Verified Opus 4.8 jest przed Opusem 4.7, ale nie o przepaść. W Finance Agent v2 przewaga nad GPT-5.5 też jest skromna.

Po trzecie, dynamic workflows brzmią potężnie, ale właśnie dlatego wymagają dobrych ograniczeń: sandboxów, uprawnień, budżetów, testów i logów. Agent, który może uruchomić setki subagentów, potrzebuje dorosłej infrastruktury wokół siebie.

Podsumowanie

Claude Opus 4.8 nie wygląda jak rewolucja z fanfarami. I bardzo dobrze. To bardziej dojrzała premiera: mniej o tym, że model potrafi błysnąć w pojedynczym zadaniu, więcej o tym, że można mu powierzyć dłuższą pracę i dostać wynik z mniejszą liczbą cichych niespodzianek.

Dla zwykłego użytkownika to będzie po prostu lepszy Claude. Dla zespołów budujących agentów to ważniejsza wiadomość: frontier model zaczyna zachowywać się bardziej jak współpracownik, który potrafi powiedzieć "sprawdźmy to jeszcze raz", zanim narobi bałaganu.

Źródła: oficjalne ogłoszenie Anthropic, strona modelu Claude Opus.

Tagi:#anthropic#claude#opus-4-8#agenci-ai#kodowanie
Udostępnij: