GLM-5.2 od Z.AI: otwarty model z kontekstem 1M rzuca wyzwanie Opusowi i GPT-5.5
Z.AI pokazało GLM-5.2, otwarty model z kontekstem 1M, mocnymi wynikami w kodowaniu agentowym i ceną API, która może zainteresować zespoły budujące własnych agentów.

GLM-5.2 to jedno z tych wydań, które warto obserwować nie tylko przez pryzmat pojedynczego wyniku w benchmarku. Z.AI wypuściło model otwartych wag, który łączy bardzo długi kontekst, mocny nacisk na zadania agentowe i wyniki porównywane bezpośrednio z Claude Opus 4.8 oraz GPT-5.5.
Najkrócej: GLM-5.2 nie kasuje całej konkurencji. W wielu testach nadal przegrywa z najmocniejszymi modelami zamkniętymi. Ale jego znaczenie polega gdzie indziej. To model, który próbuje wejść w przestrzeń dotąd zarezerwowaną dla najdroższych systemów: długie zadania programistyczne, praca z narzędziami, analiza dużych repozytoriów i utrzymywanie kontekstu przez wiele kroków.
GLM-5.2 w skrócie
- model Z.AI z otwartymi wagami,
- około 753 miliardy parametrów,
- kontekst do 1 miliona tokenów,
- maksymalnie 128 tysięcy tokenów odpowiedzi,
- nacisk na kodowanie agentowe, długie zadania i użycie narzędzi,
- wsparcie dla wywoływania funkcji, ustrukturyzowanego outputu i MCP,
- wariant FP8 dostępny publicznie na licencji MIT,
- API z cennikiem 1,40 USD za milion tokenów wejściowych i 4,40 USD za milion tokenów wyjściowych.
Dlaczego o GLM-5.2 zrobiło się głośno
W ostatnich miesiącach rynek modeli AI mocno przesuwa się z prostego pytania „który chatbot odpowiada najmądrzej?” na pytanie „który system potrafi dowieźć realną pracę?”. GLM-5.2 jest częścią właśnie tej zmiany.
Model nie jest reklamowany wyłącznie jako rozmówca. Z.AI pozycjonuje go jako system do długich zadań: programowania, obsługi narzędzi, pracy z dokumentami, dużymi kontekstami i procesami, które wymagają wielu kroków. To ważne, bo coraz więcej zastosowań AI nie kończy się na jednej odpowiedzi. Agent ma przeczytać kod, znaleźć zależności, zaproponować zmianę, uruchomić narzędzia, ocenić rezultat i poprawić błędy.
Druga rzecz to otwarte wagi. Jeśli model o takiej skali daje się uruchamiać poza jedną zamkniętą platformą, staje się interesujący dla firm, laboratoriów i zespołów infrastrukturalnych. Nie każdy będzie chciał lub mógł hostować GLM-5.2 samodzielnie, ale sama możliwość kontroli nad wdrożeniem zmienia rozmowę o prywatności, kosztach i zależności od dostawcy.
Benchmarki: GLM-5.2 kontra Opus 4.8 i GPT-5.5
Z.AI opublikowało obszerną tabelę wyników, w której GLM-5.2 jest zestawiany między innymi z Claude Opus 4.8, GPT-5.5 i Gemini 3.1 Pro. Poniżej wybraliśmy te benchmarki, które najlepiej pokazują charakter modelu: kodowanie, użycie narzędzi, długie zadania i rozumowanie.
| Benchmark | GLM-5.2 | Claude Opus 4.8 | GPT-5.5 | Co mierzy |
|---|---|---|---|---|
| SWE-bench Pro | 62,1% | 69,2% | 58,6% | naprawianie realnych problemów w kodzie |
| DeepSWE | 46,2% | 58,0% | 70,0% | głębsze zadania software engineering |
| Terminal-Bench 2.1 | 81,0% | 85,0% | 84,0% | praca w terminalu i środowisku narzędziowym |
| FrontierSWE | 74,4% | 75,1% | 72,6% | trudniejsze zadania inżynieryjne |
| MCP-Atlas | 76,8% | 77,8% | 75,3% | korzystanie z narzędzi przez MCP |
| Tool-Decathlon | 48,2% | 59,9% | 55,6% | wieloetapowe użycie narzędzi |
| Humanity's Last Exam | 40,5% | 49,8% | 41,4% | szerokie rozumowanie bez narzędzi |
| AIME 2025 | 99,2% | 95,7% | 98,3% | zadania matematyczne |
Pierwszy wniosek jest prosty: GLM-5.2 nie jest modelem, który w każdej rubryce bije Opusa i GPT-5.5. Claude Opus 4.8 pozostaje bardzo mocny w trudnych zadaniach programistycznych i użyciu narzędzi, a GPT-5.5 wyraźnie prowadzi w DeepSWE.
Drugi wniosek jest ciekawszy: GLM-5.2 jest już wystarczająco blisko topowych modeli, żeby traktować go poważnie w testach zespołowych. W SWE-bench Pro wypada lepiej od GPT-5.5 według danych Z.AI. W FrontierSWE jest minimalnie za Opusem i przed GPT-5.5. W MCP-Atlas mieści się w bardzo ciasnej grupie. W AIME 2025 osiąga wynik wyższy niż oba porównywane modele.
To nie jest dowód, że GLM-5.2 będzie lepszym wyborem w każdym projekcie. To sygnał, że otwarte modele przestają być wyłącznie tańszą alternatywą do prostych zadań.
Jak czytać te liczby bez zachwytu na skróty
Benchmarki modeli AI są przydatne, ale potrafią oszukiwać, gdy czyta się je zbyt szybko. Po pierwsze, wyniki pochodzą z materiałów producenta. To nie znaczy, że należy je odrzucić, ale warto traktować je jako punkt startowy do własnych testów, a nie gotowy werdykt.
Po drugie, wiele testów agentowych mierzy nie tylko sam model, lecz także cały system: sposób podania kontekstu, narzędzia, pętlę pracy, limity czasu, harness testowy i instrukcje systemowe. Dwa modele mogą mieć podobną „inteligencję”, ale różnić się skutecznością, gdy jeden ma lepiej przygotowane środowisko pracy.
Po trzecie, wynik w tabeli nie odpowiada jeszcze na najważniejsze pytanie biznesowe: ile kosztuje ukończenie zadania i jak często człowiek musi poprawiać rezultat. Przy agentach programistycznych lepszą metryką bywa koszt jednej zaakceptowanej zmiany w repozytorium, a nie cena miliona tokenów albo procent w jednym benchmarku.
1M kontekstu brzmi imponująco, ale nie zastępuje selekcji
GLM-5.2 obsługuje kontekst do 1 miliona tokenów. To bardzo dużo. W praktyce oznacza możliwość pracy z dokumentacją, fragmentami dużego repozytorium, logami, historią narzędzi i dłuższym planem wykonania bez natychmiastowego gubienia wcześniejszych informacji.
Tylko że długi kontekst nie jest magicznym dyskiem pamięci. Model nadal musi umieć odnaleźć właściwe fragmenty, nie pomylić starej informacji z aktualną i nie zapchać sobie uwagi nieistotnym tekstem. W realnych wdrożeniach największą wartość daje połączenie długiego kontekstu z porządnym wyborem plików, streszczaniem historii i kontrolą tego, co trafia do kolejnej iteracji.
Z.AI podaje, że w GLM-5.2 zastosowano rozwiązania mające poprawić pracę na długim kontekście, między innymi ulepszenia w uwadze i mechanizmy zwiększające efektywność inferencji. To ważne, bo przy milionie tokenów problemem nie jest już tylko jakość odpowiedzi. Problemem staje się koszt, opóźnienie i stabilność całego procesu.
Architektura i wydajność: duży model, nie laptopowa zabawka
GLM-5.2 ma około 753 miliardy parametrów. To skala, która od razu ustawia oczekiwania. Mimo publicznie dostępnego wariantu FP8 nie jest to model, który przeciętny użytkownik odpali wygodnie na zwykłym laptopie obok przeglądarki i edytora tekstu.
Otwarty wariant jest raczej materiałem dla:
- zespołów budujących własną infrastrukturę inferencyjną,
- firm chcących testować model na prywatnych danych,
- dostawców chmurowych i platform AI,
- laboratoriów porównujących modele frontierowe z otwartymi,
- zespołów agentowych, które chcą kontrolować narzędzia, logi i środowisko wykonania.
To ważne rozróżnienie. „Open weights” nie oznacza automatycznie „łatwe do uruchomienia lokalnie”. W praktyce dostępność wag daje wolność integracji i badań, ale nie usuwa kosztów sprzętu, optymalizacji, monitoringu i bezpieczeństwa.
Tool calling, MCP i agenci: tutaj GLM-5.2 robi się najciekawszy
Najbardziej interesująca część GLM-5.2 nie leży w zwykłym czacie. Leży w pracy z narzędziami. Model wspiera wywoływanie funkcji, ustrukturyzowane odpowiedzi, integracje z MCP oraz kontekst wystarczająco długi, by agent nie tracił natychmiast wątku po kilku krokach.
To otwiera sensowne scenariusze:
-
Agent programistyczny w dużym repozytorium
Model może analizować więcej plików i historii zadania, a nie tylko mały fragment kodu. -
Asystent do audytu technicznego
Długi kontekst pomaga zestawić dokumentację, konfigurację, logi i wyniki testów. -
Workflow badawczy
Model może pracować na obszernych materiałach, wynikach eksperymentów i notatkach z kilku iteracji. -
Systemy firmowe z narzędziami
MCP i function calling mają znaczenie tam, gdzie AI musi korzystać z baz danych, ticketów, plików lub wewnętrznych API.
Przy takich zastosowaniach model musi być traktowany jak część systemu, nie jak samodzielny mózg. Potrzebne są uprawnienia, logowanie działań, sandbox, limity narzędzi i jasne zasady zatwierdzania krytycznych operacji. Ten sam problem opisujemy szerzej w poradniku o tym, jak bezpiecznie podłączyć serwer MCP.
Cena API: GLM-5.2 może być mocnym argumentem kosztowym
Z.AI podaje następujący cennik dla GLM-5.2:
| Rodzaj tokenów | Cena za 1 mln tokenów |
|---|---|
| Wejście bez cache | 1,40 USD |
| Wejście z cache | 0,26 USD |
| Wyjście | 4,40 USD |
Na papierze to atrakcyjna cena jak na model porównywany z najmocniejszymi systemami zamkniętymi. Szczególnie ważny jest cache, bo zadania agentowe często powtarzają ten sam prefiks: instrukcje, opis repozytorium, dokumentację i historię wcześniejszych kroków.
Nie oznacza to jednak, że każde użycie będzie tanie. Model z długim kontekstem i dużym limitem outputu może wygenerować sporo tokenów, zwłaszcza gdy pracuje w pętli narzędziowej. W praktyce trzeba mierzyć nie tylko koszt pojedynczego wywołania, ale koszt całego zakończonego zadania.
GLM-5.2 a Claude Opus 4.8 i GPT-5.5: gdzie jest realna różnica
Porównanie z Opusem i GPT-5.5 nie powinno sprowadzać się do pytania „który jest najmądrzejszy?”. Bardziej praktyczne pytania brzmią:
- Czy potrzebujesz otwartych wag?
- Czy ważniejsza jest najwyższa skuteczność, czy kontrola nad wdrożeniem?
- Czy zadania są krótkie, czy wieloetapowe?
- Czy model ma pracować z narzędziami i repozytorium?
- Czy możesz zbudować własny harness testowy?
- Czy koszt miliona iteracji ma większe znaczenie niż pojedynczy wynik benchmarku?
Claude Opus 4.8 nadal wygląda jak bardzo mocny wybór dla zespołów, które chcą gotowego, dojrzałego środowiska agentowego. GPT-5.5, według tabeli Z.AI, pozostaje szczególnie silny w DeepSWE i kilku testach narzędziowych. GLM-5.2 jest natomiast interesujący tam, gdzie liczą się otwarte wagi, koszt, długi kontekst i możliwość budowania własnej warstwy produktu nad modelem.
Dla kogo GLM-5.2 ma najwięcej sensu
Najbardziej naturalni odbiorcy GLM-5.2 to niekoniecznie użytkownicy, którzy chcą po prostu lepszego chatbota. To raczej zespoły, które chcą mieć większą kontrolę nad modelem i sposobem jego użycia.
GLM-5.2 warto rozważyć, jeśli:
- budujesz własnego agenta do kodowania lub analizy repozytorium,
- masz dużą liczbę podobnych zadań i liczysz koszt w skali,
- potrzebujesz bardzo długiego kontekstu,
- chcesz testować model na własnych danych i własnym benchmarku,
- zależy Ci na otwartych wagach,
- jesteś gotów zadbać o infrastrukturę, bezpieczeństwo i monitoring.
Mniej sensu ma wtedy, gdy potrzebujesz prostego, gotowego narzędzia dla nietechnicznego zespołu. W takim przypadku produktowe otoczenie modelu może być ważniejsze niż sama karta wyników.
Najważniejszy wniosek
GLM-5.2 nie jest kolejną premierą, którą można skwitować tabelą „lepszy/gorszy od GPT”. To model pokazujący, że otwarte systemy coraz śmielej wchodzą w obszar długich, agentowych zadań. Nadal widać przewagę najmocniejszych modeli zamkniętych, ale różnica przestaje być oczywista w każdym zastosowaniu.
Dla czytelnika najważniejsze jest to: GLM-5.2 warto obserwować nie dlatego, że wygrał wszystkie benchmarki, tylko dlatego, że łączy trzy rzeczy, które rzadko występują razem: dużą skalę, otwarte wagi i ambicję pracy w realnych workflowach. Jeśli Z.AI utrzyma tempo, kolejne wydania mogą być jeszcze trudniejszym testem dla zamkniętych liderów rynku.


