Kimi K2.7 Code już dostępny. Otwarty model AI celuje w programistów

Moonshot AI wydał Kimi K2.7 Code, otwarty model do długich zadań programistycznych. Analizujemy benchmarki, architekturę, cenę API, licencję i ograniczenia.

Autor: Redakcja TreffikAI14 czerwca 20269 min czytania

Ekran laptopa z otwartym edytorem kodu, ilustrujący model programistyczny Kimi K2.7 Code

Moonshot AI wydał Kimi K2.7 Code, nową wersję otwartego modelu przeznaczonego przede wszystkim do programowania agentowego i długich zadań inżynieryjnych. Wagi modelu pojawiły się 11 czerwca 2026 roku w repozytorium Moonshot AI na Hugging Face, a premiera API rozpoczęła się tego samego dnia czasu amerykańskiego, czyli 12 czerwca w Polsce.

Nazwa wymaga doprecyzowania. Nie jest to uniwersalny „Kimi 2.7”, który ma zastąpić wszystkie wcześniejsze modele firmy. Oficjalna nazwa brzmi Kimi K2.7 Code i dobrze opisuje priorytet projektu: model ma kończyć wieloetapowe zadania programistyczne, korzystać z narzędzi i zachowywać instrukcje w bardzo długim kontekście.

To ważne wydanie również z innego powodu. Moonshot AI udostępnia kod i wagi modelu, oferuje tani interfejs API zgodny z formatem OpenAI oraz publikuje porównanie z GPT-5.5 i Claude Opus 4.8. Wyniki nie pokazują pogromcy wszystkich zamkniętych modeli. Pokazują natomiast wyraźny skok względem Kimi K2.6 i coraz mniejszy dystans między otwartymi a komercyjnymi systemami do kodowania.

Kimi K2.7 Code w skrócie

architektura: Mixture-of-Experts,

1 bilion parametrów łącznie i 32 miliardy aktywowane dla tokenu,

okno kontekstowe: 262 144 tokeny,

wejście: tekst, obrazy i wideo,

wymuszony tryb rozumowania,

obsługa narzędzi, JSON Mode i automatycznego cache,

otwarte wagi na zmodyfikowanej licencji MIT,

API: 0,95 USD za milion tokenów wejściowych bez trafienia w cache i 4 USD za milion tokenów wyjściowych.

Najważniejsza zmiana: model ma kończyć całe zadanie

K2.7 Code powstał na bazie Kimi K2.6, ale Moonshot AI nie opisuje go jako zwykłej korekty jakości generowanego kodu. Głównym celem jest poprawa end-to-end task completion, czyli zdolności do przeprowadzenia zadania od analizy problemu aż po działające i sprawdzone rozwiązanie.

W praktyce agent programistyczny nie powinien ograniczać się do napisania jednej funkcji. Musi:

odnaleźć właściwe pliki i zależności,
zrozumieć istniejącą architekturę,
zaplanować zmianę obejmującą wiele modułów,
użyć terminala, testów i innych narzędzi,
rozpoznać nieudane podejście,
poprawić rozwiązanie bez utraty pierwotnego celu.

Moonshot AI podkreśla poprawę w zadaniach obejmujących Rust, Go i Pythona, ale także frontend, DevOps, optymalizację wydajności oraz uczenie maszynowe. To szerszy zakres niż typowe benchmarki polegające na uzupełnieniu krótkiego fragmentu kodu.

Drugą istotną zmianą jest efektywność. Według karty modelu K2.7 zużywa około 30% mniej tokenów rozumowania niż K2.6. Mniej „myślenia” nie musi oznaczać płytszej odpowiedzi. W modelach agentowych często chodzi właśnie o ograniczenie powtarzania tych samych analiz, zbyt długiego rozważania oczywistych decyzji i wracania do odrzuconych pomysłów.

Benchmarki Kimi K2.7 Code na tle GPT-5.5 i Claude Opus 4.8

Moonshot AI opublikował sześć testów obejmujących programowanie, wielodniowe zadania agentowe i korzystanie z narzędzi. Poniższa tabela przepisuje wyniki z oficjalnej karty modelu.

Benchmark	Kimi K2.6	Kimi K2.7 Code	GPT-5.5	Claude Opus 4.8
Kimi Code Bench v2	50,9	62,0	69,0	67,4
Program Bench	48,3	53,6	69,1	63,8
MLS Bench Lite	26,7	35,1	35,5	42,8
Kimi Claw 24/7 Bench	42,9	46,9	52,8	50,4
MCP Atlas	69,4	76,0	79,4	81,3
MCP Mark Verified	72,8	81,1	92,9	76,4

Najważniejszy wniosek nie brzmi „Kimi wygrał”. GPT-5.5 osiąga najwyższy wynik w czterech z sześciu tabel, a Claude Opus 4.8 prowadzi w MLS Bench Lite oraz MCP Atlas. Kimi K2.7 Code wyprzedza Opusa w MCP Mark Verified, lecz nadal pozostaje za GPT-5.5.

Ważniejsza jest regularność poprawy względem K2.6:

Kimi Code Bench v2 rośnie z 50,9 do 62,0 punktów,
Program Bench z 48,3 do 53,6,
MLS Bench Lite z 26,7 do 35,1,
MCP Mark Verified z 72,8 do 81,1.

Wzrost w MLS Bench Lite jest szczególnie ciekawy, ponieważ test dotyczy tworzenia metod uczenia maszynowego, a nie tylko edycji aplikacji webowych. Wynik 35,1 niemal zrównuje Kimi z GPT-5.5, choć Claude Opus 4.8 pozostaje wyżej.

Jak czytać te wyniki bez marketingowego skrótu

Tabela pochodzi od producenta modelu, dlatego wymaga kontekstu. Kimi Code Bench v2 i Kimi Claw 24/7 Bench są testami wewnętrznymi Moonshot AI. Pierwszy obejmuje zadania z produkcyjnych incydentów, infrastruktury, bezpieczeństwa, frontendu i projektów open source. Drugi ocenia długotrwałą pracę agenta w 17 scenariuszach zawodowych.

Zewnętrzne benchmarki również nie tworzą idealnie laboratoryjnego porównania. Kimi działał w Kimi Code CLI, GPT-5.5 w Codex, a Opus 4.8 w Claude Code. Wszystkie systemy otrzymały podobne limity, ale każde środowisko ma własne narzędzia, prompty systemowe i sposób zarządzania kontekstem. Wynik mierzy więc połączenie modelu i agenta, a nie wyłącznie „surową inteligencję” sieci.

To nie wada, jeśli pytanie brzmi: „Który system lepiej kończy rzeczywistą pracę?”. Jest jednak ważne, gdy próbujemy na podstawie jednej liczby wybrać model do konkretnego repozytorium. Własny zestaw zadań regresyjnych nadal będzie bardziej użyteczny niż miejsce w ogólnej tabeli.

Architektura: bilion parametrów, ale tylko część pracuje naraz

Kimi K2.7 Code jest modelem Mixture-of-Experts (MoE). Ma łącznie około biliona parametrów, lecz przy przetwarzaniu tokenu aktywuje 32 miliardy. System składa się z 384 ekspertów, z których dla tokenu wybieranych jest osiem, oraz jednego eksperta współdzielonego.

Taka konstrukcja pozwala zwiększyć pojemność modelu bez uruchamiania całego biliona parametrów przy każdym kroku. Nie oznacza jednak, że K2.7 stanie się lekkim modelem do zwykłego laptopa. Otwarte wagi nadal wymagają infrastruktury wielokrotnie większej niż popularne modele 7B, 32B czy 70B.

Moonshot publikuje natywnie skwantyzowaną wersję INT4 i wspiera uruchamianie przez vLLM, SGLang oraz KTransformers. To obniża wymagania pamięciowe i koszt inferencji, ale self-hosting K2.7 pozostaje projektem dla serwerów z wieloma akceleratorami, dostawców chmurowych i zespołów infrastrukturalnych.

256K kontekstu i rozumowanie, którego nie można wyłączyć

Model obsługuje 262 144 tokeny kontekstu. To wystarcza do pracy z dużym fragmentem repozytorium, historią narzędzi, dokumentacją i rezultatami kilku etapów zadania. Sam limit nie gwarantuje jednak, że agent wybierze właściwe informacje. Długi kontekst działa najlepiej wtedy, gdy system nadal selekcjonuje pliki i kompresuje starsze wyniki.

K2.7 Code pracuje wyłącznie w trybie reasoning. API zwróci błąd, jeśli klient spróbuje wyłączyć parametr thinking. Model wymusza również mechanizm preserve thinking, który zachowuje treść rozumowania pomiędzy kolejnymi krokami i wywołaniami narzędzi.

Dla integratorów ma to praktyczną konsekwencję: podczas wieloetapowego tool callingu trzeba pozostawić w historii pole reasoning_content. Usunięcie go może przerwać kolejne wywołanie. Nie jest to więc model, który zawsze można podmienić jeden do jednego pod istniejącym klientem zgodnym z OpenAI API.

Stałe są także niektóre parametry generowania:

Parametr	Wartość w Kimi K2.7 Code
`temperature`	1,0
`top_p`	0,95
domyślny `max_tokens`	32 768
`thinking`	zawsze włączony
`tool_choice`	`auto` lub `none`

Obraz i wideo nie są tylko dodatkiem do czatu

K2.7 Code korzysta z enkodera obrazu MoonViT o 400 milionach parametrów. Oficjalne API przyjmuje obrazy oraz wideo, dzięki czemu agent może analizować zrzuty interfejsu, diagramy, logi pokazane na ekranie lub rezultat działania aplikacji.

Najbardziej praktyczny scenariusz nie polega na pytaniu „co znajduje się na zdjęciu?”. Model może:

otrzymać zrzut projektu,
zbudować interfejs,
uruchomić stronę,
zobaczyć wynik,
porównać go z referencją,
poprawić kod.

To zamyka pętlę między pisaniem kodu a kontrolą efektu wizualnego. Trzeba jednak odróżnić możliwości oficjalnego API od self-hostingu. Obsługa wideo jest obecnie eksperymentalna i według dokumentacji działa wyłącznie w API Moonshot, a nie w standardowych wdrożeniach vLLM lub SGLang.

Cena API: tanio na wejściu, rozumowanie nadal kosztuje

Oficjalny cennik Kimi K2.7 Code wygląda następująco:

Rodzaj tokenów	Cena za 1 mln
Wejście z trafieniem w cache	0,19 USD
Wejście bez trafienia w cache	0,95 USD
Wyjście	4,00 USD

Automatyczny cache ma szczególne znaczenie przy kodowaniu agentowym. W kolejnych turach duża część repozytorium, instrukcji i historii pozostaje taka sama. Jeżeli dostawca rozpozna ten prefiks, koszt ponownego przesyłania długiego kontekstu może spaść pięciokrotnie.

Niska cena wejścia nie powinna jednak przesłaniać kosztu tokenów wyjściowych i rozumowania. Długie zadanie agentowe może przeprowadzić dziesiątki kroków, uruchamiać narzędzia i generować obszerny tok pracy. Dlatego warto mierzyć koszt całego ukończonego zadania, a nie tylko stawkę za milion tokenów.

Licencja jest otwarta, ale nie jest zwykłym MIT

Kod i wagi K2.7 Code są dostępne na Modified MIT License. Licencja pozwala używać, modyfikować, publikować, dystrybuować i sprzedawać oprogramowanie, pod warunkiem zachowania informacji o prawach autorskich i treści licencji.

Moonshot dodał jeden istotny warunek. Jeżeli produkt wykorzystujący model przekracza 100 milionów aktywnych użytkowników miesięcznie albo 20 milionów dolarów miesięcznego przychodu, jego interfejs musi wyraźnie pokazywać nazwę „Kimi K2.7 Code”.

Dla większości projektów i firm nie będzie to praktyczne ograniczenie. Nadal warto jednak mówić o otwartych wagach na zmodyfikowanej licencji MIT, zamiast automatycznie zakładać identyczne zasady jak w standardowym MIT.

Jak można używać Kimi K2.7 Code

Najprostsza droga prowadzi przez API Moonshot o formacie zgodnym z biblioteką OpenAI. Identyfikator modelu to:

kimi-k2.7-code

Moonshot udostępnia również zgodność z interfejsem Anthropic oraz instrukcje konfiguracji modelu w Claude Code, Cline i Roo Code. Producent rekomenduje jednak własne środowisko Kimi Code CLI, ponieważ właśnie w nim przeprowadzono część testów i zoptymalizowano agentową pętlę pracy.

Otwarte wagi pozwalają zbudować prywatne wdrożenie, ale decyzja powinna uwzględniać:

koszt serwerów i akceleratorów,
utrzymanie silnika inferencji,
bezpieczeństwo wykonywania kodu,
izolację terminala i danych,
logowanie działań agenta,
aktualizacje modelu i bibliotek.

Samodzielne uruchomienie wag nie rozwiązuje problemu bezpiecznego agenta. Model nadal potrzebuje ograniczonych uprawnień, sandboxa i kontroli nad poleceniami. Więcej o tych zasadach opisujemy w poradniku jak bezpiecznie podłączyć serwer MCP.

Czy Kimi K2.7 Code jest konkurencją dla Claude Code i Codex?

Tak, ale przede wszystkim jako alternatywa kosztowa i infrastrukturalna, a nie bezwarunkowy zwycięzca benchmarków.

K2.7 ma kilka mocnych argumentów:

otwarte wagi,
tani interfejs API,
duży kontekst,
multimodalność,
wyraźny postęp w długich zadaniach,
możliwość wdrożenia poza platformą producenta.

Z drugiej strony GPT-5.5 i Claude Opus 4.8 nadal osiągają lepsze wyniki w większości opublikowanych testów. Zamknięte produkty mogą również oferować bardziej dopracowane środowiska agentowe, zarządzanie uprawnieniami i integrację z usługami chmurowymi.

Dla zespołu, który chce najwyższej skuteczności bez oglądania się na koszt, Kimi nie musi być pierwszym wyborem. Dla organizacji przetwarzającej dużą liczbę zadań, potrzebującej kontroli nad wdrożeniem albo budującej własnego agenta, różnica ceny i dostęp do wag mogą mieć większe znaczenie niż kilka punktów w tabeli.

Co naprawdę wnosi Kimi K2.7 Code

Najciekawszą częścią premiery nie jest pojedynczy wynik benchmarku. Kimi K2.7 Code pokazuje, że otwarte modele programistyczne coraz rzadziej są jedynie tańszymi generatorami kodu. Zaczynają konkurować w obszarze długiej pracy, narzędzi, pamięci kontekstu i samodzielnego kończenia zadań.

Model nie pokonuje GPT-5.5 ani Opusa 4.8 na całej planszy. Jest jednak wyraźnie lepszy od K2.6, niemal dorównuje GPT-5.5 w MLS Bench Lite i wyprzedza Opusa w jednym z testów MCP. Łączy to z otwartymi wagami, multimodalnością i ceną API, która pozwala myśleć o zastosowaniach masowych.

Najuczciwszy werdykt brzmi więc: Kimi K2.7 Code nie jest nowym królem kodowania, ale jest jednym z najciekawszych otwartych modeli do budowania własnych agentów programistycznych. Jego wartość będzie zależała nie od krótkiego promptu, lecz od tego, ile realnych zadań potrafi ukończyć w konkretnym repozytorium i przy jakim całkowitym koszcie.

(Zdjęcie: Mohammad Rahmani / Unsplash, licencja.)

Tagi:#kimi #moonshot-ai #kimi-k2-7 #modele #kodowanie #agenci-ai #open-weights

Udostępnij:

Polecane artykuły

Nowoczesna pomarańczowa fasada symbolizująca premierę Claude Opus 5

LLMs i AI Generatywne