Myśli, a dopiero potem tworzy. ChatGPT Images 2.0 to przełomowy krok OpenAI
Nowe gpt-image-2 od OpenAI wpina rozumowanie z serii „O" bezpośrednio w generator obrazów — model planuje kompozycję, zanim ją narysuje. Do tego wyraźnie lepszy tekst, 4K w API i do 8 spójnych obrazów z jednego promptu.

OpenAI zaprezentowało oficjalnie ChatGPT Images 2.0 (gpt-image-2) — nową generację modelu do generowania obrazów, która ma stanowić odpowiedź na konkurencyjne rozwiązanie Google, Gemini Nano Banana 2. System, wcześniej rozwijany pod nazwą kodową „duct tape", wprowadza istotne usprawnienia: zdolności rozumowania, wyraźnie lepsze odwzorowanie tekstu oraz rozszerzone wsparcie dla wielu języków.
Rozumowanie wbudowane w generator
Najważniejszą zmianą jest integracja mechanizmów rozumowania z serii „O" bezpośrednio z generatorem obrazów. W przeciwieństwie do klasycznych modeli działających jak „czarna skrzynka", wersja Thinking funkcjonuje bardziej jak agent — potrafi:
- analizować dane,
- korzystać z internetu w czasie rzeczywistym,
- przetwarzać przesłane pliki (np. prezentacje PowerPoint),
- i planować kompozycję jeszcze przed wygenerowaniem obrazu.
Dzięki temu model nie ogranicza się do samego „rysowania", lecz tworzy przemyślane i logiczne projekty, takie jak:
- rozbudowane infografiki i mapy z dokładnym odwzorowaniem danych oraz czytelnymi legendami,
- materiały edukacyjne obejmujące wiele spójnych wizualnie i merytorycznie stron,
- projekty wnętrz i systemy wizualne, w tym plany pomieszczeń, palety kolorów czy zestawienia materiałów.
Tekst w obrazach — w końcu naprawiony
Jednocześnie rozwiązano jeden z największych problemów wcześniejszych modeli — błędne generowanie tekstu. OpenAI określa tę poprawę jako „skokową zmianę".
Images 2.0 radzi sobie z precyzyjnym umieszczaniem napisów nawet w złożonych projektach, takich jak menu, okładki magazynów czy interfejsy aplikacji. Model znacznie lepiej obsługuje też języki o alfabetach innych niż łaciński, m.in. japoński, chiński, koreański, hindi czy bengalski, renderując tekst w sposób naturalny i spójny z grafiką.
Co siedzi pod maską
Architektura modelu została całkowicie przebudowana — OpenAI nie ujawnia, czy jest to system dyfuzyjny, czy autoregresyjny, ale znane są jego możliwości techniczne:
- generowanie obrazów do rozdzielczości 2K w ChatGPT i 4K w API (beta),
- obsługa różnych proporcji — od szerokich panoram (3:1) po pionowe kadry (1:3),
- tworzenie do 8 spójnych obrazów na podstawie jednego zapytania (np. komiksy, storyboardy),
- baza wiedzy aktualna na grudzień 2025 roku.
Poziomy dostępu
Dostęp do modelu podzielono na kilka poziomów:
- Użytkownicy darmowi i Codex otrzymują Images 2.0 Instant — szybsze generowanie, lepsze rozumienie poleceń.
- Użytkownicy Plus, Pro i Business mają dostęp do wersji Thinking z dodatkowymi narzędziami, wyszukiwaniem i generowaniem serii obrazów.
- Użytkownicy Pro mogą korzystać także z trybu ImageGen Pro oferującego najwyższą jakość.
API i cennik
Dla deweloperów gpt-image-2 dostępny jest w Microsoft Foundry oraz przez API, z następującym cennikiem:
- 8,00 USD za milion tokenów wejściowych,
- 2,00 USD za milion tokenów wejściowych z cache,
- 30,00 USD za milion tokenów wyjściowych — 2 USD taniej niż w poprzedniej wersji GPT-Image-1.5.
Bezpieczeństwo i dezinformacja
OpenAI podkreśla duży nacisk na kwestie bezpieczeństwa, szczególnie w obliczu kampanii dezinformacyjnych i deepfake'ów. Images 2.0 wykorzystuje wielowarstwowe zabezpieczenia, w tym znakowanie wodne oraz filtry ograniczające generowanie szkodliwych treści. Firma deklaruje rygorystyczne podejście do przeciwdziałania ingerencji w procesy wyborcze i tworzeniu wprowadzających w błąd treści politycznych.
Podsumowanie
Images 2.0 to nie kolejny przyrost jakości — to pierwszy przypadek, w którym poważny generator obrazów planuje jak agent, zanim cokolwiek narysuje. W połączeniu ze skokową poprawą tekstu i porządnym wsparciem wielojęzycznym zamyka największe luki, które nadal wypychały projektantów i edukatorów z powrotem do narzędzi ręcznych. Wyścig OpenAI vs. Google w generatywnej grafice właśnie stał się znacznie ciekawszy.


