Myśli, a dopiero potem tworzy. ChatGPT Images 2.0 to przełomowy krok OpenAI

Nowe gpt-image-2 od OpenAI wpina rozumowanie z serii „O" bezpośrednio w generator obrazów — model planuje kompozycję, zanim ją narysuje. Do tego wyraźnie lepszy tekst, 4K w API i do 8 spójnych obrazów z jednego promptu.

Autor: Redakcja TreffikAI23 kwietnia 20263 min czytania

OpenAI zaprezentowało oficjalnie ChatGPT Images 2.0 (gpt-image-2) — nową generację modelu do generowania obrazów, która ma stanowić odpowiedź na konkurencyjne rozwiązanie Google, Gemini Nano Banana 2. System, wcześniej rozwijany pod nazwą kodową „duct tape", wprowadza istotne usprawnienia: zdolności rozumowania, wyraźnie lepsze odwzorowanie tekstu oraz rozszerzone wsparcie dla wielu języków.

Rozumowanie wbudowane w generator

Najważniejszą zmianą jest integracja mechanizmów rozumowania z serii „O" bezpośrednio z generatorem obrazów. W przeciwieństwie do klasycznych modeli działających jak „czarna skrzynka", wersja Thinking funkcjonuje bardziej jak agent — potrafi:

analizować dane,
korzystać z internetu w czasie rzeczywistym,
przetwarzać przesłane pliki (np. prezentacje PowerPoint),
i planować kompozycję jeszcze przed wygenerowaniem obrazu.

Dzięki temu model nie ogranicza się do samego „rysowania", lecz tworzy przemyślane i logiczne projekty, takie jak:

rozbudowane infografiki i mapy z dokładnym odwzorowaniem danych oraz czytelnymi legendami,
materiały edukacyjne obejmujące wiele spójnych wizualnie i merytorycznie stron,
projekty wnętrz i systemy wizualne, w tym plany pomieszczeń, palety kolorów czy zestawienia materiałów.

Tekst w obrazach — w końcu naprawiony

Jednocześnie rozwiązano jeden z największych problemów wcześniejszych modeli — błędne generowanie tekstu. OpenAI określa tę poprawę jako „skokową zmianę".

Images 2.0 radzi sobie z precyzyjnym umieszczaniem napisów nawet w złożonych projektach, takich jak menu, okładki magazynów czy interfejsy aplikacji. Model znacznie lepiej obsługuje też języki o alfabetach innych niż łaciński, m.in. japoński, chiński, koreański, hindi czy bengalski, renderując tekst w sposób naturalny i spójny z grafiką.

Co siedzi pod maską

Architektura modelu została całkowicie przebudowana — OpenAI nie ujawnia, czy jest to system dyfuzyjny, czy autoregresyjny, ale znane są jego możliwości techniczne:

generowanie obrazów do rozdzielczości 2K w ChatGPT i 4K w API (beta),
obsługa różnych proporcji — od szerokich panoram (3:1) po pionowe kadry (1:3),
tworzenie do 8 spójnych obrazów na podstawie jednego zapytania (np. komiksy, storyboardy),
baza wiedzy aktualna na grudzień 2025 roku.

Poziomy dostępu

Dostęp do modelu podzielono na kilka poziomów:

Użytkownicy darmowi i Codex otrzymują Images 2.0 Instant — szybsze generowanie, lepsze rozumienie poleceń.
Użytkownicy Plus, Pro i Business mają dostęp do wersji Thinking z dodatkowymi narzędziami, wyszukiwaniem i generowaniem serii obrazów.
Użytkownicy Pro mogą korzystać także z trybu ImageGen Pro oferującego najwyższą jakość.

API i cennik

Dla deweloperów gpt-image-2 dostępny jest w Microsoft Foundry oraz przez API, z następującym cennikiem:

8,00 USD za milion tokenów wejściowych,
2,00 USD za milion tokenów wejściowych z cache,
30,00 USD za milion tokenów wyjściowych — 2 USD taniej niż w poprzedniej wersji GPT-Image-1.5.

Bezpieczeństwo i dezinformacja

OpenAI podkreśla duży nacisk na kwestie bezpieczeństwa, szczególnie w obliczu kampanii dezinformacyjnych i deepfake'ów. Images 2.0 wykorzystuje wielowarstwowe zabezpieczenia, w tym znakowanie wodne oraz filtry ograniczające generowanie szkodliwych treści. Firma deklaruje rygorystyczne podejście do przeciwdziałania ingerencji w procesy wyborcze i tworzeniu wprowadzających w błąd treści politycznych.

Podsumowanie

Images 2.0 to nie kolejny przyrost jakości — to pierwszy przypadek, w którym poważny generator obrazów planuje jak agent, zanim cokolwiek narysuje. W połączeniu ze skokową poprawą tekstu i porządnym wsparciem wielojęzycznym zamyka największe luki, które nadal wypychały projektantów i edukatorów z powrotem do narzędzi ręcznych. Wyścig OpenAI vs. Google w generatywnej grafice właśnie stał się znacznie ciekawszy.

Tagi:#openai#chatgpt#generowanie-obrazow#modele#multimodalne

Udostępnij: