LLMs i AI Generatywne

Bielik v3, model 11B i polski tokenizer. Dlaczego to ważniejsze niż kolejny benchmark

Bielik v3 dostał model 11B, tokenizer zoptymalizowany pod język polski oraz wariant Minitron 7B. Wyjaśniamy, co to oznacza dla użytkowników i firm.

Autor: 8 min czytania
Logo Bielik.AI na białym tle

W modelach językowych najgłośniej mówi się o liczbie parametrów, benchmarkach i nowych trybach rozumowania. Tymczasem jedna z najważniejszych zmian w Bieliku v3 dotyczy czegoś mniej medialnego: tokenizera, czyli sposobu dzielenia tekstu na kawałki zrozumiałe dla modelu.

Brzmi technicznie, ale sprawa jest bardzo praktyczna. Jeśli tokenizer źle radzi sobie z polszczyzną, model musi zużywać więcej tokenów na zapisanie tego samego zdania. To podnosi koszt inferencji, skraca efektywne okno kontekstowe i utrudnia pracę z długimi dokumentami. W języku takim jak polski, z odmianą przez przypadki, złożonym słowotwórstwem i długimi formami fleksyjnymi, tokenizer może być różnicą między modelem "działa" a modelem "działa sensownie".

Dlatego premiera modeli Bielik-PL-11B-v3.0-Instruct i Bielik-PL-Minitron-7B-v3.0-Instruct jest ciekawsza, niż sugerowałaby sama lista nazw. ACK Cyfronet AGH potwierdził, że oba modele zostały zaprezentowane podczas KUKDM 2026 i wyposażone w tokenizer zoptymalizowany pod język polski.

Co właściwie robi tokenizer

Model językowy nie czyta tekstu tak jak człowiek. Zanim zdanie trafi do modelu, zostaje rozbite na tokeny. Tokenem może być całe słowo, część słowa, znak interpunkcyjny albo fragment znaku, zależnie od języka i słownika modelu.

W języku angielskim wiele popularnych tokenizerów działa wystarczająco dobrze, bo ogromna część danych treningowych i narzędzi powstawała właśnie wokół angielskiego. W języku polskim sytuacja jest trudniejsza. Jedno słowo może przyjąć wiele form, a końcówka często niesie informację gramatyczną, której nie chcemy zgubić.

Prosty przykład:

ElementDlaczego to problem dla uniwersalnego tokenizera
odmiana rzeczowników"firma", "firmy", "firmie", "firmą" to różne formy tego samego pojęcia
długie złożeniapolskie słowa potrafią być dłuższe i bardziej złożone niż angielskie odpowiedniki
polskie znakilitery takie jak ą, ę, ł, ń mogą być gorzej reprezentowane w słownikach budowanych globalnie
język urzędowydługie zdania i formalne konstrukcje szybciej wypełniają okno kontekstowe

To nie znaczy, że model z uniwersalnym tokenizerem nie rozumie polskiego. Oznacza raczej, że płaci za to większą cenę obliczeniową.

Co zmienił Bielik v3 PL

Techniczny raport opublikowany na arXiv opisuje przejście z uniwersalnego tokenizera opartego na Mistralu na słownik zoptymalizowany pod polszczyznę. Autorzy wskazują trzy problemy typowe dla uniwersalnych tokenizerów: gorsze uchwycenie niuansów morfologicznych, wyższy współczynnik "rozdrabniania" tekstu i mniejsze efektywne okno kontekstowe.

W praktyce ma to znaczenie dla każdego, kto pracuje z dłuższymi dokumentami: regulaminami, umowami, opisami produktów, dokumentacją medyczną, treściami urzędowymi czy dużymi bazami wiedzy.

Jeśli ten sam polski dokument zajmuje mniej tokenów, model może:

  1. zmieścić więcej treści w jednym zapytaniu,
  2. szybciej generować odpowiedź,
  3. zużywać mniej zasobów obliczeniowych,
  4. lepiej utrzymać kontekst w długiej analizie,
  5. łatwiej działać lokalnie lub na tańszej infrastrukturze.

To jest mniej efektowne niż wykres z jednym rekordowym wynikiem, ale dla wdrożeń bywa ważniejsze.

Bielik-PL-11B-v3.0-Instruct: model główny

Karta modelu na Hugging Face opisuje Bielik-PL-11B-v3.0-Instruct jako model generatywny z 11 miliardami parametrów, dostrojony instrukcyjnie i oparty na wariancie bazowym Bielik-11B-v3. Model korzysta z tokenizera APT4 zoptymalizowanego pod język polski.

Warto zatrzymać się przy tym dłużej, bo 11B to nie tylko rozmiar zapisany w nazwie. Taki model jest wyraźnie większy od kompaktowych wariantów 1.5B, 4.5B czy 7B, ale nadal pozostaje w kategorii modeli, które można sensownie wdrażać poza infrastrukturą największych laboratoriów AI. To środek między małym modelem do prostych klasyfikacji a ogromnym systemem zamkniętym, który działa wyłącznie jako usługa.

W praktyce wariant 11B ma być "pełniejszym" Bielikiem: lepszym do dłuższych odpowiedzi, bardziej złożonych instrukcji i pracy z dokumentami, w których liczy się nie tylko znajomość słów, ale też utrzymanie tonu, kontekstu i logicznego porządku wypowiedzi.

Cecha Bielik-PL-11B-v3.0-InstructCo oznacza dla użytkownika
11 miliardów parametrówwiększa pojemność modelu niż w wariantach kompaktowych
wersja instructmodel jest dostrojony do wykonywania poleceń i rozmowy
tokenizer APT4 pod język polskimniej marnowanych tokenów na polskie formy fleksyjne
32 języki europejskiemodel nie jest wyłącznie polski, ale polszczyzna pozostaje priorytetem
licencja Apache 2.0możliwość użycia także w projektach komercyjnych
lokalne uruchamianiewiększa kontrola nad danymi i środowiskiem wdrożenia

Skąd bierze się wersja instruct

"Instruct" oznacza, że model nie jest tylko bazowym predyktorem tekstu. Został dodatkowo dostrojony tak, aby lepiej reagować na polecenia użytkownika: streszczać, klasyfikować, odpowiadać w określonym stylu, trzymać format odpowiedzi i prowadzić dialog.

W przypadku Bielika 11B ten etap jest szczególnie istotny, bo wiele zastosowań biznesowych nie polega na luźnej rozmowie. Firma chce powiedzieć modelowi: "streść dokument w pięciu punktach", "przepisz pismo prostszym językiem", "wyodrębnij ryzyka z tej umowy", "przygotuj odpowiedź zgodną z naszym tonem marki". Model bazowy może generować tekst, ale model instruct powinien lepiej rozumieć zadanie.

Jak wyglądał pipeline dostrajania

Z opisu modelu wynika, że pipeline obejmował kilka etapów:

  • model był trenowany na korpusach obejmujących 32 języki europejskie, z naciskiem na polski,
  • w projekcie wykorzystano polską infrastrukturę PLGrid i zasoby ACK Cyfronet AGH,
  • trening korzystał z superkomputerów Athena i Helios,
  • model jest udostępniany na licencji Apache 2.0,
  • pipeline obejmował SFT, DPO oraz etap reinforcement learning,
  • wykorzystano ponad 20 mln instrukcji obejmujących ponad 17 mld tokenów,
  • w końcowym etapie użyto zadań z weryfikowalnymi odpowiedziami, m.in. z logiki, STEM, matematyki i używania narzędzi.

To ważne, bo dobre odpowiedzi nie biorą się wyłącznie z rozmiaru modelu. Liczy się też jakość danych instrukcyjnych, sposób oceniania odpowiedzi i to, czy model uczy się krótszego, bardziej trafnego rozumowania zamiast produkowania długich, pozornie mądrych wywodów.

Kiedy wybrać Bielika 11B zamiast mniejszego wariantu

Wariant 11B będzie miał najwięcej sensu tam, gdzie jakość odpowiedzi jest ważniejsza niż minimalny koszt pojedynczego zapytania. Przykłady:

  • analiza dłuższych dokumentów po polsku,
  • streszczanie i porządkowanie pism urzędowych,
  • praca z wewnętrzną bazą wiedzy firmy,
  • tworzenie odpowiedzi dla obsługi klienta w języku polskim,
  • przetwarzanie treści prawnych, medycznych lub finansowych pod nadzorem człowieka,
  • budowanie asystenta, który ma zachowywać spójny ton i pamiętać instrukcje systemowe.

Mniejszy model może wystarczyć do etykietowania, krótkiej klasyfikacji, prostego FAQ albo automatycznego przepisywania schematycznych treści. Model 11B powinien być ciekawszy tam, gdzie zadanie jest mniej mechaniczne: wymaga zrozumienia kontekstu, porównania kilku fragmentów dokumentu albo odpowiedzi napisanej naturalną polszczyzną.

Co oznacza "11B" w praktyce wdrożeniowej

11 miliardów parametrów to nadal model, który wymaga rozsądnego zaplecza. Da się go uruchamiać lokalnie, ale nie należy oczekiwać, że będzie równie lekki jak mały model do klasyfikacji tekstu. Organizacja musi policzyć pamięć GPU, tempo odpowiedzi, liczbę użytkowników i oczekiwaną jakość.

To właśnie dlatego w rodzinie Bielika obok 11B pojawia się Minitron 7B. Większy model może pełnić rolę jakościowego punktu odniesienia, a mniejszy wariant może obsługiwać tańsze, masowe wdrożenia. W dobrze zaprojektowanym systemie oba podejścia mogą się uzupełniać: 11B do trudniejszych zadań, 7B do szybkich i powtarzalnych procesów.

To nie jest więc jedynie "kolejna paczka wag" wrzucona do internetu. Bielik v3 PL jest wynikiem pracy nad pełnym procesem: od danych, przez tokenizer, po dostrajanie zachowania modelu i przygotowanie go do realnych wdrożeń.

Minitron 7B: mniejszy model, tańsze wdrożenia

Drugim elementem układanki jest Bielik-PL-Minitron-7B-v3.0-Instruct. To mniejszy wariant, który ma być bardziej praktyczny tam, gdzie liczy się koszt i szybkość. Oficjalny wpis Bielik.ai po prezentacji na NVIDIA GTC opisuje Minitrona jako model powstały dzięki technikom przycinania i destylacji rozwijanym we współpracy z inżynierami NVIDIA.

Najważniejsze liczby są proste:

CechaZnaczenie
7B zamiast 11Bmniejszy model łatwiej uruchomić i utrzymać
około 33% redukcji rozmiarumniej pamięci i niższy koszt infrastruktury
do 50% szybsza inferencjakrótszy czas odpowiedzi przy podobnym typie zadań
około 90% jakości większego modelukompromis między kosztem a jakością

W zastosowaniach firmowych taki kompromis często jest rozsądniejszy niż gonienie za największym modelem. Jeśli system ma obsługiwać tysiące podobnych zapytań dziennie, przewidywalny koszt i szybkość odpowiedzi bywają ważniejsze niż maksymalny wynik w benchmarku.

Dlaczego to ważne dla polskich firm

Polska firma nie potrzebuje zawsze największego modelu świata. Czasem potrzebuje modelu, który:

  • dobrze rozumie polskie dokumenty,
  • można uruchomić lokalnie,
  • da się dostroić do własnej domeny,
  • działa w przewidywalnym koszcie,
  • nie wymaga wysyłania danych do zewnętrznej chmury,
  • ma licencję pozwalającą na realne użycie komercyjne.

Bielik v3 PL celuje właśnie w taki obszar. Nie zastępuje automatycznie GPT, Claude czy Gemini. Może natomiast być lepszym wyborem w konkretnych klasach zadań: polskie FAQ, klasyfikacja dokumentów, streszczanie pism, obsługa wewnętrznej bazy wiedzy, przetwarzanie opisów produktów, wsparcie procesów urzędowych albo analiza zgłoszeń klientów.

Pułapka benchmarków

Benchmarki są potrzebne, ale łatwo zrobić z nich fałszywą prostotę. Jeśli jeden model ma wynik 69, a drugi 66, nie znaczy to automatycznie, że pierwszy będzie lepszy w analizie polskiej umowy, korespondencji pacjenta albo regulaminu sklepu.

W przypadku Bielika ciekawsze jest pytanie: czy model daje dobry stosunek jakości do kosztu w polskich zadaniach? I czy można go wdrożyć tak, żeby dane pozostały pod kontrolą organizacji?

Serwis CodeSOTA, który śledzi modele w polskich benchmarkach, trafnie rozdziela różne rodzaje testów: kompetencje językowo-kulturowe, rozumienie złożonego tekstu, rozmowę, emocje i zadania wielozadaniowe. To ważne, bo "dobry po polsku" nie oznacza jednej rzeczy. Model może dobrze streszczać dokumenty, ale słabiej radzić sobie z rozmową. Może dobrze znać idiomy, ale gorzej przechodzić przez zadania logiczne.

Co czytelnik powinien z tego zapamiętać

Najważniejszy wniosek jest prosty: Bielik v3 nie rozwija się tylko przez dokładanie parametrów. Projekt pracuje nad elementami, które decydują o praktycznym koszcie i użyteczności modelu w języku polskim.

Polski tokenizer oznacza mniej marnowania kontekstu. Minitron 7B oznacza tańszą inferencję i łatwiejsze wdrożenia. Licencja Apache 2.0 i możliwość lokalnego uruchamiania oznaczają większą kontrolę po stronie firmy lub instytucji.

To nadal nie zwalnia nikogo z testów. Przed wdrożeniem trzeba sprawdzić jakość na własnych dokumentach, bezpieczeństwo odpowiedzi, koszty infrastruktury i sposób monitorowania modelu. Ale kierunek jest ciekawy: zamiast próbować kopiować największe amerykańskie modele, Bielik szuka przewagi tam, gdzie polski język i lokalne wdrożenie naprawdę mają znaczenie.

I właśnie dlatego tokenizer może być ważniejszy niż kolejny efektowny ranking.

Udostępnij: