Infrastruktura AI

Ile VRAM potrzebuje lokalny model AI?

Wyjaśniamy, jak parametry, kwantyzacja, kontekst i offloading wpływają na pamięć lokalnych modeli AI oraz jak dobrać model do własnej karty graficznej.

Autor: 4 min czytania
Karta graficzna i modele AI o różnych wymaganiach pamięciowych

Pytanie „ile VRAM potrzebuje model?” brzmi prosto, ale sama liczba parametrów nie wystarcza do odpowiedzi. Zużycie pamięci zależy również od precyzji wag, kwantyzacji, długości kontekstu, architektury modelu i tego, czy część obliczeń zostanie przeniesiona do RAM-u.

Poniższe wartości są praktycznymi przedziałami do planowania, a nie gwarancją. Dwa modele o podobnej liczbie parametrów mogą zachowywać się inaczej, dlatego przed zakupem sprzętu warto sprawdzić konkretny plik modelu i testy używanego runtime'u.

Co zajmuje pamięć

Podczas inferencji pamięć jest wykorzystywana przede wszystkim przez:

  • wagi modelu – największy stały składnik,
  • KV cache – rośnie wraz z długością kontekstu i liczbą równoległych sesji,
  • bufory obliczeniowe – zależą od silnika i sprzętu,
  • inne aplikacje oraz system – karta nigdy nie oddaje całej deklarowanej pamięci modelowi.

Rozmiar pliku modelu daje pierwszy punkt odniesienia, ale uruchomienie zwykle wymaga dodatkowego zapasu.

Orientacyjne wymagania

Wielkość modeluTypowy wariant 4-bitRozsądny poziom VRAM
2–4Bokoło 2–3 GB4–6 GB
7–8Bokoło 4–6 GB8 GB
12–14Bokoło 8–10 GB12–16 GB
27–32Bokoło 16–22 GB24 GB lub więcej
70Bokoło 40 GB i więcejwiele GPU albo offloading

„Rozsądny poziom” zakłada miejsce na kontekst i bufory. Model może uruchomić się przy mniejszej ilości VRAM dzięki przeniesieniu części warstw do RAM-u, lecz zwykle kosztem szybkości.

Dlaczego kwantyzacja tak dużo zmienia

Wagi w wysokiej precyzji zajmują więcej pamięci. Kwantyzacja zapisuje je przy użyciu mniejszej liczby bitów, na przykład 8 lub 4, dzięki czemu model łatwiej mieści się na urządzeniu.

Korzyści:

  • mniejszy plik,
  • niższe zużycie VRAM,
  • możliwość uruchomienia większego modelu,
  • często szybsze ładowanie.

Kosztem może być spadek jakości, szczególnie przy bardzo agresywnej kwantyzacji albo zadaniach wymagających dokładnych obliczeń. Nie każda metoda kwantyzacji zachowuje się identycznie. Dokumentacja Hugging Face dotycząca bitsandbytes opisuje popularne podejścia 8- i 4-bitowe.

Kontekst potrafi zepsuć prostą kalkulację

Model, który mieści się przy krótkiej rozmowie, może zabraknąć pamięci po zwiększeniu kontekstu. KV cache przechowuje informacje potrzebne do obsługi wcześniejszych tokenów i rośnie wraz z długością wejścia.

Ma to szczególne znaczenie w:

  • analizie dużych dokumentów,
  • narzędziach programistycznych,
  • agentach wykonujących wiele kroków,
  • długich sesjach czatu,
  • obsłudze kilku użytkowników jednocześnie.

Ollama wprost wskazuje, że zwiększanie kontekstu zwiększa wymagania pamięciowe. Dlatego test sprzętu powinien używać takiego kontekstu, jaki rzeczywiście pojawi się w aplikacji.

VRAM a RAM

Jeżeli model nie mieści się w pamięci GPU, część warstw może działać w RAM-ie systemowym. Dzięki temu można uruchomić większy model, ale transfer przez magistralę i obliczenia poza GPU obniżają szybkość.

To rozwiązanie jest rozsądne do sporadycznej pracy, testów i zadań wsadowych. W interaktywnym czacie opóźnienie może być jednak zauważalne.

Nie zakładaj też, że 16 GB współdzielonej pamięci działa dokładnie tak samo jak 16 GB dedykowanego VRAM-u. Architektura urządzenia i przepustowość mają duże znaczenie.

Jak dobrać model do sprzętu

  1. Sprawdź ilość dostępnego VRAM-u podczas normalnej pracy.
  2. Zostaw przynajmniej 10–20% zapasu.
  3. Zacznij od modelu 4-bitowego.
  4. Ustaw realistyczną długość kontekstu.
  5. Zmierz tokeny na sekundę i czas do pierwszego tokena.
  6. Porównaj jakość z mniejszym modelem.

Większy model nie zawsze wygrywa. Dobrze dostrojony model 7B może być bardziej użyteczny niż powolny model 14B, szczególnie przy klasyfikacji, ekstrakcji danych lub wąskim zastosowaniu.

Przykładowe scenariusze

Laptop bez dedykowanej karty. Zacznij od 2–4B i krótkiego kontekstu. Liczy się płynność oraz temperatura urządzenia.

GPU z 8 GB VRAM. Najwygodniejszym zakresem są zwykle modele 7–8B w kwantyzacji 4-bitowej.

GPU z 12–16 GB VRAM. Możesz testować modele około 14B albo mniejsze modele z dłuższym kontekstem.

GPU z 24 GB VRAM. Otwiera się zakres modeli około 30B, ale kontekst i dodatkowe procesy nadal wymagają zapasu.

Serwer wieloużytkownikowy. Sama możliwość załadowania modelu nie wystarczy. Trzeba uwzględnić równoległe żądania, batching, cache i wymagany czas odpowiedzi.

Kiedy chmura ma więcej sensu

Zakup mocnej karty nie zawsze jest ekonomiczny. Chmura może wygrać, gdy obciążenie jest nieregularne, potrzebujesz bardzo dużego modelu tylko okazjonalnie albo zespół nie chce utrzymywać własnego środowiska.

Lokalny sprzęt ma przewagę przy stałym wykorzystaniu, wrażliwych danych, pracy offline i potrzebie przewidywalnych kosztów. W praktyce wiele zespołów korzysta z modelu hybrydowego: małe zadania lokalnie, najtrudniejsze w chmurze.

Najważniejsza rada

Nie kupuj GPU wyłącznie na podstawie liczby parametrów w nazwie modelu. Pobierz konkretną kwantyzację, ustaw docelowy kontekst i uruchom zadania reprezentujące prawdziwe użycie.

Pamięć decyduje, czy model się uruchomi. Przepustowość, jakość oprogramowania i charakter zadania decydują, czy będzie użyteczny.

Udostępnij: