Tutoriale

Jak uruchomić lokalny model AI z Ollamą

Praktyczny poradnik uruchamiania modeli językowych na własnym komputerze: instalacja Ollamy, wybór modelu, API, prywatność i najczęstsze problemy.

Autor: 3 min czytania
Komputer uruchamiający lokalny model AI bez połączenia z chmurą

Lokalny model językowy działa na Twoim komputerze zamiast na serwerze dostawcy chmurowego. Pozwala eksperymentować bez opłat za każde zapytanie, zachować większą kontrolę nad dokumentami i budować aplikacje, które działają również bez stałego połączenia z internetem.

Najprostszy sposób rozpoczęcia takiej pracy to Ollama. Narzędzie pobiera modele, zarządza ich uruchamianiem i udostępnia lokalne API, z którego mogą korzystać aplikacje webowe, skrypty i interfejsy czatowe.

Zanim zaczniesz

Sprawdź przede wszystkim pamięć komputera. Mały model o kilku miliardach parametrów może działać na nowoczesnym laptopie, ale większy model będzie potrzebował znacznie więcej RAM-u lub pamięci karty graficznej.

Na pierwszy test warto wybrać model o rozmiarze 2–8B w wersji skwantyzowanej. Nie będzie tak wszechstronny jak największe modele chmurowe, ale wystarczy do streszczeń, klasyfikacji, prostego programowania i pracy z RAG.

Instalacja Ollamy

Pobierz instalator ze strony Ollama Download. Narzędzie jest dostępne dla Windows, macOS i Linux.

Po instalacji otwórz terminal i sprawdź, czy polecenie działa:

ollama --version

Następnie uruchom pierwszy model:

ollama run gemma3:4b

Przy pierwszym wykonaniu Ollama pobierze pliki modelu. Później pojawi się prosty tryb rozmowy w terminalu. Zakończysz go poleceniem /bye.

Jak wybrać model

Nie wybieraj wyłącznie na podstawie liczby parametrów. Liczą się również:

  • języki obsługiwane przez model,
  • jakość instrukcji i programowania,
  • długość kontekstu,
  • poziom kwantyzacji,
  • licencja i dozwolone zastosowania,
  • szybkość na Twoim sprzęcie.

Do szybkich zadań lepszy może być mały model, który odpowiada natychmiast. Większy model ma sens wtedy, gdy dodatkowa jakość rzeczywiście rekompensuje opóźnienie i zużycie pamięci.

Listę pobranych modeli zobaczysz poleceniem:

ollama list

Niepotrzebny model usuniesz w ten sposób:

ollama rm nazwa-modelu

Korzystanie z lokalnego API

Ollama domyślnie udostępnia API pod adresem http://127.0.0.1:11434. Możesz wysłać zapytanie bezpośrednio z terminala:

curl http://127.0.0.1:11434/api/chat \
  -d '{
    "model": "gemma3:4b",
    "stream": false,
    "messages": [
      { "role": "user", "content": "Wyjaśnij RAG w trzech zdaniach." }
    ]
  }'

W aplikacji Node.js ten sam endpoint obsłużysz przez fetch. Dzięki temu lokalny model może zasilać czat, narzędzie do analizy dokumentów albo prywatnego asystenta.

Prywatność: co naprawdę pozostaje lokalnie

Prompty wysyłane do lokalnego endpointu modelu nie muszą trafiać do komercyjnego API. Nadal jednak trzeba sprawdzić cały przepływ danych.

Zwróć uwagę na:

  • interfejs czatowy, który może mieć własną telemetrię,
  • zewnętrzne wyszukiwarki lub usługi embeddingowe,
  • kopie zapasowe i synchronizację folderów,
  • logi aplikacji zapisujące pełne pytania,
  • rozszerzenia edytora uzyskujące dostęp do projektu.

„Model lokalny” nie oznacza automatycznie „system bezpieczny”. O prywatności decyduje najsłabszy element całej aplikacji.

Kontekst i zużycie pamięci

Większe okno kontekstowe pozwala przesłać więcej tekstu, ale zwiększa zużycie pamięci. Dokumentacja Ollamy wskazuje, że kontekst należy dobierać do zadania i możliwości sprzętu.

Nie ustawiaj maksymalnej wartości bez potrzeby. Do krótkiego czatu wystarczy mniejszy kontekst, natomiast analiza repozytorium lub dużego dokumentu może wymagać znacznie większego.

Najczęstsze problemy

Model odpowiada bardzo wolno. Wybierz mniejszy wariant, zamknij aplikacje zajmujące GPU i sprawdź, czy model nie został częściowo przeniesiony do RAM-u.

Brakuje pamięci. Użyj mocniej skwantyzowanej wersji albo modelu z mniejszą liczbą parametrów. Zmniejszenie kontekstu również może pomóc.

Odpowiedzi po polsku są słabe. Przetestuj model deklarujący dobre wsparcie wielojęzyczne. Angielskie benchmarki nie zawsze przewidują jakość polskich odpowiedzi.

Aplikacja nie łączy się z API. Sprawdź, czy Ollama działa i czy żądanie trafia do 127.0.0.1:11434. Nie wystawiaj tego portu publicznie bez uwierzytelniania i warstwy pośredniej.

Prosty plan testu

Przygotuj 15–20 pytań reprezentujących prawdziwe zadania. Oceń:

  1. poprawność odpowiedzi,
  2. czas do pierwszego tokena,
  3. całkowity czas generowania,
  4. zużycie pamięci,
  5. zachowanie przy braku wiedzy,
  6. jakość języka polskiego.

Taki test mówi więcej niż pojedynczy wynik benchmarku. Najlepszy lokalny model to ten, który działa wystarczająco dobrze na Twoim sprzęcie i w Twoim zadaniu.

Co dalej

Po uruchomieniu pierwszego modelu możesz dodać własny interfejs, embeddingi i wyszukiwanie dokumentów. Naturalnym kolejnym krokiem jest nasz poradnik o budowie aplikacji RAG w Next.js z lokalnym LLM.

Zacznij od małego modelu i mierzalnego zastosowania. Lokalna AI daje najwięcej wtedy, gdy jest narzędziem do konkretnej pracy, a nie tylko kolejnym oknem czatu.

Udostępnij: