Czym różni się RAG od fine-tuningu?
RAG nie modyfikuje modelu - dynamicznie dokłada wiedzę z zewnętrznych dokumentów do kontekstu każdego zapytania. Fine-tuning zmienia wagi samego modelu, ucząc go nowych zachowań lub wiedzy. RAG jest tańszy, łatwiejszy do aktualizacji i bezpieczniejszy. Fine-tuning daje głębszą specjalizację, ale wymaga retrenowania przy zmianie danych. W praktyce najczęściej łączymy oba podejścia.
Ile kosztuje wdrożenie RAG?
Podstawowe wdrożenie RAG (indeksowanie dokumentów, baza wektorowa, integracja z modelem) to projekt na 2-4 tygodnie. Koszty infrastruktury są niskie - bazy wektorowe jak Qdrant czy pgvector można uruchomić na standardowym serwerze. Przy wdrożeniu on-premise (bez chmury) koszty to głównie praca inżynierska. Całość można uruchomić na serwerze za kilka tysięcy złotych miesięcznie.
Czy fine-tuning LoRA można uruchomić na własnym sprzęcie?
Tak - QLoRA pozwala trenować modele 7-13B parametrów na pojedynczej karcie GPU z 24GB VRAM (np. RTX 3090, RTX 4090). Narzędzia takie jak Unsloth dodatkowo redukują wymagania i przyspieszają trening 2x. Dla większych modeli (30-70B) potrzeba kilku kart GPU lub chmurowego klastra (AWS, GCP).
Ile danych treningowych potrzebuję do fine-tuningu?
Do LoRA fine-tuningu zazwyczaj wystarczy 500-5000 par pytanie-odpowiedź wysokiej jakości. Kluczowa jest jakość, nie ilość - 1000 dobrze przygotowanych przykładów da lepsze wyniki niż 10 000 przypadkowych. Pomagamy w przygotowaniu i walidacji datasetu.
Czy RAG można uruchomić całkowicie lokalnie, bez chmury?
Tak - cały pipeline RAG (baza wektorowa, embeddingi, model generujący) można uruchomić on-premise lub air-gapped. Używamy lokalnych modeli embeddingów (BGE, E5), baz wektorowych na własnym serwerze (Qdrant, pgvector) i modeli open-source (Llama, Mistral) do generowania. Dane nigdy nie opuszczają infrastruktury firmy.
Mam zmienne dane (regulacje, cenniki) - RAG czy fine-tuning?
Zdecydowanie RAG. Aktualizacja wiedzy w RAG to podmiana dokumentów w bazie wektorowej - minuta pracy. Aktualizacja w fine-tuningu to retrenowanie modelu - godziny pracy i koszty GPU. RAG jest stworzony do danych, które się zmieniają. Fine-tuning uzupełnia RAG tam, gdzie potrzebujesz zmienić zachowanie modelu, nie jego wiedzę.