Forum › Tecnologia › Modelli LLM quantizzati: Q4 vs Q8 nella …
Modelli LLM quantizzati: Q4 vs Q8 nella pratica
Ho fatto un po\' di test tra le varie quantizzazioni dello stesso modello.
Q4 ci sta in poca VRAM ma su compiti complessi si vede la differenza.
Q8 è più preciso ma serve quasi il doppio di memoria.
Voi che compromesso usate per i vostri carichi?
Accedi per rispondere.