Parameter, Floating Point, dan Ukuran Model AI — Memahami DNA Model Bahasa Besar
📋 Daftar Isi
Pernah lihat angka 7B, 13B, atau 70B di nama model AI seperti LLaMA, Mistral, atau Gemma? Itu adalah jumlah parameter — “sel memori” tempat model menyimpan pengetahuannya. Tapi yang jarang dibahas: kenapa model 7B yang sama bisa punya ukuran file 14 GB, 7 GB, atau bahkan 4 GB?
Jawabannya ada di floating point precision — bahasa mesin yang dipakai parameter untuk menyimpan angka. Artikel ini akan membongkar hubungan antara parameter, presisi angka, dan ukuran model — pengetahuan penting kalau kamu serius mau menjalankan AI di hardware sendiri.
Daftar Isi
- Apa Itu Parameter dalam Model AI?
- Floating Point: Bahasa Mesin Parameter
- Hubungan Parameter, Presisi, dan Ukuran Model
- Jenis-Jenis Floating Point untuk AI
- Paradoks Parameter: Besar vs Kecil
- Tips Memilih Model Berdasarkan Hardware
- Kesimpulan
Apa Itu Parameter dalam Model AI?
Bayangkan parameter sebagai sinapsis di otak buatan. Setiap parameter adalah angka — bobot yang menentukan seberapa kuat koneksi antara satu neuron dengan neuron lain. Semakin banyak parameter, semakin banyak “pengetahuan” yang bisa disimpan model.
Tapi ada catch: parameter tidak cerdas sendiri. Mereka cuma angka 0,0001 sampai 1000-an. Kecerdasan muncul dari kombinasi jutaan parameter yang bekerja sama.
| Analogi | Parameter Model AI | |
|---|---|---|
| Otak manusia | ~100 triliun sinapsis | Model GPT-4 diperkirakan ~1,8 triliun parameter |
| Buku resep | Setiap resep = 1 parameter | Model 7B = 7 miliar resep |
| Puzzle | Setiap potongan puzzle = 1 parameter | Semakin banyak potongan, semakin detail gambarnya |
Model populer dan jumlah parameternya:
- TinyLlama — 1,1 miliar parameter (1,1B) — bisa jalan di laptop tanpa GPU
- Mistral 7B — 7 miliar parameter — standar model open-source kelas menengah
- LLaMA 3 8B — 8 miliar parameter — versi perbaikan dari Meta
- LLaMA 3 70B — 70 miliar parameter — butuh GPU kelas data center
- GPT-4 — diperkirakan ~1,8 triliun parameter — milik OpenAI, closed-source
Baca juga: NPU (Neural Processing Unit) — chip khusus yang dirancang untuk menjalankan model AI dengan parameter miliaran secara efisien.
Floating Point: Bahasa Mesin Parameter
Setiap parameter adalah angka desimal — misalnya 0.48273617 atau -0.00124389. Tapi komputer tidak bisa menyimpan angka desimal sembarangan. Dia butuh format khusus: floating point.
Floating point (FP) adalah cara komputer merepresentasikan angka desimal dengan jumlah bit terbatas. Ibaratnya: kamu punya budget bit untuk menyimpan angka. Makin banyak bit yang kamu alokasikan per parameter, makin presisi angkanya — tapi makin besar juga ukuran modelnya.
Jadi persamaan dasarnya:
Ukuran Model = Jumlah Parameter × Bytes per Parameter
Di mana:
- FP32 (32-bit) = 4 bytes per parameter
- FP16 (16-bit) = 2 bytes per parameter
- INT8 (8-bit) = 1 byte per parameter
- INT4 (4-bit) = 0,5 byte per parameter
Hubungan Parameter, Presisi, dan Ukuran Model
Inilah kenapa model 7B yang sama bisa punya ukuran file beda:
| Presisi | Bytes/Param | Model 7B | Model 13B | Model 70B |
|---|---|---|---|---|
| FP32 | 4 bytes | ~28 GB | ~52 GB | ~280 GB |
| FP16 | 2 bytes | ~14 GB | ~26 GB | ~140 GB |
| INT8 | 1 byte | ~7 GB | ~13 GB | ~70 GB |
| INT4 | 0,5 byte | ~3,5 GB | ~6,5 GB | ~35 GB |
Lihat? Model Mistral 7B di FP16 butuh 14 GB VRAM, tapi versi INT4-nya cuma 3,5 GB — bisa jalan di laptop tanpa GPU dedicated!
Tapi ada harga yang harus dibayar: presisi rendah = kualitas lebih rendah. Angka yang kurang presisi berarti model bisa lebih sering “salah paham” konteks atau menghasilkan output yang kurang akurat.
Baca juga: VRAM (Video RAM) — kenapa VRAM adalah komponen paling krusial untuk menjalankan model AI di GPU kamu.
Jenis-Jenis Floating Point untuk AI
Dunia floating point untuk AI ternyata nggak cuma FP32 dan FP16. Ada beberapa format khusus yang dirancang untuk deep learning:
FP32 (Full Precision)
Standar lama. Setiap parameter pakai 32 bit. Akurasi tertinggi tapi boros memori. Sekarang jarang dipakai untuk inference — kebanyakan training masih pakai FP32 di beberapa lapisan.
FP16 (Half Precision)
16 bit per parameter. Dua varian:
- FP16 standar — range terbatas, riskan overflow untuk angka besar
- BF16 (Brain Float 16) — diciptakan Google Brain. Range lebih luas dari FP16, presisi sedikit lebih rendah. Paling populer untuk training dan inference modern.
FP8 (8-bit)
Format baru yang mulai populer di GPU NVIDIA H100/H200. Untuk inference cepat dengan kualitas yang masih bagus.
INT8 & INT4 (Integer Quantization)
Ini bukan floating point lagi — ini integer. Proses mengubah parameter dari floating point ke integer disebut kuantisasi. Hasilnya: ukuran model jauh lebih kecil, tapi ada penurunan kualitas.
| Format | Bit | Byte | Penggunaan | Kualitas |
|---|---|---|---|---|
| FP32 | 32 | 4 | Training deep learning | ★★★★★ |
| BF16 | 16 | 2 | Training + inference modern | ★★★★☆ |
| FP16 | 16 | 2 | Inference GPU | ★★★★☆ |
| FP8 | 8 | 1 | Inference GPU H100 | ★★★☆☆ |
| INT8 | 8 | 1 | Inference CPU/GPU | ★★★☆☆ |
| INT4 | 4 | 0,5 | Inference CPU/RAM terbatas | ★★☆☆☆ |
Teknik Kuantisasi yang Populer
Kuantisasi nggak asal potong angka. Ada teknik khusus:
- GPTQ — kuantisasi berbasis optimalisasi, populer untuk GPU. Model 7B di INT4 via GPTQ hampir tidak beda dengan versi FP16.
- GGUF — format kuantisasi untuk CPU (via llama.cpp). Bisa dipilih berbagai level: Q4_K_M, Q5_K_M, Q8_0, dll.
- AWQ — kuantisasi aware-weight, fokus menjaga kualitas parameter paling penting.
- QLoRA — teknik training dengan kuantisasi 4-bit, memungkinkan fine-tuning model besar di GPU konsumen.
Baca juga: CUDA vs ROCm: Platform GPU untuk AI — panduan memilih GPU berdasarkan platform yang didukung untuk menjalankan model AI.
Paradoks Parameter: Besar vs Kecil
Dunia LLM sedang ramai dengan “parameter paradox” — model lebih kecil yang performanya bisa mengalahkan model lebih besar:
Kelebihan Model Besar (70B+)
- Pengetahuan lebih luas
- Penalaran lebih dalam
- Multitasking lebih baik
- Tapi: butuh hardware mahal (GPU A100/H100)
Kelebihan Model Kecil (1B-8B)
- Bisa jalan di laptop/Raspberry Pi
- Inferensi cepat (real-time)
- Bisa di-private (data tetap di lokal)
- Tapi: pengetahuan terbatas, penalaran dangkal
Yang menarik: model Mistral 7B (7 miliar parameter) bisa mengalahkan LLaMA 2 13B (13 miliar parameter) di banyak benchmark. Artinya, arsitektur dan kualitas training sama pentingnya dengan jumlah parameter.
Tips Memilih Model Berdasarkan Hardware
| Hardware Kamu | Model Rekomendasi | Presisi |
|---|---|---|
| RAM 8GB, tanpa GPU | TinyLlama 1.1B, Phi-3 mini 3.8B | INT4 Q4_K_M (GGUF) |
| RAM 16GB, tanpa GPU | Mistral 7B, Gemma 7B | INT4 Q4_K_M (GGUF) |
| GPU 4GB VRAM | LLaMA 3 8B | INT4 (GPTQ/AWQ) |
| GPU 8GB VRAM (RTX 3070) | Mistral 7B, LLaMA 3 8B | FP16 atau INT8 |
| GPU 12GB VRAM (RTX 3080) | LLaMA 3 8B, Qwen 2.5 14B | FP16 |
| GPU 24GB VRAM (RTX 4090) | LLaMA 3 70B | INT4 (GPTQ) |
| 2× GPU 80GB (A100/H100) | LLaMA 3 70B, Mixtral 8x22B | FP16/BF16 |
Cara Cek Ukuran Model Sebelum Download
Kalau kamu mau download model dari Hugging Face, hitung dulu kebutuhan VRAM/RAM:
Ukuran Memori = Parameter × Bytes per Parameter × 1.2 (buffer overhead)
Contoh: Mistral 7B di FP16
7.000.000.000 × 2 bytes × 1.2 = 16.800.000.000 bytes ≈ 15,6 GB
Kalau GPU-mu cuma 8GB, kamu butuh versi INT4:
7.000.000.000 × 0,5 bytes × 1.2 = 4.200.000.000 bytes ≈ 3,9 GB ✅
Baca juga: Memilih LLM Lokal untuk Hardware Kamu — panduan lengkap memilih model yang tepat berdasarkan spesifikasi PC atau laptop.
Kesimpulan
| Aspek | Intinya |
|---|---|
| Parameter | Jumlah “pengetahuan” model — makin banyak makin pintar, tapi makin besar ukurannya |
| Floating Point | Format penyimpanan parameter — makin presisi makin besar filenya |
| Ukuran Model | Parameter × Bytes per parameter — 7B di FP16 = 14GB, di INT4 = 3,5GB |
| Kuantisasi | Teknik mengecilkan ukuran dengan mengorbankan sedikit kualitas |
| Tips | Sesuaikan presisi model dengan VRAM/RAM yang kamu punya |
Intinya: Jumlah parameter memang penting, tapi jangan tertipu — model 7B yang di-kuantisasi dengan baik bisa lebih berguna daripada model 70B yang nggak bisa kamu jalankan karena keterbatasan hardware. Pahami parameter, floating point, dan kebutuhan hardware-mu, baru pilih model yang tepat.
Artikel ini adalah bagian dari Series AI. Pelajari juga tentang GPU sebagai jantung komputasi AI modern dan NPU untuk chip AI khusus.