Parameter, Floating Point, dan Ukuran Model AI — Memahami DNA Model Bahasa Besar

📋 Daftar Isi

Pernah lihat angka 7B, 13B, atau 70B di nama model AI seperti LLaMA, Mistral, atau Gemma? Itu adalah jumlah parameter — “sel memori” tempat model menyimpan pengetahuannya. Tapi yang jarang dibahas: kenapa model 7B yang sama bisa punya ukuran file 14 GB, 7 GB, atau bahkan 4 GB?

Jawabannya ada di floating point precision — bahasa mesin yang dipakai parameter untuk menyimpan angka. Artikel ini akan membongkar hubungan antara parameter, presisi angka, dan ukuran model — pengetahuan penting kalau kamu serius mau menjalankan AI di hardware sendiri.

Daftar Isi

Apa Itu Parameter dalam Model AI?

Bayangkan parameter sebagai sinapsis di otak buatan. Setiap parameter adalah angka — bobot yang menentukan seberapa kuat koneksi antara satu neuron dengan neuron lain. Semakin banyak parameter, semakin banyak “pengetahuan” yang bisa disimpan model.

Tapi ada catch: parameter tidak cerdas sendiri. Mereka cuma angka 0,0001 sampai 1000-an. Kecerdasan muncul dari kombinasi jutaan parameter yang bekerja sama.

AnalogiParameter Model AI
Otak manusia~100 triliun sinapsisModel GPT-4 diperkirakan ~1,8 triliun parameter
Buku resepSetiap resep = 1 parameterModel 7B = 7 miliar resep
PuzzleSetiap potongan puzzle = 1 parameterSemakin banyak potongan, semakin detail gambarnya

Model populer dan jumlah parameternya:

  • TinyLlama — 1,1 miliar parameter (1,1B) — bisa jalan di laptop tanpa GPU
  • Mistral 7B — 7 miliar parameter — standar model open-source kelas menengah
  • LLaMA 3 8B — 8 miliar parameter — versi perbaikan dari Meta
  • LLaMA 3 70B — 70 miliar parameter — butuh GPU kelas data center
  • GPT-4 — diperkirakan ~1,8 triliun parameter — milik OpenAI, closed-source

Baca juga: NPU (Neural Processing Unit) — chip khusus yang dirancang untuk menjalankan model AI dengan parameter miliaran secara efisien.

Floating Point: Bahasa Mesin Parameter

Setiap parameter adalah angka desimal — misalnya 0.48273617 atau -0.00124389. Tapi komputer tidak bisa menyimpan angka desimal sembarangan. Dia butuh format khusus: floating point.

Floating point (FP) adalah cara komputer merepresentasikan angka desimal dengan jumlah bit terbatas. Ibaratnya: kamu punya budget bit untuk menyimpan angka. Makin banyak bit yang kamu alokasikan per parameter, makin presisi angkanya — tapi makin besar juga ukuran modelnya.

Jadi persamaan dasarnya:

Ukuran Model = Jumlah Parameter × Bytes per Parameter

Di mana:

  • FP32 (32-bit) = 4 bytes per parameter
  • FP16 (16-bit) = 2 bytes per parameter
  • INT8 (8-bit) = 1 byte per parameter
  • INT4 (4-bit) = 0,5 byte per parameter

Hubungan Parameter, Presisi, dan Ukuran Model

Inilah kenapa model 7B yang sama bisa punya ukuran file beda:

PresisiBytes/ParamModel 7BModel 13BModel 70B
FP324 bytes~28 GB~52 GB~280 GB
FP162 bytes~14 GB~26 GB~140 GB
INT81 byte~7 GB~13 GB~70 GB
INT40,5 byte~3,5 GB~6,5 GB~35 GB

Lihat? Model Mistral 7B di FP16 butuh 14 GB VRAM, tapi versi INT4-nya cuma 3,5 GB — bisa jalan di laptop tanpa GPU dedicated!

Tapi ada harga yang harus dibayar: presisi rendah = kualitas lebih rendah. Angka yang kurang presisi berarti model bisa lebih sering “salah paham” konteks atau menghasilkan output yang kurang akurat.

Baca juga: VRAM (Video RAM) — kenapa VRAM adalah komponen paling krusial untuk menjalankan model AI di GPU kamu.

Jenis-Jenis Floating Point untuk AI

Dunia floating point untuk AI ternyata nggak cuma FP32 dan FP16. Ada beberapa format khusus yang dirancang untuk deep learning:

FP32 (Full Precision)

Standar lama. Setiap parameter pakai 32 bit. Akurasi tertinggi tapi boros memori. Sekarang jarang dipakai untuk inference — kebanyakan training masih pakai FP32 di beberapa lapisan.

FP16 (Half Precision)

16 bit per parameter. Dua varian:

  • FP16 standar — range terbatas, riskan overflow untuk angka besar
  • BF16 (Brain Float 16) — diciptakan Google Brain. Range lebih luas dari FP16, presisi sedikit lebih rendah. Paling populer untuk training dan inference modern.

FP8 (8-bit)

Format baru yang mulai populer di GPU NVIDIA H100/H200. Untuk inference cepat dengan kualitas yang masih bagus.

INT8 & INT4 (Integer Quantization)

Ini bukan floating point lagi — ini integer. Proses mengubah parameter dari floating point ke integer disebut kuantisasi. Hasilnya: ukuran model jauh lebih kecil, tapi ada penurunan kualitas.

FormatBitBytePenggunaanKualitas
FP32324Training deep learning★★★★★
BF16162Training + inference modern★★★★☆
FP16162Inference GPU★★★★☆
FP881Inference GPU H100★★★☆☆
INT881Inference CPU/GPU★★★☆☆
INT440,5Inference CPU/RAM terbatas★★☆☆☆

Teknik Kuantisasi yang Populer

Kuantisasi nggak asal potong angka. Ada teknik khusus:

  • GPTQ — kuantisasi berbasis optimalisasi, populer untuk GPU. Model 7B di INT4 via GPTQ hampir tidak beda dengan versi FP16.
  • GGUF — format kuantisasi untuk CPU (via llama.cpp). Bisa dipilih berbagai level: Q4_K_M, Q5_K_M, Q8_0, dll.
  • AWQ — kuantisasi aware-weight, fokus menjaga kualitas parameter paling penting.
  • QLoRA — teknik training dengan kuantisasi 4-bit, memungkinkan fine-tuning model besar di GPU konsumen.

Baca juga: CUDA vs ROCm: Platform GPU untuk AI — panduan memilih GPU berdasarkan platform yang didukung untuk menjalankan model AI.

Paradoks Parameter: Besar vs Kecil

Dunia LLM sedang ramai dengan “parameter paradox” — model lebih kecil yang performanya bisa mengalahkan model lebih besar:

Kelebihan Model Besar (70B+)

  • Pengetahuan lebih luas
  • Penalaran lebih dalam
  • Multitasking lebih baik
  • Tapi: butuh hardware mahal (GPU A100/H100)

Kelebihan Model Kecil (1B-8B)

  • Bisa jalan di laptop/Raspberry Pi
  • Inferensi cepat (real-time)
  • Bisa di-private (data tetap di lokal)
  • Tapi: pengetahuan terbatas, penalaran dangkal

Yang menarik: model Mistral 7B (7 miliar parameter) bisa mengalahkan LLaMA 2 13B (13 miliar parameter) di banyak benchmark. Artinya, arsitektur dan kualitas training sama pentingnya dengan jumlah parameter.

Tips Memilih Model Berdasarkan Hardware

Hardware KamuModel RekomendasiPresisi
RAM 8GB, tanpa GPUTinyLlama 1.1B, Phi-3 mini 3.8BINT4 Q4_K_M (GGUF)
RAM 16GB, tanpa GPUMistral 7B, Gemma 7BINT4 Q4_K_M (GGUF)
GPU 4GB VRAMLLaMA 3 8BINT4 (GPTQ/AWQ)
GPU 8GB VRAM (RTX 3070)Mistral 7B, LLaMA 3 8BFP16 atau INT8
GPU 12GB VRAM (RTX 3080)LLaMA 3 8B, Qwen 2.5 14BFP16
GPU 24GB VRAM (RTX 4090)LLaMA 3 70BINT4 (GPTQ)
2× GPU 80GB (A100/H100)LLaMA 3 70B, Mixtral 8x22BFP16/BF16

Cara Cek Ukuran Model Sebelum Download

Kalau kamu mau download model dari Hugging Face, hitung dulu kebutuhan VRAM/RAM:

Ukuran Memori = Parameter × Bytes per Parameter × 1.2 (buffer overhead)

Contoh: Mistral 7B di FP16

7.000.000.000 × 2 bytes × 1.2 = 16.800.000.000 bytes ≈ 15,6 GB

Kalau GPU-mu cuma 8GB, kamu butuh versi INT4:

7.000.000.000 × 0,5 bytes × 1.2 = 4.200.000.000 bytes ≈ 3,9 GB ✅

Baca juga: Memilih LLM Lokal untuk Hardware Kamu — panduan lengkap memilih model yang tepat berdasarkan spesifikasi PC atau laptop.

Kesimpulan

AspekIntinya
ParameterJumlah “pengetahuan” model — makin banyak makin pintar, tapi makin besar ukurannya
Floating PointFormat penyimpanan parameter — makin presisi makin besar filenya
Ukuran ModelParameter × Bytes per parameter — 7B di FP16 = 14GB, di INT4 = 3,5GB
KuantisasiTeknik mengecilkan ukuran dengan mengorbankan sedikit kualitas
TipsSesuaikan presisi model dengan VRAM/RAM yang kamu punya

Intinya: Jumlah parameter memang penting, tapi jangan tertipu — model 7B yang di-kuantisasi dengan baik bisa lebih berguna daripada model 70B yang nggak bisa kamu jalankan karena keterbatasan hardware. Pahami parameter, floating point, dan kebutuhan hardware-mu, baru pilih model yang tepat.


Artikel ini adalah bagian dari Series AI. Pelajari juga tentang GPU sebagai jantung komputasi AI modern dan NPU untuk chip AI khusus.

💬 Komentar