Memilih LLM Lokal yang Tepat untuk Hardware Kamu: Panduan Benchmark Nyata

πŸ“‹ Daftar Isi

Daftar Isi

  1. Masalah Besar di Dunia LLM Lokal
  2. Kenapa β€œYang Paling Besar” Bukan Jawaban
  3. Kenalan dengan whichllm
  4. Cara Kerja Scoring System whichllm
  5. Panduan Praktis untuk Berbagai Hardware
  6. Fitur Andalan: GPU Simulation & Upgrade Planner
  7. Cara Install & Pakai whichllm
  8. Tips Memilih LLM untuk Pengguna Indonesia
  9. Kesimpulan

Masalah Besar di Dunia LLM Lokal

Bayangin kamu punya PC gaming dengan RTX 4060 8GB. Kamu pengen jalanin LLM lokal β€” model AI yang bisa jalan di komputer sendiri tanpa internet. Masalahnya: di HuggingFace ada ribuan model. Mana yang cocok? Mana yang paling bagus?

Dulu, cara gampangnya: β€œcari yang paling gede yang muat di VRAM.” Tapi ternyata cara itu salah besar.

Ukuran model itu kayak berat badan β€” nggak menjamin kualitas. Ada model 7B yang ngomongnya lebih pinter dari model 13B. Ada model baru yang performanya jauh di atas model lawas dengan ukuran sama. Kalau cuma lihat parameter, kamu bisa kelewatan model terbaik buat hardware kamu.

Di sinilah whichllm hadir sebagai solusi. Tools open-source yang lagi ngetren banget di GitHub β€” 3.500+ bintang dalam hitungan minggu β€” yang job description-nya simpel: β€œCari tahu LLM lokal terbaik buat hardware kamu.”


Kenapa β€œYang Paling Besar” Bukan Jawaban

Oke, kenapa sih kita nggak bisa asal pilih model paling gede?

Masalah 1: Parameter Bukan Segalanya

Dua model dengan jumlah parameter sama bisa punya performa sangat berbeda. Arsitektur model, data training, dan teknik optimasi jauh lebih penting.

Contoh nyata: Qwen3.6-27B dengan 27,8 miliar parameter bisa mengalahkan model 32B dari generasi sebelumnya di banyak benchmark. Lebih kecil, tapi lebih pintar.

Masalah 2: VRAM Itu Terbatas

VRAM di GPU konsumen itu mahal. RTX 4090 punya 24GB β€” cukup buat Qwen3.6-27B di kuantisasi Q5_K_M. Tapi RTX 4060 cuma 8GB β€” harus pakai kuantisasi lebih rendah atau model lebih kecil seperti Qwen3-14B.

Tanpa tools yang tepat, kamu harus:

  1. Tebak-nebak model mana yang muat
  2. Coba satu per satu (bisa berjam-jam)
  3. Berharap model yang kamu pilih nggak lemot

Masalah 3: Kecepatan Juga Penting

Model gede tapi cuma jalan 2 token per detik? Nggak enak dipake ngobrol. Model yang lebih kecil tapi responsif (30+ token/detik) malah lebih berguna buat daily use.

Baca juga: VRAM: Kunci Rahasia AI Modern β€” pahami kenapa VRAM jadi faktor krusial.


Kenalan dengan whichllm

whichllm adalah CLI (Command Line Interface) tool yang otomatis mendeteksi hardware kamu dan merekomendasikan model LLM terbaik yang cocok.

Yang bikin whichllm beda dari tools lain:

FiturwhichllmTools Lain
Benchmark nyataβœ… Pakai LiveBench, Aider, Arena ELO, dll❌ Cuma ukuran parameter
Deteksi hardware otomatisβœ… NVIDIA, AMD, Apple Silicon, CPU❌ Kamu harus input manual
Skor berbasis buktiβœ… Setiap skor punya tingkat kepercayaan❌ Skor mentah tanpa konteks
Simulasi GPU sebelum beliβœ… β€œKalau beli RTX 5090, dapet apa?β€βŒ Nggak ada
Satu klik langsung jalanβœ… whichllm run langsung chat❌ Download + setup manual
Update real-time dari HFβœ… Data model selalu fresh❌ List statis

Baca juga: GPU: Jantung Komputasi AI Modern β€” penting banget buat paham dasar GPU sebelum pakai whichllm.


Cara Kerja Scoring System whichllm

Ini bagian paling keren. whichllm nggak asal ngasih rekomendasi β€” ada 6 faktor yang dihitung buat setiap model:

FaktorBobotPenjelasan
Kualitas BenchmarkCoreGabungan dari LiveBench, Artificial Analysis, Aider, Chatbot Arena ELO, Open LLM Leaderboard
Ukuran Model~35%Semakin besar parameter, makin banyak β€œpengetahuan” (tapi bukan jaminan kualitas)
KuantisasiPenaltyKuantisasi lebih rendah (Q2, Q3) kena penalti β€” kualitas turun
Tingkat KepercayaanΓ—0.55–1.0Skor langsung dari model asli = 100%. Skor warisan dari model keluarga = 78%. Skor klaim uploader = 55%.
Cocok dengan HardwareΓ—0.5–1.0GPU penuh = maksimal. CPU-only = 50% (karena lemot).
KecepatanΒ±8 poinModel di bawah threshold kecepatan kena penalti.

Yang paling menarik: evidence confidence. whichllm bisa bedain antara:

  • βœ… direct β€” skor benchmark dari model yang sama persis
  • βœ… variant β€” model yang sama, versi Instruct atau base
  • ⚠️ base_model β€” skor dari model dasar yang lebih besar (dikurangi)
  • ❌ self_reported β€” klaim uploader tanpa verifikasi (dikurangi drastis)

Ini mencegah masalah klasik: uploader palsu yang klaim model kecilnya sepintar GPT-4.


Panduan Praktis untuk Berbagai Hardware

Berdasarkan data real dari whichllm (posisi Juni 2026), ini rekomendasi buat hardware yang umum di Indonesia:

HardwareVRAMRekomendasi TopKecepatan
RTX 509032 GBQwen3.6-27B Q6_K (skor 94.7)~40 t/s
RTX 4090 / 309024 GBQwen3.6-27B Q5_K_M (skor 92.8)~27 t/s
RTX 407012 GBQwen3-14B Q4_K_M~25 t/s
RTX 40608 GBQwen3-14B Q3_K_M (skor 71.0)~22 t/s
Apple M3/M4 Max36 GBQwen3.6-27B Q5_K_M (skor 89.4)~9 t/s
Apple M1/M28-16 GBQwen3-8B Q4_K_M~10-15 t/s
CPU Onlyβ€”gpt-oss-20b (MoE) Q4_K_M (skor 45.2)~6 t/s
Laptop Intel/AMD4-6 GBQwen3-7B Q4_K_M~8-12 t/s

Catatan: Angka di atas adalah estimasi. Hasil aktual bisa beda tergantung faktor lain kayak speed RAM, PCIe bandwidth, dan suhu.


Fitur Andalan: GPU Simulation & Upgrade Planner

Fitur paling berguna buat yang masih ragu beli hardware:

Simulasi GPU

Mau beli RTX 5090 tapi belum yakin? Tinggal jalanin:

uvx whichllm@latest --gpu "RTX 5090"

whichllm akan langsung ngasih tahu: β€œDengan RTX 5090, kamu bisa jalanin Qwen3.6-27B di Q6_K dengan ~40 token/detik. Skor 94.7.”

Bandingin sama RTX 4090:

uvx whichllm@latest --gpu "RTX 4090"

Hasil: β€œQwen3.6-27B di Q5_K_M, skor 92.8, ~27 token/detik.”

Naik dari RTX 4090 ke 5090? Dapet ~48% lebih cepat dan 2 poin skor lebih tinggi. Apakah worth it? Tergantung budget kamu.

Upgrade Planner

Buat yang punya PC dan mikir upgrade:

whichllm upgrade "RTX 4090" "RTX 5090" "H100"

Bandingin performa kartu lama vs kandidat upgrade dalam satu tampilan.

Plan: Dari Model ke GPU

Kebalikannya β€” kamu udah incer model tertentu dan mau tahu GPU minimal yang dibutuhin:

whichllm plan "llama 3 70b"

Hasil: β€œButuh minimal 42GB VRAM β€” recomended GPU: RTX 6000 Ada, 2Γ— RTX 4090.”

Baca juga: CUDA vs ROCm: Platform GPU untuk AI β€” penting buat milih GPU dengan kompatibilitas software.


Cara Install & Pakai whichllm

Gampang banget β€” nggak perlu setup project. Cukup satu baris:

# Coba langsung (tanpa install)
uvx whichllm@latest

# Atau install permanen
uv tool install whichllm

# Alternatif: pakai pip
pip install whichllm

# Atau brew (Mac)
brew install andyyyy64/whichllm/whichllm

Perintah Dasar

# Auto-detect hardware + rekomendasi
whichllm

# Pura-pura punya GPU tertentu
whichllm --gpu "RTX 4060"

# 20 rekomendasi teratas
whichllm --top 20

# Filter khusus coding
whichllm --profile coding

# Output JSON buat scripting
whichllm --json

# Langsung chat dengan model
whichllm run "qwen 2.5 1.5b gguf"

# Dapet kode Python siap pakai
whichllm snippet "qwen 7b"

Perintah whichllm run ini keren banget β€” dia otomatis download model, setup lingkungan, dan mulai sesi chat. Bisa langsung dipake tanpa ribet.


Tips Memilih LLM untuk Pengguna Indonesia

Buat teman-teman di Indonesia, beberapa catatan penting:

1. GPU Paling Umum

Di Indonesia, GPU yang paling banyak dipakai buat AI lokal:

  • RTX 3060 12GB β€” value king! VRAM 12GB di harga terjangkau
  • RTX 4060 8GB β€” entry level, cukup buat model 7B-14B
  • RTX 4090 24GB β€” high-end, bisa jalanin model sampai 30B
  • Laptop GPU 4-6GB β€” terbatas, tapi bisa pakai Qwen3-7B di kuantisasi rendah

2. CPU-Only Juga Bisa

Nggak punya GPU NVIDIA? Tenang. whichllm support CPU-only mode. Memang lebih lambat (6-10 token/detik), tapi cukup buat eksperimen dan tugas sederhana.

whichllm --cpu-only

Model MoE (Mixture of Experts) kayak gpt-oss-20b recommended buat CPU β€” karena cuma sebagai kecil parameter yang aktif tiap langkah.

3. Bahasa Indonesia

Banyak model Qwen dan Lloma yang support bahasa Indonesia dengan baik. Buat yang nggak butuh bahasa Inggris, model-model ini worth a try β€” biasanya lebih cepat karena ukuran vocab-nya lebih pas.

4. Mulai dari yang Kecil

Kalo baru pertama kali jalanin LLM lokal, mulai dari model 1.5B-3B dulu. Pake whichllm run untuk dapet model paling cocok buat hardware kamu dalam hitungan detik.


Kesimpulan

AspekIntinya
MasalahMemilih LLM lokal cuma dari jumlah parameter itu menyesatkan
Solusiwhichllm pakai benchmark nyata + deteksi hardware otomatis
Scoring6 faktor: benchmark, ukuran, kuantisasi, kepercayaan, kecocokan, kecepatan
Fitur UnggulanSimulasi GPU, upgrade planner, satu-klik run, skor berbasis bukti
Cara Mulaiuvx whichllm@latest β€” satu baris, langsung dapet rekomendasi

Dulu milih LLM lokal itu kayak milih menu di restoran tanpa bisa liat review. whichllm ngasih kamu review, rating, dan rekomendasi yang cocok sama β€œselera” hardware kamu.

Yang paling keren: karena datanya dari HuggingFace API, rekomendasinya selalu up-to-date. Model baru rilis minggu ini? Langsung muncul. Benchmark berubah? Skor otomatis menyesuaikan.

Baca juga: Machine Learning: Cara Komputer Belajar β€” pahami dasar-dasar machine learning sebelum mendalami LLM.

Baca juga: Training LLM dari Nol: Panduan Melatih Model Bahasa Besar β€” kalau kamu tertarik buat model sendiri setelah nemu yang cocok.


Artikel ini terinspirasi dari project whichllm yang sedang trending di GitHub β€” tools open-source untuk milih LLM lokal terbaik berdasarkan hardware kamu.


πŸ’¬ Punya pengalaman jalanin LLM lokal di PC kamu? Tulis di kolom komentar di bawah β€” sharing GPU apa yang kamu pakai dan model apa yang paling oke menurut kamu.

πŸ’¬ Komentar