Foto bersama peserta meetup BandungPy Mei 2025 di Sans. Co Space Dago, Bandung
Event
BandungPy
LLM Routing
Python

CTO Intura Berbicara di BandungPy tentang LLM Routing untuk Efisiensi dan High Availability

Kembali ke Berita

Tanggal

Sabtu, 3 Mei 2025

Waktu

11:00 WIB

Lokasi

Sans. Co Space Dago

Bandung, Indonesia

Penyelenggara

Komunitas Bandung.py

//

Judul Talk

Implementasi LLM Routing dengan Python untuk Meningkatkan Efisiensi dan High Availability

Bandung, Mei 2025 — Di Sans. Co Space Dago pada pagi hari Sabtu, 3 Mei, komunitas Python Bandung berkumpul untuk meetup bulannya. Dalam agenda bersama sesi tentang MicroPython dan protokol IoT: sebuah talk oleh Muhammad Ramadiansyah — Co-Founder dan CTO Intura — tentang salah satu masalah praktis paling mendesak yang dihadapi engineer yang membangun produk AI hari ini. Bukan cara menggunakan LLM. Melainkan bagaimana memutuskan model mana yang dipakai — dan bagaimana membangun sistem yang membuat keputusan tersebut secara cerdas, otomatis, dan dengan biaya serendah mungkin.

Sorotan Utama

LLM Routing dalam Praktik

Walkthrough langsung cara merutekan berbagai task ke model yang paling cost-effective dan capable — dalam Python, di lingkungan produksi

SDK Open Source

Paket `intura-ai` di PyPI diperkenalkan: Python SDK untuk LLM routing yang cerdas dan terpersonalisasi

Pendekatan ROI-First

Sesi ini membahas konsumsi token dan pricing secara langsung — bagaimana memaksimalkan kualitas output sambil meminimalkan pengeluaran yang tidak perlu

Komunitas BandungPy

Dipresentasikan kepada komunitas Python terbesar di Bandung — developer, engineer, dan mahasiswa yang membangun dengan AI hari ini

Masalah yang Dihadapi Setiap AI Engineer

Setahun lalu, pertanyaannya adalah apakah perlu menggunakan LLM sama sekali. Hari ini, pertanyaannya adalah model mana yang harus dipakai. GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, Llama 3, Mistral, Qwen — daftar model yang capable terus bertambah setiap kuartal, dan masing-masing memiliki harga per token yang berbeda, profil latency yang berbeda, serangkaian task yang dikuasai dengan baik, dan risiko downtime atau perubahan perilaku yang berbeda setelah update.

Bagi startup atau tim engineering yang membangun produk AI, fragmentasi ini bukan masalah akademis. Ini adalah masalah operasional harian. Kamu membayar token pada setiap request. Kamu bergantung pada uptime model untuk ketersediaan produkmu. Kamu mendapatkan kualitas output yang berbeda tergantung model mana yang dipanggil untuk task apa — dan sebagian besar waktu, keputusan default "gunakan saja model terbaik untuk segalanya" adalah pendekatan yang paling mahal sekaligus paling rapuh.

Inilah masalah yang menjadi fondasi sesi Muhammad di BandungPy: bagaimana membangun layer LLM routing — dalam Python, menggunakan pola yang benar-benar bisa diadopsi tim engineering nyata — yang memecahkan ketiga dimensi masalah ini secara bersamaan? Biaya, kapabilitas, dan ketersediaan.

Poster meetup BandungPy Mei 2025 menampilkan Muhammad Ramadiansyah, CTO Intura
Poster meetup BandungPy Mei 2025 — Muhammad Ramadiansyah, CTO Intura, berbicara tentang LLM Routing dengan Python

BandungPy: Tempat Engineer Python Bandung Berkumpul

BandungPy adalah komunitas Python terbesar di Bandung — pertemuan rutin developer, engineer, data scientist, dan mahasiswa yang membangun dengan Python dalam pekerjaan sehari-hari dan proyek sampingan mereka. Meetup-nya bersifat hands-on dan berbasis teknis: bukan panggung keynote dan pitch sponsor, melainkan engineer yang berbagi apa yang telah mereka pelajari dari pekerjaan nyata.

Edisi Mei 2025 diadakan di Sans. Co Space Dago — venue santai di kawasan Dago yang memberikan energi yang tepat untuk sesi ini: cukup informal untuk percakapan teknis yang jujur, cukup fokus untuk transfer pengetahuan yang nyata. Ruangan penuh dengan engineer yang membuka laptop, yang merupakan konteks ideal bagi sebuah talk tentang Python SDK.

Talk-nya: LLM Routing dengan Python

Muhammad membuka dengan realitas struktural yang telah dihadapi setiap engineer di ruangan tetapi mungkin belum pernah diberi nama: pasar LLM sedang terfragmentasi dengan cepat, dan kesenjangan biaya serta kapabilitas antar model cukup besar untuk benar-benar berarti dalam skala besar. Request yang menelan biaya $0,015 di satu model mungkin hanya $0,0005 di model lain — untuk task yang sama, dengan kualitas output yang sebanding. Kalikan dengan jutaan request dan perbedaannya bukan lagi kesalahan pembulatan. Ini adalah hasil bisnis.

Inti dari sesi ini adalah konsep LLM routing: praktik membangun decision layer ke dalam aplikasi AI yang mengevaluasi setiap task yang masuk — berdasarkan kompleksitasnya, kapabilitas yang dibutuhkan, toleransi latency, dan anggaran biaya — lalu meroutekannya ke model yang paling sesuai. Bukan selalu model terbaik. Model yang paling sesuai untuk task spesifik tersebut dalam konteks spesifik itu.

Ini bukan ide baru dalam rekayasa sistem. Load balancing, traffic routing, dan pola service mesh telah ada selama puluhan tahun. Yang baru adalah menerapkan pola-pola tersebut ke dunia language model — di mana "layanan" yang diroutekan memiliki karakteristik output yang bermakna berbeda, bukan hanya profil performa. Layer routing untuk LLM harus memahami apa yang dikuasai setiap model, bukan hanya apakah ia tersedia dan cepat.

Muhammad Ramadiansyah mempresentasikan LLM routing dengan Python di BandungPy Mei 2025, Sans. Co Space Dago Bandung
Muhammad Ramadiansyah mempresentasikan implementasi LLM routing dengan Python kepada komunitas BandungPy di Sans. Co Space Dago

Setiap LLM memiliki profil harga, kecepatan, dan kapabilitas yang berbeda. Routing secara buta — mengirim setiap task ke model yang sama — adalah salah satu kesalahan paling mahal yang dapat dilakukan sebuah tim engineering. Engineer yang tahu cara mencocokkan model yang tepat dengan task yang tepat akan memiliki keunggulan biaya struktural yang terus bertumbuh seiring waktu.

Intura AI: SDK yang Dibangun untuk Masalah Ini

Bagian praktis utama dari sesi ini adalah pengenalan intura-ai — SDK Python open source Intura, tersedia di PyPI, yang mengimplementasikan LLM routing cerdas secara langsung. SDK ini dibangun berdasarkan observasi bahwa sebagian besar tim engineering akhirnya membangun sendiri beberapa versi logika routing ini, dengan cara yang terfragmentasi dan ad-hoc, setiap kali mereka menskalakan aplikasi AI melewati ambang kompleksitas tertentu.

Dengan `intura-ai`, logika routing dieksternalisasi dan dipersonalisasi. Engineer mendefinisikan profil task mereka — jenis output apa yang dibutuhkan, jendela latency yang dapat diterima, batas biaya — dan SDK yang menangani keputusan pemilihan model. SDK ini mengabstraksi perbedaan API spesifik vendor, mengelola fallback ketika model tidak tersedia, dan melacak pola konsumsi dari waktu ke waktu sehingga keputusan routing dapat terus ditingkatkan.

Framingnya secara eksplisit adalah ROI-first. Konsumsi token sudah menjadi pos biaya signifikan bagi tim mana pun yang menjalankan AI dalam skala besar, dan lintasan harga — seiring model semakin capable dan permintaan inferensi tumbuh — tidak dijamin akan turun. Tim yang membangun infrastruktur routing cerdas sekarang sedang membangun cost moat: keunggulan struktural yang semakin besar seiring pertumbuhan penggunaan mereka.

Anggota komunitas BandungPy mengikuti sesi LLM routing di meetup Mei 2025
Peserta meetup BandungPy Mei 2025 mengikuti sesi LLM routing — developer dan engineer dari komunitas Python Bandung

Respons Peserta

Komunitas BandungPy bukan audiens yang pasif. Para engineer mengajukan pertanyaan nyata dari sistem nyata: bagaimana routing berinteraksi dengan percakapan stateful? Bagaimana menangani kasus di mana kompleksitas task sulit diklasifikasikan dari awal? Bagaimana perilaku fallback saat model utama mencapai batas rate di tengah sesi?

Inilah pertanyaan-pertanyaan yang mengasah sebuah produk. Sesi ini sama-sama merupakan feedback loop maupun presentasi — jenis percakapan teknis yang hanya mungkin terjadi di komunitas di mana orang-orang yang hadir secara aktif membangun, bukan hanya belajar tentang membangun. Beberapa engineer menyatakan ketertarikan untuk berkontribusi atau mengintegrasikan SDK ke pipeline mereka yang sudah ada.

Mengapa Talk Ini, Mengapa Sekarang

Masalah LLM routing bukan masalah masa depan. Ini adalah masalah masa kini, dan semakin akut setiap kuartal seiring bertambahnya jumlah model yang tersedia, semakin lebarnya diferensiasi kapabilitas antar tier model, dan semakin banyaknya tim engineering yang memindahkan fitur AI dari prototipe ke produksi. Engineer yang memahami routing lebih awal akan memiliki sistem yang lebih murah dijalankan, lebih tangguh, dan lebih mudah dioptimalkan.

Berbagi ini di BandungPy — bersama komunitas Python Bandung, dalam format terbuka dan praktis — mencerminkan sesuatu yang Intura yakini tentang bagaimana ide teknis yang baik seharusnya bergerak melalui ekosistem. Bukan dikunci di balik siklus penjualan atau tooling proprietary, tetapi tersedia untuk setiap engineer yang ingin membangun sistem AI yang lebih baik. SDK `intura-ai` bersifat open source untuk alasan itulah.

Kami berterima kasih kepada BandungPy dan komunitas atas ruang, pertanyaan, dan energi yang diberikan. Percakapan yang dimulai pada 3 Mei di Bandung adalah percakapan yang akan kami lanjutkan.

Intura adalah platform desain berbasis AI yang menyediakan data-driven insights, memprediksi kinerja desain sebelum launching, dan memberikan rekomendasi yang mempercepat time-to-market, mengurangi decision fatigue, dan menjaga konsistensi branding.

BandungPy
LLM Routing
Python
Open Source
Developer Community