ElevenLabs Eleven v3 resmi tersedia untuk umum (General Availability) setelah melalui fase alpha. Model ini bukan sekadar upgrade biasa: ElevenLabs membangunnya dari nol untuk menjawab satu kelemahan besar model sebelumnya, yaitu kurangnya ekspresi emosi yang dalam. Artikel ini merangkum 11 fitur baru v3 dengan penjelasan yang mudah dipahami siapa saja.
Apa yang Berubah dari Eleven v2 ke Eleven v3?
Masalah Utama yang Diselesaikan v3
Sejak meluncurkan Multilingual v2, ElevenLabs menerima satu keluhan berulang dari pengguna profesional di industri film, game, dan audiobook: suaranya terlalu datar. Emosi terasa dibuat-buat, bukan mengalir secara alami. Eleven v3 dibangun dari nol khusus untuk mengatasi hal ini dengan kemampuan menghela napas, berbisik, tertawa, dan bereaksi seperti manusia sungguhan.
Perbedaan Mencolok v2 vs v3
| Fitur | Eleven v2 | Eleven v3 |
|---|---|---|
| Bahasa didukung | 29 bahasa | 70+ bahasa |
| Kontrol emosi | Terbatas | Audio tags inline |
| Dialog multipembicara | Tidak ada | Text to Dialogue API |
| Suara non-verbal | Tidak ada | [sighs], [laughs], [gasps] |
| Eror teks kompleks | Tinggi | Turun 68% |
11 Fitur Baru ElevenLabs Eleven v3
1. Audio Tags: Kontrol Emosi Langsung di Dalam Teks
Audio tags adalah inovasi terbesar di v3. Anda cukup menambahkan perintah dalam kurung siku langsung di dalam skrip, dan model akan mengikutinya secara instan. Tidak perlu edit audio secara manual.
Contoh penggunaan: [whispers] Sesuatu datang… [sighs] Aku bisa merasakannya.
Atau kombinasi beberapa tag sekaligus: [happily][shouts] Kita berhasil! [laughs]
Menurut dokumentasi resmi ElevenLabs, audio tags mendukung kontrol tone, emosi, dan reaksi non-verbal secara inline tanpa perlu memotong file audio.
2. Ekspresi Emosi Manusiawi yang Dalam
Eleven v3 membaca subteks emosional dari skrip, bukan hanya kata per kata. Anda bisa memicu emosi spesifik lewat tag seperti [excited], [nervous], [sad], hingga [sarcastic]. Ini berguna untuk konten audiobook, dubbing film, atau narasi podcast yang butuh nuansa emosional nyata.
3. Mode Dialog Multipembicara (Text to Dialogue API)
Fitur ini memungkinkan Anda membuat percakapan antar beberapa karakter dalam satu kali proses. Anda mengirim array JSON berisi giliran bicara tiap karakter, dan model menghasilkan audio yang terasa mengalir alami dengan transisi emosi yang terhubung. Text to Dialogue API ini tersedia langsung melalui endpoint baru di ElevenLabs.
4. Suara Non-Verbal yang Realistis
Model v3 bisa mengekspresikan reaksi fisik manusia yang sering hilang di TTS biasa. Tag yang tersedia antara lain: [sighs] (menghela napas), [laughs] (tertawa), [gasps] (tersengal kaget), dan [gulps] (menelan ludah). Suara-suara kecil ini yang membuat audio terdengar hidup, bukan seperti robot membaca teks.
5. Kontrol Penyampaian Vokal (Delivery Control)
Anda bisa mengatur cara karakter berbicara secara sangat spesifik. Tag [whispers] untuk berbisik, [shouts] untuk berteriak, [stammers] atau [hesitant] untuk efek terbata-bata saat gugup. Kontrol ini memberi Anda kendali setara sutradara suara profesional tanpa harus punya studio rekaman.
6. Pergantian Aksen di Tengah Kalimat
Satu karakter suara bisa berganti aksen di tengah kalimat tanpa perlu mengganti model. Anda cukup menyisipkan tag seperti [British accent], [French accent], atau [Russian accent] langsung di dalam skrip. Ini fitur yang berguna untuk konten pembelajaran bahasa atau karakter fiksi yang multikultural.
7. Efek Suara Lingkungan dari Teks
Selain suara vokal, v3 bisa menghasilkan efek suara lingkungan langsung dari skrip. Tag seperti [applause] (tepuk tangan), [clapping], atau [door creaks] (pintu berderit) bisa disisipkan kapan saja. Ini menghemat waktu produksi karena Anda tidak perlu menambahkan efek suara secara terpisah di software editing.
8. Interupsi dan Overlapping Antar Karakter
Dalam Text to Dialogue, percakapan bisa terasa organik karena model menangani interupsi dinamis. Tag [interrupting] atau [overlapping] membuat satu karakter bisa memotong pembicaraan karakter lain dengan timing yang tepat, persis seperti percakapan manusia yang sebenarnya.
9. Dukungan Lebih dari 70 Bahasa
Eleven v3 memperluas dukungan bahasa dari 29 bahasa di v2 menjadi 70+ bahasa, termasuk bahasa Indonesia. Ekspansi ini mempertahankan kualitas ekspresi emosi di semua bahasa, bukan sekadar menambah jumlah tanpa menjaga kualitas.
10. Pengurangan Eror Teks Kompleks hingga 68%
Pada versi GA (General Availability), ElevenLabs memperbaiki kemampuan membaca format teks yang rumit.
Eror pembacaan pada rumus kimia, angka mata uang, koordinat geografis, ekspresi matematika, URL, dan email turun drastis sebesar 68% dibanding versi alpha sebelumnya. Ini penting untuk konten teknis, edukasi, atau laporan bisnis.
11. Tiga Mode Stabilitas Baru
Untuk mengimbangi kontrol kreatif yang tinggi, v3 memperkenalkan tiga mode parameter:
- Creative: Ekspresi maksimal, sangat responsif terhadap audio tags. Cocok untuk konten fiksi atau dramatis, tapi berisiko halusinasi suara jika skrip kurang detail.
- Natural: Keseimbangan antara ekspresi emosi yang kaya dengan akurasi pembacaan skrip. Pilihan terbaik untuk kebanyakan use case.
- Robust: Sangat stabil dan konsisten. Cocok untuk konten informatif atau korporat, tapi kurang responsif terhadap tag audio ekstrem.
Key Takeaway
FAQ: Pertanyaan yang Sering Diajukan
Q1: Apakah Eleven v3 bisa dipakai gratis?
A1: Eleven v3 tersedia untuk semua pengguna ElevenLabs, termasuk paket berbayar. Untuk mencoba fitur dasarnya, Anda perlu login ke akun ElevenLabs dan memilih model v3 di Model Picker. Paket gratis ElevenLabs memiliki batasan karakter per bulan.
Q2: Apa itu audio tags? Apakah susah dipakai?
A2: Audio tags adalah perintah dalam format [kata] yang disisipkan langsung di dalam skrip. Contoh: [laughs] membuat suara tertawa, [whispers] membuat suara berbisik. Sangat mudah, tidak perlu keahlian teknis sama sekali.
Q3: Apakah v3 mendukung bahasa Indonesia?
A3: Ya. Eleven v3 mendukung lebih dari 70 bahasa termasuk bahasa Indonesia, dengan kualitas emosi yang dipertahankan di semua bahasa yang didukung.
Q4: Apa bedanya mode Creative, Natural, dan Robust?
A4: Creative memberi ekspresi maksimal tapi kadang tidak konsisten. Natural menyeimbangkan keduanya dan cocok untuk kebanyakan proyek. Robust sangat stabil dan cocok untuk konten korporat atau informatif yang butuh konsistensi tinggi.
Q5: Bisakah v3 digunakan untuk voice agent atau chatbot suara real-time?
A5: Tidak disarankan. ElevenLabs sendiri merekomendasikan Eleven v2.5 Turbo atau Flash untuk kebutuhan real-time karena latensi v3 lebih tinggi. V3 optimal untuk produksi audio pre-recorded.
Q6: Apa itu Text to Dialogue API?
A6: Text to Dialogue API adalah endpoint baru yang menerima array JSON berisi giliran bicara beberapa karakter, lalu menghasilkan satu file audio dengan transisi natural antar pembicara. Berbeda dari TTS biasa yang hanya menangani satu suara per proses.
Q7: Apakah Professional Voice Clone (PVC) bisa dipakai di v3?
A7: Belum optimal. ElevenLabs menyatakan PVC belum sepenuhnya dioptimalkan untuk v3 sehingga kualitas kloningnya bisa lebih rendah. Disarankan menggunakan Instant Voice Clone (IVC) atau suara desain bawaan untuk sementara ini.
Mau Tahu Cara Terbaik Pakai ElevenLabs untuk Bisnis Anda?
Tim Olakses siap bantu Anda memilih paket yang tepat, setup pertama kali, dan memaksimalkan fitur v3 untuk konten audio profesional.

Muhammad Dwiki Septianto is an SEO Specialist at Olakses with a background in Informatics Engineering from UIN Bandung. Certified in Digital Marketing (BNSP), he specializes in on-page and technical SEO, content optimization, and cross-functional coordination between content and development teams.

