Voice AI în română: cât de bine sună în 2026?
Test pe modelele de voce TTS pentru română (ElevenLabs, OpenAI, Cartesia) — care sună natural și care încă strigă „robot".
Acum doi ani, vocea AI în română suna ca un GPS din 2010. În 2026, cele mai bune modele sunt practic indistinctibile de o voce umană pentru apeluri scurte (sub 3 minute). Am testat cele 4 motoare principale pe scenarii reale de recepționist.
Criterii de evaluare
- Naturalețe (intonație, pauze, ritm)
- Pronunție corectă a diacriticelor (ă, â, î, ș, ț)
- Latență de generare (sub 400ms = conversațional)
- Capacitatea de a întrerupe și a fi întrerupt (barge-in)
- Cost per minut
Rezultate scurte
ElevenLabs Turbo v3 — cel mai natural, latență 280ms, 0,18 €/min. Cartesia Sonic — cel mai rapid (140ms), naturalețe foarte bună, 0,12 €/min. OpenAI Realtime — excelent pentru conversații lungi, 0,30 €/min. Google Chirp — bun raport calitate-preț pentru volume mari.
Concluzia practică
Pentru recepționist AI în clinici, restaurante și service auto, Cartesia + un LLM rapid (Groq Llama 3.3) este combinația cu cel mai bun raport latență/preț. Pentru brand-uri premium care vor voce „de prezentator radio", ElevenLabs rămâne standardul.
Vrei să discutăm despre afacerea ta?
Programează un apel gratuit de 30 minute. Îți spunem direct dacă AI-ul are sens pentru tine.
Programează apel