Sonic Multilingual

CartesiaText-to-SpeechMultilingualBetaProprietaryvm-cart-002

About

Multilingual extension of Cartesia's Sonic architecture supporting real-time synthesis across additional languages with the same state-space model efficiency. Maintains ultra-low latency while expanding language and accent coverage.

Capabilities (5)

State-space architecture

Multilingual expansion

Ultra-low latency

Accent diversity

Streaming output

161 chars

Speed1.0x

Pitch1.0

0:00.00

Key Highlights

State-space efficiency extended across 20+ languages

Maintains sub-50ms model latency for all supported languages

Natural accent handling without per-language fine-tuning

Use Cases

Audiobook Narration

Generate natural-sounding narration for long-form content with consistent voice quality.

Notification Systems

Deliver voice alerts and notifications with expressive, human-like speech synthesis.

Multilingual Content

Produce audio content in multiple languages from a single text source.

Real-Time Voice Chat

Power low-latency voice responses in interactive applications and games.

Code Example

// Sonic Multilingual — Text-to-Speech
import { synthesize } from "@arkitekton/voice";

const audio = await synthesize({
  model: "vm-cart-002",
  vendor: "cartesia",
  input: "Hello, welcome to Arkitekton.",
  voice: "alloy",
  response_format: "mp3",
  speed: 1.0,
});

// Play the audio
const blob = new Blob([audio], { type: "audio/mp3" });
const url = URL.createObjectURL(blob);
const player = new Audio(url);
player.play();

Related Models

PersonaPlex 7B

NVIDIA

NeMo TTS

NVIDIA

Riva

NVIDIA

ACE (Avatar Cloud Engine)

NVIDIA

gpt-4o-realtime

OpenAI

gpt-4o-mini-realtime

OpenAI

Quick Stats

Latency45ms model latency

Languages20 supported

LicenseProprietary

PricingFrom $0.10 / 1K characters

StatusBeta

Vendor

Cartesia

State-space model architecture for ultra-low-latency voice

View all Cartesia models

Documentation

View on Cartesia Site

Audiobook Narration

Generate natural-sounding narration for long-form content with consistent voice quality.

Notification Systems

Deliver voice alerts and notifications with expressive, human-like speech synthesis.

Multilingual Content

Produce audio content in multiple languages from a single text source.

Real-Time Voice Chat

Power low-latency voice responses in interactive applications and games.

Code Example

// Sonic Multilingual — Text-to-Speech
import { synthesize } from "@arkitekton/voice";

const audio = await synthesize({
  model: "vm-cart-002",
  vendor: "cartesia",
  input: "Hello, welcome to Arkitekton.",
  voice: "alloy",
  response_format: "mp3",
  speed: 1.0,
});

// Play the audio
const blob = new Blob([audio], { type: "audio/mp3" });
const url = URL.createObjectURL(blob);
const player = new Audio(url);
player.play();