Amazon memperkenalkan Nova Sonic, model AI generatif barunya yang mampu memproses dan menghasilkan tuturan alami dalam waktu nyata. Amazon mengklaim kinerja Nova Sonic setara dengan model AI dari OpenAI dan Google dalam hal kecepatan, pengenalan ucapan, dan kualitas percakapan.
Nova Sonic dirancang untuk memahami nada, intonasi, dan kecepatan bicara pengguna, untuk memungkinkan interaksi yang lebih manusiawi. Ia menawarkan integrasi pengenalan dan pembuatan tuturan dalam satu arsitektur terpadu, berbeda dengan sistem tradisional yang memisahkannya.
Salah satu keunggulan Nova Sonic adalah kemampuannya mendeteksi emosi pengguna melalui analisis nada suara, memungkinkan respons yang lebih sesuai dengan konteks percakapan. Misalnya, apabila pengguna terdengar marah, Nova Sonic dapat merespons dengan nada yang menenangkan.
Nova Sonic mempunyai latensi rata-rata 1,09 detik, lebih cepat dibandingkan model GPT-4o dari OpenAI yang memiliki latensi 1,18 detik. Selain itu, Nova Sonic mencapai tingkat kesalahan kata (WER) sebesar 4,2% pada tolok ukur Multilingual LibriSpeech, menunjukkan akurasi tinggi dalam transkripsi ucapan dalam berbagai bahasa.
Amazon menekankan bahwa Nova Sonic dirancang dengan mempertimbangkan masalah keamanan dan etika. Nova Sonic mempunyai fitur perlindungan, termasuk moderasi konten dan pembubuhan markah tirta guna memastikan penggunaan yang aman dan etis.
Nova Sonic tersedia melalui Amazon Bedrock, yang menyediakan API streaming dua arah untuk memfasilitasi komunikasi dalam waktu nyata antara pengguna dan model AI. Nova Sonic mendukung berbagai aplikasi, seperti otomatisasi layanan pelanggan di pusat panggilan, asisten pribadi berbasis suara, dan agen AI untuk pendidikan dan pembelajaran bahasa.
Selain Nova Sonic, Amazon meluncurkan Nova Reel 1.1, sebuah model AI terbaru mereka yang memungkinkan pengguna menghasilkan video berdurasi hingga dua menit, dengan kualitas dan konsistensi yang ditingkatkan dari versi sebelumnya.