Tạo âm thanh hoặc giọng nói nhân tạo để bổ sung vào nội dung đa phương tiện