
Di lingkungan yang kompleks, manusia dapat memahami arti berbicara lebih baik daripada AI, karena kita menggunakan tidak hanya telinga kita tetapi juga mata kita.
Misalnya, kita melihat mulut seseorang bergerak dan mungkin secara intuitif tahu bahwa suara yang kita dengar pasti berasal dari orang itu.
Meta AI sedang mengerjakan sistem dialog AI baru, yaitu mengajarkan AI untuk juga belajar mengenali korelasi halus antara apa yang dilihat dan didengarnya dalam percakapan.
VisualVoice belajar dengan cara yang mirip dengan bagaimana manusia belajar menguasai keterampilan baru, memungkinkan pemisahan pidato audio-visual dengan mempelajari isyarat visual dan pendengaran dari video yang tidak berlabel.
Untuk mesin, ini menciptakan persepsi yang lebih baik, sementara persepsi manusia meningkat.
Bayangkan bisa berpartisipasi dalam pertemuan kelompok di Metaverse dengan rekan -rekan dari seluruh dunia, bergabung dengan pertemuan kelompok yang lebih kecil saat mereka bergerak melalui ruang virtual, di mana suara bergejolak dan nada timbres dalam adegan itu menurut lingkungan menyesuaikannya.
Artinya, dapat memperoleh informasi audio, video dan teks pada saat yang sama, dan memiliki model pemahaman lingkungan yang lebih kaya, memungkinkan pengguna untuk memiliki pengalaman suara "sangat wow".
Waktu posting: Jul-20-2022