Alibaba Luncurkan Thinksound Model Ai Cipta Audio Realistik Untuk Video

<div class="entry-meta__details">
<span class="pipe">|</span>
<p>
<time class="entry-date published" datetime="2025-07-16T09:48:33+08:00" itemprop="datePublished">Diterbitkan pada 16 Julai 2025</time>
</p>
</div>
<p class="first-drop-cap">Mencipta audio berkualiti tinggi untuk kandungan video menjadi satu cabaran teknikal dan kreatif yang besar, mempengaruhi bukan sahaja pemula tetapi juga profesional audio yang berpengalaman. Pengeluar sering berhadapan dengan isu pengurusan kebisingan, keseimbangan antara dialog dan kesan bunyi, memenuhi had bajet dan masa, serta mengekalkan konsistensi kreatif. Menterjemah visi artistik ke dalam produk akhir yang padu dan mencerminkan dinamik visual, persekitaran akustik, dan timing juga merupakan satu cabaran.</p>
<p>Untuk mengatasi cabaran ini, <strong>Alibaba’s Tongyi Speech Lab telah memperkenalkan</strong> <a href="https://thinksound-project.github.io/">ThinkSound</a>, satu LLM multimodal sumber terbuka yang menggunakan pemikiran berantai (CoT) untuk penghasilan dan pengeditan audio yang lebih maju. ThinkSound menawarkan pendekatan interaktif dan berstruktur dalam pengeluaran audio, khusus untuk kandungan video. <strong>Model ini tersedia dalam tiga saiz kecil</strong> – 1.3B, 724M, dan 533M parameter – menyokong penghasilan audio dari video, pengeditan audio berasaskan teks, dan penciptaan audio interaktif, walaupun pada peranti tepi.</p>
<figure class="wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio">
<div class="wp-block-embed__wrapper">
<p><iframe src="https://www.youtube.com/watch?v=2Kr4z9o6sRk"></iframe></p>
</div>
</figure>
<p>ThinkSound meniru aliran kerja bertahap manusia penggubah bunyi, memastikan audio yang dihasilkan tetap tepat dari segi konteks, padu, dan berkualiti tinggi sepanjang pengeluaran. Model ini mula menganalisis dinamik visual sesuatu video, secara logik mentafsir atribut akustik yang sepadan, dan kemudian mensintesis audio yang tepat pada konteksnya.</p>
<p>Dengan pendekatan inovatif ini, ThinkSound membolehkan pengguna mencipta landskap bunyi yang terperinci dan koheren, memperhalusi audio yang dihasilkan melalui interaksi pengguna yang intuitif, dan mengedit segmen audio tertentu menggunakan arahan dalam bahasa semula jadi, secara berkesan menjembatani jurang antara niat kreatif dan pengeluaran audio terautomasi.</p>
<p>Selain itu, pasukan penyelidikan Alibaba memperkenalkan <strong>AudioCoT</strong>, satu dataset multimodal berskala besar dengan anotasi CoT khusus audio, yang meningkatkan keselarasan antara kandungan visual, deskripsi teks, dan sintesis bunyi.</p>
<p>Penilaian yang meluas telah menunjukkan bahawa ThinkSound mencapai <a href="https://arxiv.org/pdf/2506.21448">prestasi terbaik dalam penghasilan audio dari video</a>, dengan menghasilkan landskap bunyi yang tepat dan bermasa tepat. Model ini cemerlang dalam metrik kualiti audio tradisional dan penilaian berasaskan CoT. Di samping itu, pada MovieGen Audio Bench – satu penanda aras yang menilai keupayaan penghasilan audio dari video – ThinkSound jelas mengatasi model-model terkemuka yang lain.</p>
<figure class="wp-block-image size-full">
<img fetchpriority="high" decoding="async" width="1200" height="620" alt="Thinksound 1" class="wp-image-65389" src="https://alizila.oss-us-west-1.aliyuncs.com/uploads/2025/07/ThinkSound_1.jpg"/>
<img fetchpriority="high" decoding="async" width="1200" height="620" src="https://alizila.oss-us-west-1.aliyuncs.com/uploads/2025/07/ThinkSound_1.jpg" alt="Thinksound 1" class="wp-image-65389"/>
<figcaption class="wp-element-caption"><em>Perbandingan model asas ThinkSound kami dengan penanda aras penghasilan audio dari video yang sedia ada pada set ujian VGGSound. ↓ menunjukkan lebih rendah adalah lebih baik, ↑ menunjukkan lebih tinggi adalah lebih baik.</em></figcaption>
</figure>
<p>ThinkSound dapat diintegrasikan secara lancar dengan pelbagai model penghasilan video untuk menyediakan suara latar dan soundtrack yang realistik bagi video yang disintesis. Keupayaan penghasilan audio yang canggih ini menawarkan potensi aplikasi yang signifikan dalam reka bentuk bunyi filem dan televisyen, pasca penghasilan audio, serta pengalaman bunyi imersif bagi permainan video dan realiti maya.</p>
<p>ThinkSound kini tersedia sebagai sumber terbuka di <a href="https://huggingface.co/spaces/FunAudioLLM/ThinkSound" target="_blank" rel="noreferrer noopener">Hugging Face</a>, <a href="https://github.com/FunAudioLLM/ThinkSound" target="_blank" rel="noreferrer noopener">GitHub</a> dan <a href="https://www.modelscope.cn/studios/iic/ThinkSound" target="_blank" rel="noreferrer noopener">Model Studio Alibaba</a>.</p>
<figure class="wp-block-image size-full">
<img decoding="async" width="1200" height="319" alt="Thinksound 2" class="wp-image-65390" src="https://alizila.oss-us-west-1.aliyuncs.com/uploads/2025/07/ThinkSound_2.jpg"/>
<img decoding="async" width="1200" height="319" src="https://alizila.oss-us-west-1.aliyuncs.com/uploads/2025/07/ThinkSound_2.jpg" alt="Thinksound 2" class="wp-image-65390"/>
<figcaption class="wp-element-caption"><em>Penilaian di luar pengedaran pada MovieGen Audio Bench.</em></figcaption>
</figure>
Ringkasan Artikel
Artikel ini memperkenalkan ThinkSound, sebuah model audio yang inovatif daripada Alibaba yang membolehkan generasi dan pengeditan audio untuk kandungan video. ThinkSound memanfaatkan pemikiran berantai (CoT) untuk menciptakan audio yang berkualiti tinggi dan relevan dengan dinamik visual video. Dengan keupayaan untuk berfungsi pada perangkat kecil, model ini menawarkan pelbagai aplikasi dalam reka bentuk bunyi, termasuk dalam filem, televisyen, permainan, dan realiti maya. Model ini kini tersedia sebagai sumber terbuka bagi pengguna yang berminat.
Source link
Artikel ini hanyalah simpanan cache dari url asal penulis yang berkebarangkalian sudah terlalu lama atau sudah dibuang :
https://edisiviral.com/2025/07/16/alibaba-luncurkan-thinksound-model-ai-cipta-audio-realistik-untuk-video/