Wednesday, September 21, 2011

Computational Auditory Scene Analysis - CASA

Setelah pada posting sebelumnya, saya bercerita tentang metode pemisahan sinyal suara dengan Blind Source Separation atau BSS kali ini saya akan mengulas sedikit tentang metode pemisahan sinyal suara lainnya, yang lebih dekat ke bagaimana sistem pendengaran manusia bekerja memisahkan sumber - sumber suara. Metode itu dinamakan Computational Auditory Analysis atau disingkat CASA yang merupakan representasi komputasional dari ASA (Auditory Scene Analysis).
Skema Arsitektur CASA [1]
ASA diperkenalkan oleh Al Bregman (psikolog) untuk menjelaskan bagaimana sistem pendengaran manusia bekerja, khususnya dalam memisahkan dan mengidentifikasi lokasi sumber bunyi yang di dengar oleh telinga berdasarkan teori dan eksperimen psikologi terhadap sistem pendengaran manusia. Bregman berpendapat bahwa saat manusia mendengar suara pada dasarnya dia melakukan proses auditory scene analysis. Proses ASA tersebut dibagi menjadi dua tahap, yakni tahap segmentasi dimana terjadi pengelompokan elemen-elemen akustik berdasarkan time-frequency dan tahap kedua adalah pengelompokan elemen-elemen tersebut berdasarkan sumber-sumber suara yang sama. Skema arsitektur sistem CASA dapat digambarkan pada gambar diatas.
CASA yang mewakili implementasi komputasi dari ASA-nya Bregman secara garis besar terdiri dari dua tahap. Proses pertama, campuran suara akustik terbagi atas beberapa element. Sebuah elemen mungkin menjadi elemen atomic dari auditory scene yang menggambarkan kejadian secara akustik. Kemudian, elemen-elemen ini membentuk grup yang anggotanya berasal dari sumber suara yang sama. Grup tersebut menghasilkan struktur perseptual yang disebut stream. Sebagai contoh, ketika ada orang berbicara, maka vocal tract-nya merupakan sumber suara sedangkan representasi mental dari orang yang berbicara merupakan stream.
Tahapan - tahapan proses (bottom-up) CASA [2]

Proses pengelompokan elemen suara (grouping) bisa terbagi lagi menjadi dua, yakni data-driven (primitive) atau schema-driven (knowledge-based). Pada pengelompokan berdasarkan data-driven, pendengar mengeksploitasi secara heuristik elemen-elemen suara untuk membentuk objek yang koheren. Sedangkan pada schema-driven, pendengar menggunakan pengetahuan yang telah dipelajari untuk membedakan jenis-jenis suara, apakah itu musik, suara manusia dan lain-lain. Gambar diatas merupakan blok diagram implementasi ASA model data-driven dalam sistem komputasi.

That's a little bit about CASA, nantikan persamaan matematik dan implementasinya dalam Matlab di posting selanjutnya.


Referensi:
  1. Wang, De Liang and Brown, Guy J (Ed), 2006, Computational Auditory Scene Analysis: Principle, Algorithms and Applications, IEEE Press.
  2. Brown '92, Hu & Wang '02, as appeared on Dan Ellis' presentation: Computational Auditory Scene Analysis.
Related Posts Plugin for WordPress, Blogger...