پردازش صوت۳

فايلي كه در اون، چندنفر مصوت "اي" رو تلفظ كرده بودند، بررسي كرديم. ما در برنامه از يك threshold استفاده كرده بوديم كه به وسيله ي آن محل اداي مصوت را تشخيص مي داديم به اين ترتيب كه مقدار انرژي را در تمام زمان ها با threshold مقايسه كرده و در صورتي كه كمتر از آن باشد آن را صفر مي كرديم و آنهايي كه بيشتر از threshold بودند را يك مي كرديم و مي توانستيم محل اداي مصوتها را از فواصلي كه فقط نويز موجود در محيط، ضبط شده بود جدا كنيم. اما مسئله اي كه در اين مورد متوجه شديم اين بود كه براي مصوت هاي مختلف مقدار انرژي متفاوت است.مثلا مصوت "اي" انرژي بسيار كمتري نسبت به "آ" داشت و اگر با همان  threshold مصوت "آ" آن را بسنجيم سيگنال اصلي همانند نويزها حذف مي شود ، بنابراين بايد براي threshold به جاي استفاده از يك مقدار ثابت از معيار بهتري استفاده كنيم كه براي تمام مصوت ها درست باشد.

پيشنهاداتي كه براي حل اين مسئله شد:از ميانگين انرژي ها به عنوان threshold استفاده كنيم و يا يك دهم انرژي ماكزيمم را در نظر بگيريم كه البته در اين روش بايد ماكزيمم انرژي را بدست آوريم...

اما اگر مشكل thresholdحل شود(كه ما اين مشكل را با كاهش موقتي آن حل كرديم.) محل پيك ها براي افراد مختلف مشخص مي شود. سوال قبلي ما اين بود كه آيا محل اين پيك ها براي "اي" و "آ" متفاوت مي شود يا نه؟ كه خوشبختانه جواب مثبت به نظر مي رسد!04.gif36.gif

/ 0 نظر / 3 بازدید