پردازش صوت4:

یادم رفته بود قبلا اینو بذارم04.gif

فايلي كه حاوي مصوت "اي" بود شامل صداي چهارنفر بود، ولي بلافاصله بعد از نفر سوم يك صداي اضافي(شبيه كشيدن صندلي روي زمين) ضبط شده بود كه باعث شد برنامه ي ما به اشتباه آن را نيز به عنوان يك مصوت تشخيص دهد. علاوه برآن برنامه صداي نفر سوم را حذف كرده بود(كه هنوز علت آن را بررسي نكرده ايم). در نهايت محل پيك ها براي سه نفر به دست آمد كه دونفري كه خانم بودند شكل تبديل فوريه و محل پيك ها بسيار شبيه به هم بود و با مصوت "آ" هم تفاوت داشت ، اما نفر سوم  با دونفر ديگر متفاوت بود و نفر چهارم هم كه به اشتباه حذف شده بود. در ضمن شكل حاصل از صداي صندلي با سه شكل ديگر بسيار متفاوت بود. (بسيار ناهموار بود و در تمام فركانسها انرژي داشت.)

چون صداهاي محيط نمي توانند صدايي شبيه به حنجره ي انسان و به همواري آن توليد كنند، مي توان با روشي صداهاي ديگر را از صداي انسان جدا كرد.

خب اينجا تصميم گرفتيم به جاي روش تشخيص محل پيك از روش ديگري براي تشخيص نوع مصوت تلفظ شده استفاده كنيم كه در اين روش نويز ها را نيز مي توان از صداهاي اصلي جدا كرد و اجازه نداد صدايي مثل صداي صندلي نيز به عنوان مصوت تشخيص داده شود.

در اين روش از يك پنجره ي مثلث شكل استفاده مي كنيم كه روي نمودار تبديل فوريه ي مصوت مي لغزد و هر بار ميانگين انرژي داخل مثلث را اندازه مي گيريم. اگر صداي انسان باشد ميانگين انرژي در برخي مكانها بسيار كم يا صفر است، اما اگر صداي ديگري باشد ميانگين همه جا داراي مقدار ميباشد. علاوه بر آن از ميانگين انرژي ها كه براي هر مصوت منحصربفرد هستند مي توانيم نوع مصوت را تشخيص دهيم.

براي آشنايي بيشتر بايد فصل 6 از جزوه ي speech processing كه در پست هاي اول توضيح دادم بخوانيم.

براي ديدن تمام پست های مربوط به پردازش صوت كليك كنيد.

/ 2 نظر / 7 بازدید
فرشته

پس کو اين پرزنتيشن؟؟؟ من فکر کردم حالا می يام اينجا کلی لينک واسم گذاشتين