دانلود مقاله روش جدید برای لب‌خوانی با استفاده از پردازش تصویر

اختصاصی از فی بوو دانلود مقاله روش جدید برای لب‌خوانی با استفاده از پردازش تصویر دانلود با لینک مستقیم و پر سرعت .

چکیده :
بازشناسی تصویری گفتار به عنوان فرآیندی برای کمک به افرادی که دچار آسیب در سیستم صوتی شده‌اند، در سالهای اخیر مورد توجه محققین قرار گرفته‌ است. در این مقاله سعی در این بوده که سه روش برای استخراج ویژگی شکل لب ارائه شود : استخراج کانتور لب ، قطعه‌بندیWatershed ، پارامترهای پویانمایی چهره . سپس برای شناسایی گفتار از روی حرکات لب از الگوریتم HMM و شبکه‌های عصبی پرسپترون دولایه با ساختاری ساده استفاده شده است.
واژه‌های کلیدی : بازشناسی تصویری گفتار ،استخراج کانتور لب ، قطعه‌بندی Watershed ، پویانمایی چهره ، ردیابی علائم .
1- مقدمه :

سامانه‌ی لب‌خوانی رایانه‌ای به معلولینی کمک می کند که دچار آسیب در سیستم صوتی بوده و قادر به برقراری ارتباط با دیگران نیستند. این افراد معمولا توانایی انجام صحیح حرکات لب به شکلی که برای تکلم لازم است را داشته و در حالت ایده‌آل می‌توان با انجام لب‌خوانی به مقصود آنها پی برد. این نرم‌افزار به معلولینی که از صندلی چرخدار استفاده می‌کنند و فقط توانایی انجام صحیح حرکات لبشان را دارند کمک می‌کند؛ بدین ترتیب که با کمک دوربین فیلمبرداری حرکات لب آنها ثبت می‌شود و پس از آنالیز ، فرامین لازم به ویلچر داده می‌شود.
از جمله کاربرد های این سامانه می‌توان به تشخیص فرامین ناتوانان گفتاری ،تشخیص برخی کلمات خاص، مکمل بازشناسی گفتار صوتی و همچنین کاربرد‌های نظامی و اطلاعاتی ذکر کرد .در کاربرد حفاظتی ، این سامانه می‌تواند با بهره‌گیری از حرکات لب و بدون ثبت سیگنال صوتی ،کلمات خاصی را شناسایی و تصویر گوینده‌ی آن را در مراکز عمومی و محل‌های تردد ثبت کند.
فرآیند بازشناسی تصویری گفتار شامل دو مرحله‌ی استخراج ویژگی از دنباله تصاویر لب و طبقه‌بندی ویژگی‌های بدست آمده است. ویژگی گفتاری تصویر حرکات لب معلولین که دارای رنگ پوست و ظاهر متفاوتی هستند ، به کمک طراحی یک الگوریتم جدید استخراج شده و در مرحله‌ی بعد با استفاده از الگوریتم مدل مخفی مارکوف ، حرکات و گفتار تصویری تشخیص داده می‌شود . بهره‌گیری از اطلاعات تصویری از شکل‌های لب و حرکات آن ، دقت و اطمینان سیستم‌های تشخیص اتوماتیک گفتار صوتی را ـ خصوصا در محیط‌های نویزی ـ بطور قابل توجهی بهبود می بخشد .
آزمایش این نرم‌فزار بر روی مجموعه‌ی دادگان جمع‌آوری شده ،شامل 20 نفر زن و مردِ 20 تا50 سال صورت گرفته و روی 6 واژه گفتاری 1،2،3،4،5،6 با 91درصد موفقیت ، بازشناسی گفتار انجام شده است . این پژوهش‌ها در مراحل تکمیلی می توانند با افزایش تعداد کلماتِ قابل شناسایی ، محدوده‌ی تشخیص را هر چه بیشتر افزایش دهند .

2- استخراج کانتورلب
به منظوراستخراج ویژگیهای تصویری مربوط به تولید گفتار،استخراج دقیق شکل لب حیاتی می باشد.استفاده ازرویکردهای مبتنی برلبه برای استخراج لب دارای مشکلات فراوانی می باشد؛ زیرانگاشتهای بدست آمده براساس ویژگی لبه معمولأ دارای نویزواشتباهات فراوانی می باشد. به علاوه لبه هااغلب درمرزلب مفقود بوده یاازنظردامنه خیلی ضعیف هستند.باتوجه به این مشکلات، رویکرد استخراج کانتورلب مابه آشکارسازی لبه هادرلب استناد نکرده است، بلکه هدف ماتقسیم بندی تصاویرلب داده شده به ناحیه لب وغیرلب براساس شدت روشنایی ورنگ پیکسلهامی باشد.دراین روش،فرض نمی شود که لب دارای یک رنگ خاص باشد بلکه جستجو بر اساس تفاوت شدت روشنایی ورنگ بین نواحی لب وغیرلب صورت می گیرد.درادامه درابتدا مدل پیشنهادی باجزئیات شرح داده می شود.سپس تابع هزینه برای پیداکردن بهینه مرزبین ناحیه لب وغیرلب ولگوریتم بهینه سازی پارامترهای مدل توضیح داده می شود.
3-2- مدل لب
ازمدلهای انعطاف پذیرهندسی برای مدل کردن شکل لب استفاده شده است .مدل هندسی به شکل لب اجازه می دهد که بوسیله یک مجموعه کوچکی ازپارامترهاباتفسیرفیزیکی توصیف شود. مدل هندسی لب درشکل (1) نشان داده شده است وبامعادلات(1) و(2) توصیف می شود:
(1) و (2)

تفسیرفیزیکی پارامترهادرشکل نشان داده شده است.پارامترs انحراف شکل لب رانشان می دهد. پارمترs انحراف منحنی ازحالت چهارگوش راتوصیف می کند.s به توان دورسیده وبایک جمع شده تاهمیشه مثبت باشد.همچنین پارامترs اجازه می دهد که مدل لب برروی تصاویرلب بادرجه متفاوت خمیدگی منطبق شود.اگرچه لب گوینده وحرکات لب به طورکلی متقارن نمی باشد اما انحراف ازحالت متقارن بودن معمولأ دارای اهمیت نمی باشد.

شکل1-مدل لب هندسی

2-2- فرمول بندی تابع هزینه

برای بدست آوردن یک مدل دقیق،تابع هزینه برای تعیین پارامترهای مدل به طریقه ای که پیکسلهای دارای ناحیه لب دارای احتمال پایین باشند،تعریف می شود وفرض می شود که ناحیه لب وخارج لب هم پوشانی نداشته باشند.مرزاین ناحیه زمانی بدست می آید که این تابع هزینه مینیمم شود.تابع هزینه بصورت (3) تعریف می شود:
(3)

که ) B) 1R و) B)R 2 به ترتیب ناحیه لب وغیرلب می باشند و Prob1 (m,n) احتمال اینکه پیکسل درمکان (m,n) ،پیکسل غیرلب باشد رامشخص می کند. مرز بهینه B با مینیم سازی C(B)به طریقه‌ای که R1(B) شامل پیکسلهایی با Prob1(m,n) بالا و R2(B) شامل پیکسلهایی با Prob2( m,n) بالا باشد،مشخص می شود.با لگاریتم گرفتن ازمعادله بالا وساده سازی رابطه (4) بدست می آید:
(4)
که
(5)
ازآنجاکه درمعادلات(3)و(4)،m وn گسسته هستند بنابراین مرزB نیزگسسته بدست می آید. اما این موضوع برای مامطلوب نیست زیرامایک مرزپیوسته نیازداریم.بنابراین برای حل این مشکل معادله (4) رادرحوزه پیوسته بسط می دهیم.درابتداm وn به x وy پیوسته بسط داده می شود. اکنون مرزB پیوسته شده است ومی تواند هرشکل دلخواهی رافرض کند.سپس ،ما داریم:
(6)
(m,n)f باانتگرال گیری از(x,y)g روی سطح واحد (m,n)مرکزآن می باشد)بدست می آید. سپس معادله (4) بصورت زیربسط داده می شود:
(7)
که مرزB پیوسته می باشد و بوسیله مدل لب مامشخص می شود.سپس پارامترهای بهینه مدل با مینیمم سازی تابع هزینه زیر بدست می آید :
(8) g(x,y)dydx
که x2 (p)=xc+wcos wcos + xc = (P) x2 نقاط گوشه راست وچپ لب، P ، مجموعه پارامترهای مدل می باشند .(p,x) y1 و y2(p;x) دو نقطه مرز عمودی خطx هستند.
پس با داشتن نگاشت احتمال Prob(m,n) ، f(m,n) بوسیله معادله (5) بدست می‌آید. سپس سطح هزینه پیوسته g(x,y) درمعادله (8) باید ایجاد شود.اگرچهارنقطه zjk , zj +1k, zj +1,k+1,zjk+1 راداشته باشیم. سطح درون یابی دوسویه شده بطریقه زیربدست می آید:
(9) gjk (x,y) = (1+j-x) (1+k-y) zjk+(x-j)(1+k-y) zj+1k+(x-j)(y-k)zj+1k+1+(1+j-x)(y-k)zjk+1
بنابراین ایجاد سطح (x,y)g به مسئله تعیین } zm,n { تبدیل می شود.بااستفاده ازمعادله (6) و(9) وبعد ازتعدادی محاسبات جبری ، می توان نشان داد که f(m,n) و zm,n بوسیله معادله کانولوشن گسسته زیر هم باهم ارتباط دارند :
(10)
که ماسک کانولوشن(m,n)h، باماتریس زیربیان می شود:
(11)
درحوزه فرکانس معادله (10) بصورت زیرمی باشد :
(12)
بنابراین } m,n‍{ بامعکوس تبدیل فوریه بدست می آید :
(13) Z(w1,w2) = f(w1,w2) /H (w1,w2)
2-3- نگاشت احتمال تصاویرلب
ارزیابی (P)E نیازبه نگاشت احتمال تصاویرلب دارد که این نگاشت ،احتمال این رامشخص می کند که پیکسل،پیکسل لب هست یانه؟ الگوریتم خوشه بندی فازی]11[ برای ایجاد چنین نگاشت احتمالی استفاده می شود .این یک روش یادگیری بدون سرپرستی می باشد ونه فرض اولیه ای درمورد توضیع ویژگیهادرنظرمی گیرد ونه آموزش مورد نیازمی باشد.الگوریتم تلاش می کند برای هرپیکسل براساس توزیع بردارهای ویژگی هرپیکسل درفضای ویژگی واثرمتقابل هرپیکسل با8 تاازهمسایگی اش، یک مقداراحتمال مناسب برای هرپیکسل مشخص کند.
استفاده تنهاازشدت روشنایی درتصاویرلب،کنتراست کافی برای تفاوت قائل شدن یک پیکسل لب وغیرلب راندارد.بنابراین ازشدت روشنایی ورنگ به عنوان ورودی برای الگوریتمهای خوشه بندی استفاده می شود.ابتداتصاویردرفضای رنگ غیریکنواخت RGB تبدیل به فضای رنگ یکنواخت CIELAB می شود[12] . این فضای رنگی یک دیاگرام رنگی یکنواختی دارد بنابراین هردورنگ یک تفاوت ادراکی دارد ودراین فضای رنگ ، اطلاعات روشنایی از اطلاعات رنگ جدامی باشند.
درشکل (2- الف) تصویراولیه ازلب نشان داده شده است همانطورکه مشاهده می شود کنتراست بین ناحیه لب وغیرلبب بسیارپایین می باشد.خوشه بندی بااستفاده ازویژگیهای رنگ (L*.a*,b*) ماراقادرمی سازد که یک نگاشت احتمال قابل قبولی بدست آوریم.درشکل (2- ب)
نگاشت احتمال نشان داده شده است .

2 -4 – بهینه سازی پارامترهای مدل
برای مینیمم سازی تابع هزینه ازروتین بهینه سازی کاهش گرادیان استفاده می شود.درنتیجه ازمعادله (8) نسبت به هرپارامترمشتق گرفته می شود.می توان نشان داد که مشتق گیری بوسیله معادله زیرصورت می گیرد :
(14)
که p1=xc,p2=yc,p3=w,… , p8=s,p9=0 می باشد.به این نکته توجه شود که انتگرال گیری ازمعادله(14) درامتداد منحنیهای لب y1 و y2 انجام می شود.
3- قطعه بندی Watershed
این قطعه بندی براساس مفاهیمی همچون بهبود تباین وتبدیل Wastershed می باشد.
مراحل الگوریتم عبارتند از:
1. خواندن تصویر
2. حداکثرتباین
برای اینکه لبه هایی که توسط تبدیل Watershed استفاده می شود کمینه گردد; می بایست تباین بین اشیاء مورد نظرماکزیمم گردد،روش معمول برای بهبود تباین استفاده ازتبدیلات bottom hot و top hat برروی تصویرمی باشد.
تبدیل top hot به عنوان تفاوت بین تصویراصلی وتصویری که بوسیله فیلترهای ایجاد شده باز گردیده است،تعریف می گردد.
تبدیل bottom hat به عنوان تفاوت بین تصویراصلی وتصویری که بوسیل ه فیلترهای ایجاد شده بسته گردیده است،تعریف می گردد.
3. تفریق تصاویرایجاد شده توسط مرحله دوم الگوریتم می باشد.
تصویر top hat شامل نقاط نوک تیزاشیاء است وتصویرbottom hat فاصله های بین اشیاء مورد نظررانشان می دهد.
برای حداکثرکردن تباین بین اشیاء وفاصله هایی که بین آنها وجود دارد می بایستی طبق فرمول(15) عمل کرد.
Ienhance = imsubtract(imadd(Itop,afm),Ibot) (15) )
4. تبدیل اشیاء مورد نظر
برای اینکه دریک تصویرشدت لبه هاآشکارگردد،می بایست ازمتمم تصویراستفاده شود تابتوان اشیاء مورد نظررادرمراحل بعد بهترتفکیک کرد.
5 . آشکارسازی شدت لبه
همه شدت لبه هابایک آستانه خاص باتابع imextendedmin آشکارمی شود وسپس باتابع imimposemin مکانهایی ازتصویراصلی که بهبود یافته وبه عنوان شدت لبه آشکارشده است تغییرداده می شود.
6 . قطعه بندی Watershed
Morphology قطعه بندی
این قطعه بندی براساس مفاهیمی همچون آشکارسازی لبه، اشیاء ساخت یافته ، Erosion، قطعه بندی می باشد .مراحل الگوریتم عبارتند از:
1: خواندن تصویر
2. آشکارکردن شی ء بطورکامل
آشکارکردن شی ء بطورکامل براساس یکی ازالگوریتم های آشکارکننده لبه صورت می گیرد. لازم به ذکراست که این الگوریتم برروی تصاویری که نویزندارند بکارمی روند.
3 . آشکارسازی اشیاء بااستفاده ازلبه هایی که توسط مرحله دوم الگوریتم بدست آمده است، صورت می گیرد.
4 . پهن کردن لبه هادرتصویر
5 . پرکردن اشیاء بدست آمده،
6 . پاک نمودن اشیائی که درحاشی ه تصویرقراردارند.
دراین مقاله ازتمامی مراحل قطعه بندی Wastershed به غیرازمرحله آخرآن استفاده شده است وهمچنین ازمراحل 5 و6 ،قطعه بندی Morphology استفاده گردید ودرنهایت ازیک سری فیلتر های خاص استفاده شد.
بامشاهده ،نتایج بدست آمده ملاحظه گردید،مرزهای لب بسیارتیزشده وباشکل اصلی تفاوت زیادی دارد برای اینکه قطعه بندی انجام شده برای تشخیص لب دقیق ترگردد ازفیلترهای خاص ازپیش تعریف شده Matlab بانام های motion وdisk به اندازه های متناسب بااندازه تصویر استفاده گردید که اثراین فیلترهارادرشکل 3 زیرمشاهده می شود.

مراحل انجام قطعه بندی برروی تصویردر مقاله درشکل زیرمشاهده می شود

دراین روش ازدوطرف تصویربه طرف مرکزتصویرحرکت کرده ابتدادرتحلیل ستونی یک نقطه سفید راپیداکرده وسپس درهمان ستون باطی کردن نقاط سفید،می بایست نقطه سیاه جستجوشود، اگرنقطه سیاه پیدانشد پس گوشه لب درآن ستون قرارندارد درغیراین صورت گوشه لب درآن ستون قراردارد وسطرمربوط به گوشه لب ازنقطه میانی نقاط سفید موجود درآن ستون بدست می آید.این عملکرددرشکل زیرمشاهده می شود.

فرمت این مقاله به صورت Word و با قابلیت ویرایش میباشد

تعداد صفحات این مقاله 16 صفحه

پس از پرداخت ، میتوانید مقاله را به صورت انلاین دانلود کنید

دانلود با لینک مستقیم

دانلود مقاله روش جدید برای لب‌خوانی با استفاده از پردازش تصویر

فی بوو

پیوندها

دسته‌ها

ابر برجسب

جدیدترین یادداشت‌ها

بایگانی

جستجو

دانلود مقاله روش جدید برای لب‌خوانی با استفاده از پردازش تصویر