تولید ویدئو مبتنی بر هوش مصنوعی
- دسته اصلی: حمایت دانشگاهها/احمدی روشن
- وضعیت پروژه: خاتمه یافته
مجری
معاونت متولی: راهکارهای دیجیتال و هوشمندسازی مرکز تحقیق و توسعه همراه اول
مدت زمان اجرا: 9 ماه
توضیحات
هرچی بیشتر در تکنولوژی و دنیای فناوری پیش می رویم، نیاز ارتباط و معرفی خود و تکنولوژی تولیدی به دنیا بیشتر خواهد شد. بنابراین باید به دنبال آسان تر کردن ارتباط با دنیای اطراف خود که به واسطه زبان و فرهنگ های مختلف بین ما فاصله افتاده است، باشیم. یکی از مهمترین راه های ارتباط، گفتگوی تصویری (آنلاین یا آفلاین) است. یکی از مشکلات ارتباط از طریق گفتگو و سخنرانی تنوع زبان هاست که معمولا با انتخاب یک زبان مشترک تا حدی کاهش می یابد. اما آمادهسازی چنین ویدیوهایی با کیفیت بالا نیاز به زمان و تلاش فراوان دارد. بنابراین در این طرح پیشنهادی به تولید سامانهای مبتنی بر هوش مصنوعی برای تولید ویدیوهای واقعی از صحبت کردن افراد با توجه به متن ورودی خواهیم پرداخت. با توجه به ماهیت پیشنهاد، میتوان آن را به سه بخش کلی تقسیم کرد. بخش اول تبدیل متن به گفتار است. تحقیقات در این زمینه برای زبان انگلیسی فراوان است و میتوان برای شروع کار از این تحقیقات بهره گرفت.
با توجه به این مسئله که در اکثر تحقیقات حال حاضر شبکههای عمیق بسیار بهتر از روشهای کلاسیک عمل می کنند لذا تمرکز طرح نیز بر استفاده از شبکههای عمیق کانولوشنی خواهد بود. همچنین با توجه به ماهیت مسئله ساختارهای انتها به انتها به علاوه پردازش اولیه بر روی متن جهت تبدیل متن به فونتیک رویکرد این پیشنهاد برای این بخش خواهد بود. بخش دوم تولید حرکات طبیعی یک فرد است. تولید حرکات در ادبیات ضیط حرکت با عنوان Motion synthesis معروف است که میتوان از آن تحقیقات برای تولید حرکات طبیعی بدن و صورت بهره برد. استفاده از شبکههای Conditional با توجه به ماهیت تولیدی این بخش، به عنوان بهترین گزینه به نظر می رسد. در نهایت باید حرکات تولیدی علاوه بر طبیعی بودن هماهنگ با متن نیز باشند. لذا باید شبکه طراحی شده در بخش دوم محدود به شرایط متن و احتمالا ورودی های کاربر باشد (مانند حالت غم شادی). با انجام این سه بخش نسخه آزمایشگاهی طرح آماده خواهد بود و میتوان برای صنعتی کردن آن گام های بعدی را پی ریزی نمود.
هدف و ضرورت
هدف اصلی این پروژه تبدیل متن به ویدیو است. بدین صورت که ورودی سامانه یک متن بوده و این سامانه متن را پردازش و حرکات صورت متناسب با این متن را پیش بینی می کند. در هایت خروجی سامانه ویدیویی از یک شخص واقعی است که در حال خواندن این متن می باشد.
- تبدیل متن به گفتار؛ برای تبدیل گفتار به متن باید ایتدا هر متن به واجهای خود تقسیم شده و هر کلمه به صورت مجموعهای از واجهای تشکیل دهندهاش در قالبی استاندارد نمایش داده خواهد شد، پس از آن با استفاده از مفاهیم یادگیری عمیق این نمایش به گفتار تبدیل خواهد شد.
- تبدیل گفتاربه حرکات بدن و صورت؛ در این بخش حرکات احتمالی بدن نظیر حرکت دست ها و همچنین حرکات صورت تخمین زده شده و توسط ماشین تولید می شوند.
- تناسب حداکثری حرکات چهره و بدن شخص در طبیعی ترین حالت ممکن
- بهینه کردن هزینههای مالی، زمانی و نیروی انسانی با به کارگیری هرچه بهتر از هوش مصنوعی
- کاهش هزینه، تخصص و زمان مورد نیاز برای تولید ویدیوهای معرفی شرکت ها، محصولات و ویدیوهای آموزشی
- گامی مهم در جهت صنعت تبلیغات، تولید محتوا و شناساندن تکنولوژیهای تولید شده به دنیا
- سهولت در تولید محتوای تجاری و آموزشی برای شرکت به زبانهای مختلف و با کمترین هزینه
دستاوردها و حوزههای قابل بهرهبرداری
- سامانه تولید ویدیو مبتنی بر هوش مصنوعی
- زیرسامانه تبدیل متن به گفتار
- زیرسامانه تبدیل گفتار به حرکات بدن و صورت
- همگام سازی متن با حرکات بدن و صورت بر اساس ورودی های سیستم (حالاتی نظیر، غم، شادی و...)
شرکت ارتباطات سیار ایران