تولید ویدئو مبتنی بر هوش مصنوعی
mci-pages-sharing
تولید ویدئو مبتنی بر هوش مصنوعی
  • دسته اصلی: حمایت دانشگاه‌ها/احمدی روشن
  • وضعیت پروژه: در حال اجرا
مجری

معاونت متولی: راهکارهای دیجیتال و هوشمندسازی مرکز تحقیق و توسعه همراه اول
مدت زمان اجرا: 9 ماه

توضیحات

هرچی بیشتر در تکنولوژی و دنیای فناوری پیش می رویم، نیاز ارتباط و معرفی خود و تکنولوژی تولیدی به دنیا بیشتر خواهد شد. بنابراین باید به دنبال آسان تر کردن ارتباط با دنیای اطراف خود که به واسطه زبان و فرهنگ های مختلف بین ما فاصله افتاده است، باشیم. یکی از مهمترین راه های ارتباط، گفتگوی تصویری (آنلاین یا آفلاین) است. یکی از مشکلات ارتباط از طریق گفتگو و سخنرانی تنوع زبان هاست که معمولا با انتخاب یک زبان مشترک تا حدی کاهش می یابد. اما آماده‌سازی چنین ویدیوهایی با کیفیت بالا نیاز به زمان و تلاش فراوان دارد. بنابراین در این طرح پیشنهادی به تولید سامانه‌ای مبتنی بر هوش مصنوعی برای تولید ویدیوهای واقعی از صحبت کردن افراد با توجه به متن ورودی خواهیم پرداخت. با توجه به ماهیت پیشنهاد، می‌توان آن را به سه بخش کلی تقسیم کرد. بخش اول تبدیل متن به گفتار است. تحقیقات در این زمینه برای زبان انگلیسی فراوان است و می‌توان برای شروع کار از این تحقیقات بهره گرفت.

با توجه به این مسئله که در اکثر تحقیقات حال حاضر شبکه‌های عمیق بسیار بهتر از روش‌های کلاسیک عمل می کنند لذا تمرکز طرح نیز بر استفاده از شبکه‌های عمیق کانولوشنی خواهد بود. همچنین با توجه به ماهیت مسئله ساختارهای انتها به انتها به علاوه پردازش اولیه بر روی متن جهت تبدیل متن به فونتیک رویکرد این پیشنهاد برای این بخش خواهد بود. بخش دوم تولید حرکات طبیعی یک فرد است. تولید حرکات در ادبیات ضیط حرکت با عنوان Motion synthesis معروف است که می‌توان از آن تحقیقات برای تولید حرکات طبیعی بدن و صورت بهره برد. استفاده از شبکه‌های Conditional با توجه به ماهیت تولیدی این بخش، به عنوان بهترین گزینه به نظر می رسد. در نهایت باید حرکات تولیدی علاوه بر طبیعی بودن هماهنگ با متن نیز باشند. لذا باید شبکه طراحی شده در بخش دوم محدود به شرایط متن و احتمالا ورودی های کاربر باشد (مانند حالت غم شادی). با انجام این سه بخش نسخه آزمایشگاهی طرح آماده خواهد بود و می‌توان برای صنعتی کردن آن گام های بعدی را پی ریزی نمود.

هدف و ضرورت

هدف اصلی این پروژه تبدیل متن به ویدیو است. بدین صورت که ورودی سامانه یک متن بوده و این سامانه متن را پردازش و حرکات صورت متناسب با این متن را پیش بینی می کند. در هایت خروجی سامانه ویدیویی از یک شخص واقعی است که در حال خواندن این متن می باشد.

  • تبدیل متن به گفتار؛ برای تبدیل گفتار به متن باید ایتدا هر متن به واج‌های خود تقسیم شده و هر کلمه به صورت مجموعه‌ای از واج‌های تشکیل دهنده‌اش در قالبی استاندارد نمایش داده خواهد شد، پس از آن با استفاده از مفاهیم یادگیری عمیق این نمایش به گفتار تبدیل خواهد شد.
  • تبدیل گفتاربه حرکات بدن و صورت؛ در این بخش حرکات احتمالی بدن نظیر حرکت دست ها و همچنین حرکات صورت تخمین زده شده و توسط ماشین تولید می شوند.
  • تناسب حداکثری حرکات چهره و بدن شخص در طبیعی ترین حالت ممکن
  • بهینه کردن هزینه‌های مالی، زمانی و نیروی انسانی با به کارگیری هرچه بهتر از هوش مصنوعی
  • کاهش هزینه، تخصص و زمان مورد نیاز برای تولید ویدیو‌های معرفی شرکت ها، محصولات و ویدیوهای آموزشی
  • گامی مهم در جهت صنعت تبلیغات، تولید محتوا و شناساندن تکنولوژی‌های تولید شده به دنیا
  • سهولت در تولید محتوای تجاری و آموزشی برای شرکت به زبان‌های مختلف و با کمترین هزینه
دستاوردها و حوزه‌های قابل بهره‌برداری
  • سامانه تولید ویدیو مبتنی بر هوش مصنوعی
  • زیرسامانه تبدیل متن به گفتار
  • زیرسامانه تبدیل گفتار به حرکات بدن و صورت
  • همگام سازی متن با حرکات بدن و صورت بر اساس ورودی های سیستم (حالاتی نظیر، غم، شادی و...)

شرکت ارتباطات سیار ایران