مدیریت درخواست و جستجوی مبتنی بر گفتار
mci-pages-sharing
  • دسته اصلی: پروژه‌ها
  • وضعیت پروژه: خاتمه یافته
مجری

معاونت متولی: معاونت راهکارهای دیجیتال و هوشمندسازی
مدت زمان اجرا: 8 ماه

معرفی

با گسترش روزافزون دنیای دیجیتال نیاز به ارائه خدمات بسیار متنوع به کاربران به‌طوری که کاربران بتوانند به راحتی خدمات دیجیتال مورد نظر خود را درخواست و پاسخ مناسب دریافت کنند، بسیار پررنگ شده است.این هدف، با تکامل زیرساختهای ارتباطی، امکان پردازش‌های سریع، ساخت پردازشگرهای مناسب گوشی‌های هوشمند در سایزهای کوچک و ارزان، بهبود الگوریتم‌های پردازشی و قابلیت پیاده سازی الگوریتم‌های یادگیری ماشین در مقیاس‌های مختلف، در دسترس بودن اینترنت پر سرعت برای همه و در همه جا قابل دستیابی می‌باشد.از طرف دیگر، با ظهور و استقبال گسترده از سرویس های تعاملی دنیای دیجیتال کاربران نظیر voice assistantها و سرویس‌های واقعیت مجازی و غیره، نیاز به ارائه خدمات دیجیتال تعاملی بسیار پررنگ شده است.با توجه به اینکه گوشی هوشمند جز جدا نشدنی زندگی انسان‌ها شده است، در دسترس‌ترین و جذاب‌ترین سرویس مورد نیاز کاربران، جایگزین کردن تایپ/لمس کردن با تعامل و ارائه درخواست از طریق گفتار است.به عنوان مثال، چند نمونه از خدماتی که به صورت نمایی مورد استقبال کاربران قرار گرفته است عبارتند از؛ استفاده از گفتار برای تعیین مبدا و مقصد در اپلیکیشن‌های مسیریابی، دسترسی به دفترچه تلفن و تماس از طریق فرمان‌های صوتی، اجرای پرسمان در موتورهای جستجو با گفتار، گفتن بخشی از موزیک/سخنرانی توسط کاربر در موتور جستجو و پیدا کردن اصل فایل صوتی، قصه خوانی تعاملی با کودکان که احساسات گوینده در آن لحاظ شده باشد، شبیه‌سازی صدای والدین در حین قصه خوانی برای تعامل موثر با کودک، پیاده سازی سیستم IVR هوشمند با قابلیت تشخیص درخواست تماس گیرنده و احساسات آن.

اولین رکن اساسی سرویس‌های تعاملی مبتنی بر گفتار، بازشناسی گفتار است که دست‌یابی به تکنولوژی بومی آن بسیار حائز اهمیت می‌باشد.یکی از خواستگاه‌های اصلی این تکنولوژی، جویشگر مبتنی بر گفتار است که در آن صدای کاربر دریافت و با پردازش گفتار (پردازش سیگنال، استخراج ویژگی‌های آکوستیکی، تشخیص گفتار، استفاده از مدل‌های زبانی، مدل‌های آکوستگی، داده‌های واژگان، مدل‌های مبتنی بر یادگیری ماشین و ...)، کوئری مد نظر کاربر تشخیص و به سامانه جویشگر هدف ارسال و نتایج را به کاربر نمایش می‌دهد. جستجوی مبتنی بر گفتار نه تنها به دلیل بهبود و سادگی تجربه تمامی کاربران، بلکه به دلیل پشتیبانی از پرسمان‌های مورد نیاز طیف وسیعی از کاربران خاص از جمله سالمندان، کودکان و نابینایان جزو لاینفک بسیاری از خدمات دیجیتال به‌ویژه مرورگرها و جویشگرهای مدرن شده است.این ویژگی که در اغلب جویشگرهای نوین استفاده شده است، با به‌کارگیری تکنولوژی کلیدی تبدیل گفتار به متن (Speech to text: STT)، می‌تواند قدمی در جهت بلوغ روش‌های بازشناسی گفتار مدرن مبتنی بر روش‌های یادگیری ماشین باشد و تسهیل‌گر ارائه دیگر سرویس‌های نوین مبتنی بر پردازش گفتار نظیر voice assistant، قصه خوانی تعاملی و غیره نیز باشد.در مرورگرهای گوشی‌های هوشمند نوشتن متن کوئری به دلیل کوچک بودن صفحه کلید لمسی دشوار بوده و عموما باعث غلط تایپی می‌شود.بی‌شک جستجوی مبتنی بر گفتار یکی از مهم‌ترین قابلیت‌ها برای دسترسی آسان به خدمات و بهبود تجربه کاربری مرورگرهای گوشی‌های هوشمند است.

هدف

اهداف اصلی از اجرای پروژه "مدیریت درخواست و جستجوی مبتنی بر گفتار" توسعه قابلیت‌های کلیدی تعامل آسان کاربر درانواع سرویس‌های دیجیتال به‌ویژه مرورگر و جویشگر هوشمند، افزایش رقابت‌پذیری در مقایسه با دیگر جویشگرهای موجود و بهبود تجربه کاربران خواهد بود.در قدم اول اولویت ایجاد قابلیت تعامل آسان بین کاربران در مرورگر و جویشگر ذره‌بین است و سپس این قابلیت برای استفاده در دیگر سرویس‌های دیجیتال تعمیم خواهد یافت.لذا در ابتدا، سرویس جویش مبتنی بر گفتار باید با دیگر بخش‌های سرویس ذره‌بین یکپارچه و تعامل کاملی داشته باشد.این سامانه ضمن تبدیل کوئری گفتاری به متن، باید دسته بندی کوئری مد نظر را تشخیص و کوئری را برای اجرا به بخش مدنظر جویشگر ذره‌بین مانند آوا، مالتی مدیا، جویشگر عمومی و جویشگر متمرکز یا دیگر بخش‌های مد نظر کارفرما ارسال و نتیجه مد نظر کاربر را با دقت بسیار بالا و در کوتاه‌ترین زمان ممکن ارائه نماید.همچنین در این پروژه کلیدواژه‌های شناسایی شده در صوت ورودی در کلیه اصوات موجود در سیستم (یا خزشگر) جستجو شده و اعلان می‌گردد.این امر موجب جستجوی در گفتارهای از پیش اماده شده می‌شود.

ضرورت

برای افزایش رضایتمندی کاربران معمولی یا خاص، جستجوی کلیدواژه یا واژه در فایل‌های صوتی مورد اهمیت می‌باشد.این مورد در جویشگرها نظیر ذره‌بین نیز بسیار مفید می‌باشد و توانمند می‌کند.این پروژه محدود به واژه هست ولی در فازهای بعدی جستجوی صوت بزرگتر از یک واژه نیز می‌بایست در اولویت باشد.

دستاوردها

یک سیستم اولیه تشخیص گفتار با کلمات مستقل و مجموعه لغات محدود ایجاد خواهد شد.

حوزه‌های قابل بهره‌برداری

غنی‌سازی موتور جستجوی ذره بین برای فایل‌های خزش صوتی، جستجو کلمه در لیستی از گفتگو‌ها و فایل‌های صوتی