مدیریت درخواست و جستجوی مبتنی بر گفتار
- دسته اصلی: پروژهها
- وضعیت پروژه: خاتمه یافته
مجری
معاونت متولی: معاونت راهکارهای دیجیتال و هوشمندسازی
مدت زمان اجرا: 8 ماه
معرفی
با گسترش روزافزون دنیای دیجیتال نیاز به ارائه خدمات بسیار متنوع به کاربران بهطوری که کاربران بتوانند به راحتی خدمات دیجیتال مورد نظر خود را درخواست و پاسخ مناسب دریافت کنند، بسیار پررنگ شده است.این هدف، با تکامل زیرساختهای ارتباطی، امکان پردازشهای سریع، ساخت پردازشگرهای مناسب گوشیهای هوشمند در سایزهای کوچک و ارزان، بهبود الگوریتمهای پردازشی و قابلیت پیاده سازی الگوریتمهای یادگیری ماشین در مقیاسهای مختلف، در دسترس بودن اینترنت پر سرعت برای همه و در همه جا قابل دستیابی میباشد.از طرف دیگر، با ظهور و استقبال گسترده از سرویس های تعاملی دنیای دیجیتال کاربران نظیر voice assistantها و سرویسهای واقعیت مجازی و غیره، نیاز به ارائه خدمات دیجیتال تعاملی بسیار پررنگ شده است.با توجه به اینکه گوشی هوشمند جز جدا نشدنی زندگی انسانها شده است، در دسترسترین و جذابترین سرویس مورد نیاز کاربران، جایگزین کردن تایپ/لمس کردن با تعامل و ارائه درخواست از طریق گفتار است.به عنوان مثال، چند نمونه از خدماتی که به صورت نمایی مورد استقبال کاربران قرار گرفته است عبارتند از؛ استفاده از گفتار برای تعیین مبدا و مقصد در اپلیکیشنهای مسیریابی، دسترسی به دفترچه تلفن و تماس از طریق فرمانهای صوتی، اجرای پرسمان در موتورهای جستجو با گفتار، گفتن بخشی از موزیک/سخنرانی توسط کاربر در موتور جستجو و پیدا کردن اصل فایل صوتی، قصه خوانی تعاملی با کودکان که احساسات گوینده در آن لحاظ شده باشد، شبیهسازی صدای والدین در حین قصه خوانی برای تعامل موثر با کودک، پیاده سازی سیستم IVR هوشمند با قابلیت تشخیص درخواست تماس گیرنده و احساسات آن.
اولین رکن اساسی سرویسهای تعاملی مبتنی بر گفتار، بازشناسی گفتار است که دستیابی به تکنولوژی بومی آن بسیار حائز اهمیت میباشد.یکی از خواستگاههای اصلی این تکنولوژی، جویشگر مبتنی بر گفتار است که در آن صدای کاربر دریافت و با پردازش گفتار (پردازش سیگنال، استخراج ویژگیهای آکوستیکی، تشخیص گفتار، استفاده از مدلهای زبانی، مدلهای آکوستگی، دادههای واژگان، مدلهای مبتنی بر یادگیری ماشین و ...)، کوئری مد نظر کاربر تشخیص و به سامانه جویشگر هدف ارسال و نتایج را به کاربر نمایش میدهد. جستجوی مبتنی بر گفتار نه تنها به دلیل بهبود و سادگی تجربه تمامی کاربران، بلکه به دلیل پشتیبانی از پرسمانهای مورد نیاز طیف وسیعی از کاربران خاص از جمله سالمندان، کودکان و نابینایان جزو لاینفک بسیاری از خدمات دیجیتال بهویژه مرورگرها و جویشگرهای مدرن شده است.این ویژگی که در اغلب جویشگرهای نوین استفاده شده است، با بهکارگیری تکنولوژی کلیدی تبدیل گفتار به متن (Speech to text: STT)، میتواند قدمی در جهت بلوغ روشهای بازشناسی گفتار مدرن مبتنی بر روشهای یادگیری ماشین باشد و تسهیلگر ارائه دیگر سرویسهای نوین مبتنی بر پردازش گفتار نظیر voice assistant، قصه خوانی تعاملی و غیره نیز باشد.در مرورگرهای گوشیهای هوشمند نوشتن متن کوئری به دلیل کوچک بودن صفحه کلید لمسی دشوار بوده و عموما باعث غلط تایپی میشود.بیشک جستجوی مبتنی بر گفتار یکی از مهمترین قابلیتها برای دسترسی آسان به خدمات و بهبود تجربه کاربری مرورگرهای گوشیهای هوشمند است.
هدف
اهداف اصلی از اجرای پروژه "مدیریت درخواست و جستجوی مبتنی بر گفتار" توسعه قابلیتهای کلیدی تعامل آسان کاربر درانواع سرویسهای دیجیتال بهویژه مرورگر و جویشگر هوشمند، افزایش رقابتپذیری در مقایسه با دیگر جویشگرهای موجود و بهبود تجربه کاربران خواهد بود.در قدم اول اولویت ایجاد قابلیت تعامل آسان بین کاربران در مرورگر و جویشگر ذرهبین است و سپس این قابلیت برای استفاده در دیگر سرویسهای دیجیتال تعمیم خواهد یافت.لذا در ابتدا، سرویس جویش مبتنی بر گفتار باید با دیگر بخشهای سرویس ذرهبین یکپارچه و تعامل کاملی داشته باشد.این سامانه ضمن تبدیل کوئری گفتاری به متن، باید دسته بندی کوئری مد نظر را تشخیص و کوئری را برای اجرا به بخش مدنظر جویشگر ذرهبین مانند آوا، مالتی مدیا، جویشگر عمومی و جویشگر متمرکز یا دیگر بخشهای مد نظر کارفرما ارسال و نتیجه مد نظر کاربر را با دقت بسیار بالا و در کوتاهترین زمان ممکن ارائه نماید.همچنین در این پروژه کلیدواژههای شناسایی شده در صوت ورودی در کلیه اصوات موجود در سیستم (یا خزشگر) جستجو شده و اعلان میگردد.این امر موجب جستجوی در گفتارهای از پیش اماده شده میشود.
ضرورت
برای افزایش رضایتمندی کاربران معمولی یا خاص، جستجوی کلیدواژه یا واژه در فایلهای صوتی مورد اهمیت میباشد.این مورد در جویشگرها نظیر ذرهبین نیز بسیار مفید میباشد و توانمند میکند.این پروژه محدود به واژه هست ولی در فازهای بعدی جستجوی صوت بزرگتر از یک واژه نیز میبایست در اولویت باشد.
دستاوردها
یک سیستم اولیه تشخیص گفتار با کلمات مستقل و مجموعه لغات محدود ایجاد خواهد شد.
حوزههای قابل بهرهبرداری
غنیسازی موتور جستجوی ذره بین برای فایلهای خزش صوتی، جستجو کلمه در لیستی از گفتگوها و فایلهای صوتی