تعداد برنامه ها و اهمیت رابط های صوتی به سرعت در حال رشد است

مقدار

چهار بزرگ
آمریکایی ها می خواهند بخرند
بشویید، بپزید، تمیز کنید!
مفهوم قدیمی بالاخره وقت او فرا رسیده است؟
سوال فنی دشوار
صدا؟ هنرهای گرافیکی؟ یا شاید هر دو؟
مراقب ایمنی باشید!

یک خانواده آمریکایی در پورتلند، اورگان اخیراً متوجه شدند که دستیار صوتی الکس چت های خصوصی آنها را ضبط کرده و آنها را برای یکی از دوستانش ارسال کرده است. صاحب خانه که رسانه ها او را دانیل می نامند، به خبرنگاران گفت که "دیگر هرگز آن دستگاه را وصل نمی کند زیرا نمی توان به او اعتماد کرد."

چک، که توسط بلندگوهای Echo (1) و ابزارهای دیگر در ده ها میلیون خانه در ایالات متحده ارائه شده است، با شنیدن نام خود یا "کلمه تماس" توسط کاربر شروع به ضبط می کند. این بدان معناست که حتی اگر کلمه "الکسا" در یک تبلیغ تلویزیونی ذکر شود، ممکن است دستگاه شروع به ضبط کند. آمازون، توزیع‌کننده سخت‌افزار، می‌گوید این دقیقاً همان چیزی است که در این مورد اتفاق افتاد.

این شرکت در بیانیه ای اعلام کرد: «بقیه مکالمه توسط دستیار صوتی به عنوان دستوری برای ارسال پیام تفسیر شد. "در نقطه ای، الکسا با صدای بلند پرسید: "به چه کسی؟" ادامه مکالمه خانوادگی در مورد کفپوش چوبی باید توسط دستگاه به عنوان یک مورد در لیست تماس مشتری درک می شد. حداقل این چیزی است که آمازون فکر می کند. بنابراین، ترجمه به یک سری حوادث کاهش می یابد.

با این حال، نگرانی همچنان پابرجاست. زیرا بنا به دلایلی، در خانه ای که هنوز در آن احساس آرامش می کردیم، باید وارد نوعی "حالت صوتی" شویم، آنچه را که می گوییم، تلویزیون پخش می کند و البته این بلندگوی جدید روی سینه تماشا کنیم. کشو می گوید . ما

با این حال، با وجود نقص‌های فناوری و نگرانی‌های مربوط به حفظ حریم خصوصی، با افزایش محبوبیت دستگاه‌هایی مانند آمازون اکو، مردم شروع به عادت کردن به ایده تعامل با رایانه‌ها با استفاده از صدای خود کرده‌اند..

همانطور که ورنر ووگلز، مدیر ارشد فناوری آمازون، در جلسه AWS re:Invent خود در اواخر سال 2017 اشاره کرد، فناوری تاکنون توانایی ما را برای تعامل با کامپیوترها محدود کرده است. ما کلمات کلیدی را با استفاده از صفحه کلید در گوگل تایپ می کنیم، زیرا این هنوز رایج ترین و ساده ترین راه برای وارد کردن اطلاعات به دستگاه است.

فوگلز گفت. -

چهار بزرگ

هنگام استفاده از موتور جستجوی گوگل روی گوشی، احتمالا مدت ها قبل متوجه علامت میکروفون با تماس برای صحبت شده ایم. این اکنون گوگل کنید (2)، که می تواند برای دیکته کردن یک عبارت جستجو، وارد کردن پیام به صورت صوتی و غیره استفاده شود. در سال های اخیر، گوگل، اپل و آمازون پیشرفت زیادی کرده اند. فناوری تشخیص صدا. دستیارهای صوتی مانند الکسا، سیری و دستیار گوگل نه تنها صدای شما را ضبط می کنند، بلکه آنچه را که به آنها می گویید را درک می کنند و به سوالات پاسخ می دهند.

Google Now به صورت رایگان برای همه کاربران اندروید در دسترس است. به عنوان مثال، این برنامه می تواند زنگ هشدار تنظیم کند، پیش بینی آب و هوا را بررسی کند و مسیر را در نقشه های گوگل بررسی کند. پسوند مکالمه ایالت های Google Now دستیار گوگل () - کمک مجازی به کاربر تجهیزات. این به طور عمده در دستگاه های تلفن همراه و خانه های هوشمند در دسترس است. برخلاف Google Now، می تواند در تبادل دو طرفه شرکت کند. این دستیار در می 2016 به عنوان بخشی از برنامه پیام رسانی Google Allo و همچنین در بلندگوی صوتی Google Home (3) شروع به کار کرد.

3. Google Home

سیستم IOS همچنین دستیار مجازی خود را دارد، سیری، که برنامه ای است که با سیستم عامل های اپل iOS، watchOS، tvOS homepod و macOS گنجانده شده است. سیری با iOS 5 و iPhone 4s در اکتبر 2011 در کنفرانس Let's Talk iPhone معرفی شد.

این نرم افزار مبتنی بر یک رابط مکالمه است: گفتار طبیعی کاربر را تشخیص می دهد (با iOS 11 امکان وارد کردن دستورات به صورت دستی نیز وجود دارد)، به سوالات پاسخ می دهد و وظایف را کامل می کند. با تشکر از معرفی یادگیری ماشین، دستیار در طول زمان ترجیحات شخصی را تجزیه و تحلیل می کند کاربر برای ارائه نتایج و توصیه های مرتبط تر. سیری به اتصال دائمی اینترنت نیاز دارد - منابع اصلی اطلاعات در اینجا بینگ و ولفرام آلفا هستند. iOS 10 پشتیبانی از افزونه های شخص ثالث را معرفی کرد.

یکی دیگر از چهار بزرگ کورتانا. این یک دستیار شخصی هوشمند است که توسط مایکروسافت ایجاد شده است. این برنامه بر روی پلتفرم های ویندوز 10، ویندوز 10 موبایل، ویندوز فون 8.1، ایکس باکس وان، اسکایپ، مایکروسافت باند، مایکروسافت باند 2، اندروید و iOS پشتیبانی می شود. کورتانا برای اولین بار در کنفرانس توسعه دهندگان Microsoft Build در آوریل 2014 در سانفرانسیسکو معرفی شد. نام این برنامه برگرفته از نام شخصیتی از سری بازی Halo است. کورتانا به زبان‌های انگلیسی، ایتالیایی، اسپانیایی، فرانسوی، آلمانی، چینی و ژاپنی موجود است.

کاربران برنامه ذکر شده قبلا چک آنها همچنین باید محدودیت های زبانی را در نظر بگیرند - دستیار دیجیتال فقط انگلیسی، آلمانی، فرانسوی و ژاپنی صحبت می کند.

دستیار مجازی آمازون اولین بار در بلندگوهای هوشمند آمازون اکو و آمازون اکو دات که توسط Amazon Lab126 توسعه یافته اند، استفاده شد. این امکان تعامل صوتی، پخش موسیقی، ایجاد فهرست کارها، تنظیم زنگ هشدار، پخش پادکست، پخش کتاب صوتی و وضعیت آب و هوا، ترافیک، ورزش و سایر اطلاعات خبری مانند اخبار را در زمان واقعی فراهم می کند (4). الکسا می تواند چندین دستگاه هوشمند را برای ایجاد یک سیستم اتوماسیون خانگی کنترل کند. همچنین می توان از آن برای خرید راحت در فروشگاه آمازون استفاده کرد.

4. کاربران برای چه چیزی از اکو استفاده می کنند (طبق تحقیقات)

کاربران می‌توانند تجربه الکسا را با نصب «مهارت‌ها» ()، ویژگی‌های اضافی توسعه‌یافته توسط اشخاص ثالث، که معمولاً به‌عنوان برنامه‌هایی مانند آب‌وهوا و برنامه‌های صوتی در تنظیمات دیگر شناخته می‌شوند، بهبود بخشند. اکثر دستگاه‌های الکسا به شما امکان می‌دهند دستیار مجازی خود را با یک رمز بیدار شدن به نام فعال کنید.

امروزه آمازون قطعاً بر بازار بلندگوهای هوشمند تسلط دارد (5). IBM که در مارس 2018 سرویس جدیدی را معرفی کرد، در تلاش است تا به جمع چهار سرویس برتر وارد شود دستیار واتسون، برای شرکت هایی طراحی شده است که می خواهند سیستم های دستیار مجازی خود را با کنترل صوتی ایجاد کنند. مزیت راه حل IBM چیست؟ به گفته نمایندگان شرکت، اول از همه، در فرصت های بسیار بیشتری برای شخصی سازی و حفاظت از حریم خصوصی.

اولاً، دستیار واتسون مارکی ندارد. شرکت ها می توانند راه حل های خود را در این پلتفرم ایجاد کنند و آنها را با نام تجاری خود برچسب گذاری کنند.

دوم، آنها می توانند سیستم های کمکی خود را با استفاده از مجموعه داده های خود آموزش دهند، که IBM می گوید افزودن ویژگی ها و دستورات به آن سیستم را نسبت به سایر فناوری های VUI (واسط کاربری صوتی) آسان تر می کند.

ثالثاً، دستیار Watson اطلاعاتی در مورد فعالیت کاربر در اختیار IBM قرار نمی دهد - توسعه دهندگان راه حل های روی پلت فرم فقط می توانند داده های ارزشمند را برای خود نگه دارند. در همین حال، هرکسی که دستگاه‌هایی را می‌سازد، مثلاً با الکسا، باید بداند که داده‌های ارزشمند آنها در آمازون به پایان می‌رسد.

دستیار واتسون در حال حاضر چندین پیاده سازی دارد. به عنوان مثال، هارمن از این سیستم استفاده کرد، که یک دستیار صوتی برای ماشین مفهومی مازراتی ایجاد کرد (6). در فرودگاه مونیخ، یک دستیار IBM به ربات Pepper کمک می‌کند تا به مسافران کمک کند تا در اطراف حرکت کنند. سومین مثال Chameleon Technologies است که در آن از فناوری صوتی در یک متر خانه هوشمند استفاده می شود.

6. دستیار واتسون در خودروی مفهومی مازراتی

شایان ذکر است که فناوری اساسی در اینجا نیز جدید نیست. Watson Assistant دارای قابلیت‌های رمزگذاری برای محصولات موجود IBM، Watson Conversation و Watson Virtual Agent و همچنین APIهایی برای تجزیه و تحلیل زبان و چت است.

آمازون نه تنها پیشرو در فناوری صدای هوشمند است، بلکه در حال تبدیل آن به یک تجارت مستقیم است. با این حال، برخی از شرکت ها خیلی زودتر با یکپارچه سازی Echo آزمایش کرده اند. Sisense، یک شرکت در صنعت BI و تجزیه و تحلیل، ادغام Echo را در جولای 2016 معرفی کرد. به نوبه خود، استارتاپ Roxy تصمیم گرفت نرم افزار و سخت افزار کنترل صدا خود را برای صنعت مهمان نوازی ایجاد کند. در اوایل سال جاری، Synqq یک اپلیکیشن یادداشت‌برداری را معرفی کرد که از پردازش صدا و زبان طبیعی برای اضافه کردن یادداشت‌ها و ورودی‌های تقویم بدون نیاز به تایپ آن‌ها روی صفحه‌کلید استفاده می‌کند.

همه این مشاغل کوچک جاه طلبی بالایی دارند. با این حال، بیشتر از همه، آنها یاد گرفتند که هر کاربری نمی خواهد داده های خود را به آمازون، گوگل، اپل یا مایکروسافت که مهم ترین بازیگران در ساخت پلت فرم های ارتباط صوتی هستند، منتقل کند.

آمریکایی ها می خواهند بخرند

در سال 2016، جستجوی صوتی 20 درصد از کل جستجوهای موبایل گوگل را به خود اختصاص داده است. افرادی که به طور روزانه از این فناوری استفاده می کنند، راحتی و چندوظیفه بودن آن را از بزرگترین مزایای آن می دانند. (به عنوان مثال، امکان استفاده از موتور جستجو در هنگام رانندگی با ماشین).

تحلیلگران Visiongain ارزش بازار فعلی دستیارهای دیجیتال هوشمند را 1,138 میلیارد دلار تخمین می زنند. چنین مکانیسم هایی روز به روز بیشتر می شود. طبق گفته گارتنر، تا پایان سال 2018 در حال حاضر 30 درصد از تعاملات ما با فناوری از طریق مکالمه با سیستم های صوتی خواهد بود.

شرکت تحقیقاتی بریتانیایی IHS Markit تخمین می زند که بازار دستیارهای دیجیتال مجهز به هوش مصنوعی تا پایان سال جاری به 4 میلیارد دستگاه خواهد رسید و این تعداد تا سال 2020 به 7 میلیارد خواهد رسید.

طبق گزارش‌های eMarketer و VoiceLabs، 2017 میلیون آمریکایی حداقل یک بار در ماه در سال 35,6 از کنترل صوتی استفاده کردند. این به معنای افزایش تقریبا 130 درصدی نسبت به سال قبل است. انتظار می‌رود که بازار دستیار دیجیتال به تنهایی تا سال 2018 در سال 23 رشد کند. این بدان معناست که شما از قبل از آنها استفاده خواهید کرد. 60,5 میلیون آمریکایی، که منجر به درآمد واقعی برای تولید کنندگان آنها خواهد شد. RBC Capital Markets تخمین می زند که رابط الکسا تا سال 2020 تا 10 میلیارد دلار درآمد برای آمازون ایجاد کند.

بشویید، بپزید، تمیز کنید!

رابط های صوتی به طور فزاینده ای جسورانه وارد بازارهای لوازم خانگی و لوازم الکترونیکی مصرفی می شوند. این را می‌توان در نمایشگاه سال گذشته IFA 2017 مشاهده کرد. برای مثال، شرکت آمریکایی Neato Robotics یک جاروبرقی روباتی را معرفی کرد که به یکی از چندین پلت‌فرم خانه هوشمند از جمله سیستم Amazon Echo متصل می‌شود. با صحبت با اسپیکر هوشمند اکو، می توانید به دستگاه دستور دهید تا کل خانه خود را در ساعات مشخصی از روز یا شب تمیز کند.

محصولات دیگری که با صدا فعال می شوند در این نمایشگاه به نمایش گذاشته شدند، از تلویزیون های هوشمند فروخته شده با نام تجاری توشیبا توسط شرکت ترکی Vestel گرفته تا پتوهای گرم شونده توسط شرکت آلمانی Beurer. بسیاری از این دستگاه های الکترونیکی را می توان از راه دور با استفاده از تلفن های هوشمند نیز فعال کرد.

با این حال، به گفته نمایندگان بوش، هنوز زود است که بگوییم کدام یک از گزینه های دستیار خانگی غالب خواهد شد. در نمایشگاه IFA 2017، یک گروه فنی آلمانی ماشین‌های لباسشویی (7)، اجاق‌ها و دستگاه‌های قهوه‌ساز متصل به اکو را به نمایش گذاشت. بوش همچنین می خواهد دستگاه هایش در آینده با پلتفرم های صوتی گوگل و اپل سازگار باشند.

7. ماشین لباسشویی بوش که به آمازون اکو متصل می شود

شرکت هایی مانند فوجیتسو، سونی و پاناسونیک در حال توسعه راه حل های دستیار صوتی مبتنی بر هوش مصنوعی خود هستند. شارپ این فناوری را به اجاق‌ها و روبات‌های کوچکی که وارد بازار می‌شوند اضافه می‌کند. Nippon Telegraph & Telephone سازندگان سخت افزار و اسباب بازی را برای انطباق با سیستم هوش مصنوعی با کنترل صدا استخدام می کند.

مفهوم قدیمی بالاخره وقت او فرا رسیده است؟

در واقع، مفهوم رابط کاربری صوتی (VUI) دهه‌ها است که وجود داشته است. هر کسی که سال‌ها پیش Star Trek یا 2001: A Space Odyssey را تماشا کرده بود، احتمالاً انتظار داشت که در حدود سال 2000 همه ما کامپیوترها را با صدای خود کنترل کنیم. همچنین، این فقط نویسندگان داستان های علمی تخیلی نبودند که پتانسیل این نوع رابط را دیدند. در سال 1986، محققان نیلسن از متخصصان فناوری اطلاعات پرسیدند که به نظر آنها بزرگترین تغییر در رابط های کاربری تا سال 2000 چیست. آنها اغلب به توسعه رابط های صوتی اشاره کردند.

دلایلی برای امید به چنین راه حلی وجود دارد. به هر حال، ارتباط کلامی طبیعی ترین راه برای تبادل آگاهانه افکار افراد است، بنابراین استفاده از آن برای تعامل انسان و ماشین بهترین راه حل تا کنون به نظر می رسد.

یکی از اولین VUI ها به نام جعبه کفش، در اوایل دهه 60 توسط IBM ایجاد شد. این پیشرو سیستم های تشخیص صدای امروزی بود. با این حال، توسعه دستگاه های VUI با محدودیت های قدرت محاسباتی محدود شد. تجزیه و تفسیر گفتار انسان در زمان واقعی نیاز به تلاش زیادی دارد و بیش از پنجاه سال طول کشید تا به نقطه ای رسید که واقعاً ممکن شد.

دستگاه هایی با رابط صوتی در اواسط دهه 90 شروع به تولید انبوه کردند، اما محبوبیت پیدا نکردند. اولین تلفن با کنترل صوتی (شماره گیری) بود فیلیپس اسپارکدر سال 1996 منتشر شد. با این حال، این دستگاه نوآورانه و آسان برای استفاده، عاری از محدودیت های تکنولوژیکی نبود.

سایر تلفن‌های مجهز به فرم‌های رابط صوتی (که توسط شرکت‌هایی مانند RIM، سامسونگ یا موتورولا ایجاد شده‌اند) مرتباً وارد بازار می‌شوند و به کاربران اجازه می‌دهند با صدا تماس بگیرند یا پیام‌های متنی ارسال کنند. اما همه آنها مستلزم به خاطر سپردن دستورات خاص و تلفظ آنها به صورت اجباری و مصنوعی و متناسب با قابلیت های دستگاه های آن زمان بودند. این باعث ایجاد تعداد زیادی خطا شد که به نوبه خود منجر به نارضایتی کاربران شد.

با این حال، ما اکنون وارد عصر جدیدی از محاسبات شده‌ایم، که در آن پیشرفت‌ها در یادگیری ماشین و هوش مصنوعی، پتانسیل مکالمه را به عنوان راهی جدید برای تعامل با فناوری باز می‌کند (8). تعداد دستگاه هایی که از تعامل صوتی پشتیبانی می کنند به یک عامل مهم تبدیل شده است که تأثیر زیادی در توسعه VUI داشته است. امروزه تقریباً 1/3 از جمعیت جهان در حال حاضر صاحب گوشی‌های هوشمندی هستند که می‌توان از آنها برای این نوع رفتار استفاده کرد. به نظر می رسد که اکثر کاربران در نهایت آماده هستند تا رابط های صوتی خود را تطبیق دهند.

8. تاریخ مدرن توسعه رابط صوتی

با این حال، قبل از اینکه بتوانیم آزادانه با رایانه صحبت کنیم، همانطور که قهرمانان A Space Odyssey انجام دادند، باید بر تعدادی از مشکلات غلبه کنیم. ماشین‌ها هنوز در رسیدگی به تفاوت‌های زبانی خیلی خوب نیستند. بعلاوه بسیاری از مردم هنوز از دادن دستورات صوتی به موتور جستجو احساس ناراحتی می کنند.

آمارها نشان می دهد که دستیارهای صوتی عمدتاً در خانه یا در میان دوستان نزدیک مورد استفاده قرار می گیرند. هیچ یک از مصاحبه شوندگان به استفاده از جستجوی صوتی در مکان های عمومی اعتراف نکردند. با این حال، این محاصره احتمالاً با گسترش این فناوری از بین خواهد رفت.

سوال فنی دشوار

مشکلی که سیستم ها (ASR) با آن مواجه هستند استخراج داده های مفید از یک سیگنال گفتاری و مرتبط کردن آن با کلمه خاصی است که معنای خاصی برای یک فرد دارد. صداهای تولید شده هر بار متفاوت است.

تنوع سیگنال گفتار خاصیت طبیعی آن است که به لطف آن، برای مثال، یک لهجه یا لحن را تشخیص می دهیم. هر عنصر از سیستم تشخیص گفتار وظیفه خاصی دارد. بر اساس سیگنال پردازش شده و پارامترهای آن، یک مدل صوتی ایجاد می شود که با مدل زبان مرتبط است. سیستم تشخیص می تواند بر اساس تعداد کم یا زیاد الگوها کار کند که اندازه واژگانی را که با آن کار می کند تعیین می کند. ممکنه باشند لغت نامه های کوچک در مورد سیستم هایی که کلمات یا دستورات فردی را تشخیص می دهند و همچنین پایگاه های داده بزرگ حاوی معادل مجموعه زبان و با در نظر گرفتن مدل زبان (گرامر).

مشکلاتی که در وهله اول رابط های صوتی با آن مواجه هستند گفتار را به درستی درک کنید، که در آن مثلاً کل دنباله های دستوری اغلب حذف می شوند، خطاهای زبانی و آوایی، خطاها، حذفیات، نقص گفتاری، همنام ها، تکرارهای غیر موجه و غیره رخ می دهد. همه این سیستم های ACP باید سریع و قابل اعتماد کار کنند. حداقل این انتظارات است.

منبع مشکلات نیز سیگنال های صوتی غیر از گفتار شناخته شده است که وارد ورودی سیستم تشخیص می شود، یعنی. انواع تداخل و نویز. در ساده ترین حالت، شما به آنها نیاز دارید فیلتر کردن. این کار معمولی و آسان به نظر می رسد - بالاخره سیگنال های مختلف فیلتر می شوند و هر مهندس الکترونیک می داند در چنین شرایطی چه کاری انجام دهد. با این حال، اگر نتیجه تشخیص گفتار انتظارات ما را برآورده می کند، باید بسیار با دقت و با دقت انجام شود.

فیلتری که در حال حاضر استفاده می شود، حذف نویز خارجی دریافت شده توسط میکروفون و ویژگی های داخلی خود سیگنال گفتار را که تشخیص آن را دشوار می کند، همراه با سیگنال گفتار ممکن می سازد. با این حال، زمانی که تداخل سیگنال گفتار تجزیه و تحلیل شده، سیگنال گفتار دیگری باشد، به عنوان مثال، بحث های بلند در اطراف، یک مشکل فنی بسیار پیچیده تر به وجود می آید. این سوال در ادبیات به اصطلاح معروف است. این در حال حاضر نیاز به استفاده از روش های پیچیده، به اصطلاح دارد. دکانولوشن (گشودن) سیگنال.

مشکلات مربوط به تشخیص گفتار به همین جا ختم نمی شود. شایان ذکر است که گفتار حاوی انواع مختلفی از اطلاعات است. صدای انسان نشان دهنده جنسیت، سن، شخصیت های مختلف مالک یا وضعیت سلامتی او است. بخش گسترده ای از مهندسی زیست پزشکی وجود دارد که با تشخیص بیماری های مختلف بر اساس پدیده های صوتی مشخصه موجود در سیگنال گفتار سروکار دارد.

همچنین برنامه هایی وجود دارد که هدف اصلی تجزیه و تحلیل صوتی سیگنال گفتار شناسایی گوینده یا تأیید اینکه او همان چیزی است که ادعا می کند (صدا به جای کلید، رمز عبور یا کد PUK) است. این می تواند مهم باشد، به ویژه برای فناوری های ساختمان هوشمند.

اولین جزء یک سیستم تشخیص گفتار است میکروفون. با این حال، سیگنال دریافت شده توسط میکروفون معمولاً کاربرد کمی دارد. مطالعات نشان می دهد که شکل و سیر موج صوتی بسته به شخص، سرعت گفتار و تا حدی خلق و خوی مخاطب بسیار متفاوت است - در حالی که تا حدی محتوای دستورات گفتاری را منعکس می کند.

بنابراین، سیگنال باید به درستی پردازش شود. آکوستیک مدرن، فونتیک و علوم کامپیوتر با هم مجموعه ای غنی از ابزارها را ارائه می دهند که می توانند برای پردازش، تجزیه و تحلیل، تشخیص و درک سیگنال گفتار استفاده شوند. طیف دینامیکی سیگنال، به اصطلاح طیف نگارهای دینامیکی. به دست آوردن آنها نسبتاً آسان است، و گفتار ارائه شده در قالب یک طیف نگار پویا با استفاده از تکنیک های مشابه با تکنیک هایی که در تشخیص تصویر استفاده می شود، نسبتاً آسان است.

عناصر ساده گفتار (مثلاً دستورات) را می‌توان با شباهت ساده طیف‌نگارها تشخیص داد. به عنوان مثال، یک فرهنگ لغت تلفن همراه فعال شده با صدا فقط شامل چند ده تا چند صد کلمه و عبارت است که معمولاً از قبل روی هم چیده شده اند تا بتوان آنها را به راحتی و کارآمد شناسایی کرد. این برای کارهای کنترلی ساده کافی است، اما برنامه کلی را به شدت محدود می کند. سیستم هایی که طبق این طرح ساخته شده اند، به عنوان یک قاعده، تنها از بلندگوهای خاصی پشتیبانی می کنند که صداها به طور ویژه برای آنها آموزش دیده اند. بنابراین اگر فرد جدیدی باشد که بخواهد از صدای خود برای کنترل سیستم استفاده کند، به احتمال زیاد پذیرفته نمی شود.

نتیجه این عملیات نامیده می شود طیف نگار 2-Wیعنی یک طیف دو بعدی. فعالیت دیگری در این بلوک وجود دارد که ارزش توجه به آن را دارد - تقسیم بندی. به طور کلی، ما در مورد شکستن سیگنال گفتار پیوسته به بخش هایی صحبت می کنیم که می توانند جداگانه تشخیص داده شوند. تنها از روی این تشخیص های فردی است که شناخت کل انجام می شود. این روش ضروری است زیرا نمی توان یک سخنرانی طولانی و پیچیده را در یک حرکت تشخیص داد. مجلدهای کامل قبلاً در مورد اینکه کدام بخش ها را در سیگنال گفتار متمایز کنیم نوشته شده است، بنابراین ما اکنون تصمیم نخواهیم گرفت که آیا بخش های متمایز باید واج (معادل صدا)، هجا یا شاید آلوفون باشند.

فرآیند تشخیص خودکار همیشه به برخی از ویژگی های اشیا اشاره دارد. صدها مجموعه از پارامترهای مختلف برای سیگنال گفتار آزمایش شده است به قاب های شناخته شده تقسیم می شود و داشتن ویژگی های انتخاب شدهبه موجب آن این فریم ها در فرآیند شناسایی ارائه می شوند، ما می توانیم (برای هر فریم به طور جداگانه) انجام دهیم. طبقه بندی، یعنی تخصیص یک شناسه به فریم که در آینده نشان دهنده آن خواهد بود.

مرحله بعدی مونتاژ قاب ها به کلمات جداگانه - اغلب بر اساس به اصطلاح. مدل مدل های مارکوف ضمنی (HMM-). سپس مونتاژ کلمات می آید جملات کامل.

اکنون می توانیم برای لحظه ای به سیستم الکسا بازگردیم. مثال او یک فرآیند چند مرحله ای از "درک" ماشینی یک شخص را نشان می دهد - به طور دقیق تر: دستوری که توسط او داده شده یا سؤالی که پرسیده شده است.

درک کلمات، درک معنی و درک هدف کاربر چیزهای کاملاً متفاوتی هستند.

بنابراین، مرحله بعدی کار ماژول NLP () است که وظیفه آن است تشخیص قصد کاربر، یعنی معنای دستور/سوال در زمینه ای که در آن بیان شده است. اگر قصد مشخص شد، پس تخصیص به اصطلاح مهارت ها و توانایی ها، یعنی ویژگی خاصی که توسط دستیار هوشمند پشتیبانی می شود. در مورد سؤال در مورد آب و هوا، منابع داده های آب و هوا نامیده می شود، که باید به گفتار پردازش شود (TTS - مکانیسم). در نتیجه کاربر پاسخ سوال پرسیده شده را می شنود.

صدا؟ هنرهای گرافیکی؟ یا شاید هر دو؟

اکثر سیستم های تعامل مدرن شناخته شده بر اساس یک واسطه به نام هستند رابط کاربر گرافیکی (رابط گرافیکی). متأسفانه، رابط کاربری گرافیکی واضح ترین راه برای تعامل با یک محصول دیجیتال نیست. این مستلزم آن است که کاربران ابتدا یاد بگیرند که چگونه از رابط استفاده کنند و این اطلاعات را با هر تعامل بعدی به خاطر بسپارند. در بسیاری از موقعیت‌ها، صدا بسیار راحت‌تر است، زیرا می‌توانید به سادگی با صحبت کردن با دستگاه با VUI تعامل کنید. رابطی که کاربران را مجبور به به خاطر سپردن و به خاطر سپردن برخی دستورات یا روش های تعاملی نمی کند، مشکلات کمتری ایجاد می کند.

البته، گسترش VUI به معنای کنار گذاشتن رابط های سنتی تر نیست - بلکه رابط های ترکیبی در دسترس خواهند بود که چندین روش تعامل را با هم ترکیب می کنند.

رابط صوتی برای همه وظایف در زمینه تلفن همراه مناسب نیست. با آن، ما با دوستی که در حال رانندگی است تماس می گیریم و حتی برای او اس ام اس می فرستیم، اما بررسی آخرین نقل و انتقالات می تواند بسیار دشوار باشد - به دلیل مقدار اطلاعاتی که به سیستم () منتقل می شود و توسط سیستم (سیستم) تولید می شود. همانطور که راشل هینمن در کتاب Mobile Frontier پیشنهاد می‌کند، استفاده از VUI هنگام انجام وظایفی که مقدار اطلاعات ورودی و خروجی کم است، مؤثرتر است.

تلفن هوشمند متصل به اینترنت راحت است اما همچنین ناخوشایند است (9). هر بار که کاربر می خواهد چیزی بخرد یا از یک سرویس جدید استفاده کند، باید برنامه دیگری را دانلود کرده و یک حساب کاربری جدید ایجاد کند. زمینه ای برای استفاده و توسعه رابط های صوتی در اینجا ایجاد شده است. کارشناسان می گویند به جای اینکه کاربران را مجبور به نصب برنامه های مختلف یا ایجاد حساب های جداگانه برای هر سرویس کنند، VUI بار این وظایف دست و پا گیر را به یک دستیار صوتی مجهز به هوش مصنوعی منتقل می کند. انجام فعالیت های سخت برای او راحت خواهد بود. ما فقط به او دستور می دهیم.

9. رابط صوتی از طریق تلفن هوشمند

امروزه بیش از یک تلفن و یک کامپیوتر به اینترنت متصل هستند. ترموستات های هوشمند، چراغ ها، کتری ها و بسیاری دیگر از دستگاه های یکپارچه IoT نیز به شبکه متصل هستند (10). بنابراین، دستگاه های بی سیم در اطراف ما وجود دارند که زندگی ما را پر می کنند، اما همه آنها به طور طبیعی در رابط گرافیکی کاربر قرار نمی گیرند. استفاده از VUI به شما کمک می کند تا به راحتی آنها را در محیط خود ادغام کنید.

10. رابط صوتی با اینترنت اشیا

ایجاد یک رابط کاربری صوتی به زودی به یک مهارت کلیدی طراح تبدیل خواهد شد. این یک مشکل واقعی است - نیاز به پیاده سازی سیستم های صوتی شما را تشویق می کند که بیشتر بر روی طراحی فعال تمرکز کنید، یعنی تلاش برای درک مقاصد اولیه کاربر، پیش بینی نیازها و انتظارات آنها در هر مرحله از مکالمه.

Voice یک روش کارآمد برای وارد کردن داده است - به کاربران اجازه می دهد تا به سرعت دستورات خود را به سیستم صادر کنند. از سوی دیگر، صفحه نمایش یک راه کارآمد برای نمایش اطلاعات ارائه می دهد: به سیستم ها اجازه می دهد تا حجم زیادی از اطلاعات را به طور همزمان نمایش دهند و بار حافظه کاربران را کاهش می دهد. منطقی است که ترکیب آنها در یک سیستم دلگرم کننده به نظر برسد.

اسپیکرهای هوشمند مانند Amazon Echo و Google Home به هیچ وجه نمایشگر بصری ارائه نمی دهند. به طور قابل توجهی دقت تشخیص صدا را در فواصل متوسط بهبود می بخشد، آنها امکان عملکرد هندزفری را فراهم می کنند که به نوبه خود انعطاف پذیری و کارایی آنها را افزایش می دهد - حتی برای کاربرانی که قبلاً تلفن های هوشمند با کنترل صوتی دارند، مطلوب هستند. با این حال، عدم وجود صفحه نمایش یک محدودیت بزرگ است.

فقط از بوق می توان برای اطلاع کاربران از دستورات احتمالی استفاده کرد و خواندن خروجی با صدای بلند به جز برای کارهای ابتدایی خسته کننده می شود. تنظیم یک تایمر با فرمان صوتی در حین پخت و پز عالی است، اما اینکه بپرسید چقدر زمان باقی مانده است ضروری نیست. دریافت یک پیش بینی آب و هوای معمولی به آزمونی از حافظه برای کاربر تبدیل می شود، که باید در تمام طول هفته یک سری از حقایق را گوش دهد و جذب کند، نه اینکه آنها را با یک نگاه از روی صفحه نمایش بگیرد.

طراحان قبلا محلول ترکیبی، Echo Show (11)، که یک صفحه نمایش را به بلندگوی هوشمند اولیه Echo اضافه کرد. این کارکرد تجهیزات را تا حد زیادی گسترش می دهد. با این حال، Echo Show هنوز هم توانایی کمتری در انجام عملکردهای اساسی دارد که مدت‌هاست در گوشی‌های هوشمند و تبلت‌ها در دسترس بوده است. به عنوان مثال، نمی تواند (هنوز) وب گردی کند، نظرات را نشان دهد یا محتویات سبد خرید آمازون را نمایش دهد.

نمایش بصری ذاتاً روش مؤثرتری برای ارائه اطلاعات فراوان به مردم نسبت به صدا است. طراحی با اولویت صدا می تواند تعامل صوتی را تا حد زیادی بهبود بخشد، اما در دراز مدت، عدم استفاده خودسرانه از منوی تصویری به خاطر تعامل، مانند جنگیدن با یک دست بسته به پشت خواهد بود. با توجه به پیچیدگی در حال ظهور رابط های صوتی و صفحه نمایش هوشمند انتها به انتها، توسعه دهندگان باید به طور جدی یک رویکرد ترکیبی را برای رابط ها در نظر بگیرند.

افزایش کارایی و سرعت سیستم های تولید و تشخیص گفتار امکان استفاده از آنها را در کاربردها و زمینه هایی مانند:

• نظامی (فرمان های صوتی در هواپیما یا هلیکوپتر، به عنوان مثال، F16 VISTA)،

• رونویسی خودکار متن (گفتار به متن)،

• سیستم های اطلاعات تعاملی (Prime Speech، پورتال های صوتی)،

• دستگاه های تلفن همراه (تلفن، گوشی های هوشمند، تبلت)،

• رباتیک (سیستم های Cleverbot - ASR همراه با هوش مصنوعی)،

• خودرو (کنترل هندزفری اجزای خودرو، مانند Blue & Me)،

• برنامه های کاربردی خانگی (سیستم های خانه هوشمند).

مراقب ایمنی باشید!

خودرو، لوازم خانگی، گرمایش/سرمایش و سیستم های امنیتی خانه، و مجموعه ای از لوازم خانگی شروع به استفاده از رابط های صوتی، اغلب مبتنی بر هوش مصنوعی، کرده اند. در این مرحله داده های به دست آمده از میلیون ها مکالمه با ماشین ها ارسال می شود ابرهای محاسباتی. واضح است که بازاریابان به آنها علاقه مند هستند. و نه تنها آنها.

گزارش اخیر کارشناسان امنیتی سیمانتک توصیه می کند که کاربران فرمان صوتی ویژگی های امنیتی مانند قفل درب را کنترل نکنند، چه رسد به سیستم های امنیتی خانه. همین امر در مورد ذخیره رمز عبور یا اطلاعات محرمانه نیز صدق می کند. امنیت هوش مصنوعی و محصولات هوشمند هنوز به اندازه کافی مورد مطالعه قرار نگرفته است.

وقتی دستگاه‌ها در سرتاسر خانه به هر کلمه گوش می‌دهند، خطر هک شدن سیستم و سوء استفاده به یک نگرانی بزرگ تبدیل می‌شود. اگر مهاجم به شبکه محلی یا آدرس‌های ایمیل مرتبط با آن دسترسی پیدا کند، تنظیمات دستگاه هوشمند را می‌توان تغییر داد یا به تنظیمات کارخانه بازنشانی کرد که منجر به از دست رفتن اطلاعات ارزشمند و حذف سابقه کاربر می‌شود.

به عبارت دیگر، متخصصان امنیتی می‌ترسند که هوش مصنوعی مبتنی بر صدا و VUI هنوز به اندازه کافی هوشمند نیست که از ما در برابر تهدیدات احتمالی محافظت کند و وقتی غریبه‌ای چیزی می‌خواهد دهانمان را بسته نگه دارد.