آرین تاپ لرن

آموزش قدم به قدم برنامه نویسی

تاریخ انتشار:۱۴:۱۸ ۱۳۹۸/۱۰/۲

قابلیت یادگیری ماشین در اپلیکیشن ضبط صدای گوگل

یادگیری ماشین یکی از شگفت‌انگیزترین فناوری‌هایی است که درک گوشی‌های هوشمند را افزایش می‌دهد و کارایی بیشتری در آن‌ها به‌ارمغان می‌آورد.

گوگل به‌تازگی جزئیاتی از نحوه‌ی استفاده و پیاده‌سازی الگوریتم‌های یادگیری ماشین در برنامه‌ی ضبط صدای Recorder را ارائه کرده و چگونگی عملکرد این برنامه را در گوشی‌ هوشمند پیکسل ۴ شرح داده است. در ابتدا رابط کاربری ساده‌ی اپلیکیشن ضبط صدای گوگل فریبمان خواهد داد؛ اما در پشت این برنامه، مجموعه کدهایی با قابلیت گوش‌دادن، درک‌کردن، طبقه‌بندی گفتار و... وجود دارد.

هنگام ضبط صدا، علاوه‌بر نمایش طول موج و خط زمانی در برگه‌ی اصلی، رنگ‌ها و دسته‌بندی‌های مختلفی نیز نمایش داده می‌شوند و کلمات گفته‌شده در زبانه‌ی Transcript به‌صورت آنی و در زمان واقعی نوشته خواهند شد. افزون‌براین، اپلیکیشن Recorder گوگل می‌تواند متن نوشته‌شده‌ی خود را براساس صدا در زمان گوش‌دادن تجزیه‌و‌تحلیل کند و نشان دهد کدام قسمت صدا به کدام قسمت متن مرتبط شده است. درواقع، با این قابلیت شاهد ارجاع متن به صدا خواهیم بود.

همچنین با قابلیت دسته‌بندی‌های صوتی، این اپلیکیشن می‌تواند موسیقی، گفتار، سوت‌زدن، صدای حیوانات و بسیاری از صداهای رایج دیگر را بشناسد و هر صوت را در دسته‌بندی خاص خود قرار دهد. البته هر دسته‌بندی رنگ مخصوص به خود را دارد و به کاربران کمک می‌کند بدون نیاز به گوش‌دادن صدا، به‌سرعت صدای ضبط‌شده را شناسایی کنند. درحقیقت، هر فایل صوتی به‌صورت بصری کاملا تشخیص‌پذیر خواهد بود و اگر به‌دنبال صدا یا قسمتی خاصی باشیم، به‌راحتی آن را پیدا خواهیم کرد.

اپلیکیشن ضبط صدای گوگل هر ۵۰ میلی‌ثانیه فایل صوتی را بررسی می‌کند؛ درنتیجه ممکن است طبقه‌بندی به‌طور مداوم و بسته به آنچه در فایل شناسایی می‌شود، تغییر کند. برای اجتناب از این نوع طبقه‌بندی‌های عجیب‌وغریب که متشکل از انواع صداها است، گوگل روش فیلترینگی ایجاد کرده است و در فایل‌های این‌چنینی، از صداهایی با دامنه‌ی صوتی بیشتر برای تشخیص نوع دسته‌بندی استفاده خواهد شد. بدین‌ترتیب با تغییرنکردن مداوم دسته‌بندی، صداها بهتر طبقه‌بندی می‌شود و این قابلیت دقت فراوان Recorder اهالی مانتین‌ویو را نشان می‌دهد.

اپلیکیشن ضبط صدای گوگل با استفاده از مدل تشخیص خودکار گفتار را در زمان واقعی رونویسی می‌کند؛ درنتیجه حین ضبط با این برنامه، کلمات ازطریق الگوریتم یادگیری ماشین شناسایی و یادداشت می‌شوند. این بدان‌معنا است که هیچ داده‌ای به سرورهای گوگل یا هیچ سرور دیگری ارسال نمی‌شود؛ زیرا پردازنده‌ی داخلی این برنامه می‌تواند کلمات را در فرهنگ لغت خود بررسی کند و از درستی آن‌ها مطمئن شود. این قابلیت آزمایش شده است و حتی می‌تواند فایل‌های صوتی ضبط‌شده‌ی طولانی و چندساعته را رونویسی کند.

برنامه‌ی Recorder گوگل بسیار پیشرفته است و حتی می‌تواند نقش گرامری کلمات را برای تکمیل جملاتی بهتر بشناسد و درک کند. درنهایت، کلمات شناسایی‌شده در جدول زمانی قرار می‌گیرند و پس از اتمام ضبط، می‌توان به‌صورت بصری متن آماده‌شده از کلمات را مشاهده کرد. این قابلیت به کاربران اجازه می‌دهد روی یک کلمه در بخش Transcript کلیک کنند و پخش را از همان نقطه‌ آغاز یا کلمه‌ای را جست‌وجو کنند و به محل دقیق آن کلمه در فایل صوتی دست یابند.

یکی از قابلیت‌های جالب این برنامه‌ی ضبط صدای اهالی مانتین‌ویو این است که پس از ضبط، فایل صوتی با سه برچسب پیشنهادی ارائه خواهد شد و به کاربر کمک خواهد کرد به‌سرعت عنوانی معنادار برای فایل صوتی‌اش انتخاب کند.

نکته‌ی جالب برنامه‌ی Recorder گوگل این است که همه‌ی ویژگی‌ها و قابلیت‌های آن بدون اتصال به اینترنت اجرا می‌شوند. البته فناوری یادگیری ماشین در این برنامه هنوز به فرصت بیشتری نیاز دارد تا کارایی بیشتر و عملکردی بهتر را دراختیار کاربران قرار دهد؛ درنتیجه تحقیقات و ایده‌های هیجان‌انگیز گوگل دراین‌زمینه همچنان ادامه خواهد داشت.

منبع:zoomit


نظر به مطلب
نام:		*
ایمیل:		*
متن:		*500 حرف دیگر میتوانید تایپ کنید
کد امنیتی:	70494
		*

آخرین پست ها

قابلیت‌های جذاب ویندوز ۱۱ و عملکرد آن‌ها

آموزش نصب زیرسیستم ویندوزی لینوکس (WSL) در ویندوز ۱۰

آموزش CSS - جلسه بیست و هشتم

Google Workspace؛ عصر جدید یکپارچگی

Secure Boot چیست و چگونه آن را فعال کنیم؟

آموزش CSS - جلسه بیست و هفتم

چگونه در ویندوز ۱۱ فایل اکسپلورری تب‌دار داشته باشیم؟

بررسی نسخه NET Framework. در ویندوز ۱۰

آموزش غیر فعال کردن تصحیح خودکار در اندروید

آموزش افزودن میانبر هارددیسک و سایر حافظه‌های ذخیره‌سازی روی دسکتاپ در مک

آخرین اخبار فناوری

نکته ها

()InitializeComponent چیست؟

قابلیت string interpolation در سی شارپ 6

immutable objects چیست؟

درباره ما

گروه نرم افزار کاران برتر ، تیمی فعال در زمینه برنامه نویسی و طراحی سایت می باشد که سالها فعالیت خود را در زمینه طراحی وب سایهای شرکتی ، فروشگاهی و ... آغاز نموده است.

این گروه به نیت ارتقاء سطح آگاهی و آموزش به علاقمندان رشته کامپیوتر و برنامه نویسی ، وب سایت آموزشی آرین را راه اندازی کرده است