ایجاد یک سیستم تشخیص صدا با PyTorch با استفاده از تکنیک های بینایی رایانه ای

ایجاد یک سیستم تشخیص صدا با PyTorch با استفاده از تکنیک های بینایی رایانه ای

یادگیری متضاد برای کارهای تحت نظارت و تحت نظارت

عکس توسط ایوان بندورا در Unsplash

مقدمه

روشهای احراز هویت مبتنی بر بیومتریک در طول زمان اهمیت خود را افزایش می دهند فاصله اجتماعی ، کار از راه دور و همکاری ، زیرا می توانند امنیت و تجربه مشتری بالاتری را همزمان ارائه دهند. یکی از تکنیک های آن تشخیص صدا است ، یعنی تشخیص اینکه یک ورودی صوتی داده شده از شخصی است که قبلاً ثبت شده است یا خیر. احراز هویت صوتی یکی از بهترین تجربیات کاربر در بین همه روشهای احراز هویت را ارائه می دهد ، بنابراین پیشرفت در آن زمینه می تواند به امنیت برنامه ها بدون آسیب رساندن به تجربه در بسیاری از صنایع کمک کند.

در این بخش ما نحوه عملکرد منطقی را توضیح می دهیم. سیستم تشخیص صدا با PyTorch ، با استفاده از تکنیک های عمیق یادگیری رایانه. با نتایج 90.2 accuracy با استفاده از نمونه های مختلف آموزشی و آزمایش و تنها 25 of از اندازه مجموعه داده اصلی ، ما نشان می دهیم که چگونه در حال حاضر برای حوزه های مختلف هوش مصنوعی امکان استفاده از دانش یکدیگر برای بهبود تکنیک ها و نتایج آنها وجود دارد. < /p>

زمینه

مانند رایانه کامپیوتری (CV) و پردازش زبان طبیعی (NLP) ، برنامه های کاربردی مبتنی بر صدا یکی از تأثیرگذارترین مناطق در پیشرفت های اخیر در یادگیری عمیق هستند.

مشکلاتی مانند تشخیص صدا و گفتار برای دهه ها بسیار چالش برانگیز بود. نه اینکه در حال حاضر مشکل نیست ، اما راه حل های کلاسیک برای این مشکلات معمولاً به طراحی ویژگی های دستی و دانش تخصصی زیادی نیاز دارد.

اما شاید مهمترین آن ، یادگیری عمیق نیز باعث افزایش چشمگیر همکاری ها شد در میان متخصصان در زمینه های مختلف قبل از شروع یادگیری با پارادایم داده ، محققان NLP ، Computer Vision و پردازش سیگنال همکاری چندانی با یکدیگر نداشتند-این بسیار مختص حوزه بود. امروزه ، محققان پردازش سیگنال می توانند از پیشرفت های انجام شده در CV و NLP استفاده کنند. این تبادل اطلاعات می تواند به سادگی خواندن یک مقاله و به کار بستن ایده ها در زمینه های مختلف باشد.

امروزه ، با درک خوب از یادگیری ماشین ، مجموعه داده های تمیز و خوش رفتار و کتابخانه های یادگیری عمیق ، ساختن یک اثبات مفهوم ساده (POC) نسبتاً ساده است.

برای اثبات موضوع ، در این مقاله ما قصد داریم فرآیند استفاده از یک روش یادگیری بدون نظارت اخیر (برای CV ) ، برای ایجاد POC برای تشخیص صدا. به عبارت دیگر ، ما سیستمی می خواهیم که بتواند صدای افراد خاصی را تشخیص دهد.

چرا اهمیت دارد؟ فناوری مبتنی بر صدا تا حد زیادی به عنوان یک عامل بیومتریک برای احراز هویت مورد استفاده قرار می گیرد. بسیاری از بازیکنان مانند گوگل و اپل دارای فناوری اصلی مبتنی بر تعامل صوتی هستند. Apple Siri ، Google Assistant و Cortana ، برخی از محبوب ترین ها هستند. علاوه بر این ، فناوری صدا به عنوان یک مرحله احراز هویت چند عاملی مورد استفاده قرار می گیرد. در اینجا ، بیومتریک مانند اثر انگشت ، عبارت عبور صدا و تشخیص چهره را می توان برای ایجاد یک مکانیزم احراز هویت سفارشی و ایمن ترکیب کرد.

مانند هر سیستم مبتنی بر داده ، راه حل ارائه شده در اینجا کامل نیست. این به معنای POC است که در آن آزمایش محرک اصلی است. با این وجود ، سیستم تنها با استفاده از بخش کوچکی از داده های موجود ، عملکرد شایسته ای را به دست می آورد.روش یادگیری مورد استفاده برای این پروژه و انتقال به مورد استفاده ما. کد ، که در PyTorch نوشته شده است ، می تواند در Github قابل دسترسی باشد. صحنه های مرتبط تا حد امکان (بر اساس معیار فاصله مشخص) در حالی که نمایش ها را از صحنه های مختلف جدا می کنیم.

بصورت بصری ، بیایید به موردی بپردازیم که یک مجموعه داده تحت نظارت داریم که برچسب هایی برای هر کلاس پرچم گذاری می کند. به راحتی می توان دریافت که در چنین سناریویی ، ما می توانیم نمونه های مختلف از یک کلاس را انتخاب کنیم ، بردارهای جاسازی شده آنها را بدست آوریم و یک شبکه را بهینه کنیم تا این جفت جاسازی در فضای نمایش نزدیک به هم باشد. به دلایلی که به زودی روشن خواهد شد ، بیایید این جفت بردارهای جاسازی شده را به صورت (

نظرات 0 + ارسال نظر
برای نمایش آواتار خود در این وبلاگ در سایت Gravatar.com ثبت نام کنید. (راهنما)
ایمیل شما بعد از ثبت نمایش داده نخواهد شد