هوش مصنوعی متا الگوریتمی ایجاد می‌کند که می‌تواند از گفتار، متن و بینایی بیاموزد و آن را برای انجام کارهای پیچیده به کار بگیرد.

هوش مصنوعی می‌تواند مانند انسان ببیند، بشنود و بیاموزد

12 شهریور 1401 5

هوش مصنوعی متا الگوریتمی ایجاد می‌کند که می‌تواند از گفتار، متن و بینایی بیاموزد و آن را برای انجام کارهای پیچیده به کار بگیرد.

به گزارش گذارنیوز، محققان هوش مصنوعی متا، اولین الگوریتم با کارایی بالا و تحت نظارت خود در جهان را ارائه کرده‌اند که می‌تواند هوش مصنوعی را در چندین حالت، اعم از گفتار، دید یا متن آموزش دهد.

هوش مصنوعی پیشرفته‌تر

این الگوریتم data۲vec نام دارد. متا طی پستی گفت: ایجاد هوش مصنوعی پیشرفته‌تر را امکان پذیر می‌کند که می‌تواند به طور کلی‌تر بیاموزد و چندین کار را انجام دهد.

متا در تلاش است تا یکی از محدودیت‌های بزرگ یادگیری خود نظارتی را حل کند که به ماشین‌ها امکان می‌دهد با مشاهده مستقیم محیط خود بیاموزند، برخلاف آموزش صریح از طریق تصاویر، متن یا صدا.

اگرچه یادگیری خود نظارتی پیشرفت بزرگی است و رایانه‌ها را قادر می‌سازد تا با مشاهده محیط خود یاد بگیرند، اما به دلیل تفاوت‌هایی که در روش استفاده الگوریتم‌ها از تصاویر، گفتار و سایر روش‌ها وجود دارد، مقیاس‌بندی آن دشوار است.

به عنوان مثال الگوریتمی که برای خواندن متن استفاده می‌شود، برای پر کردن جا‌های خالی جملات تصادفی مختلف آموزش داده می‌شود، با این حال یک مدل گفتار باید فهرستی از صدا‌های اصلی را بیاموزد تا بتواند صدا‌های گمشده در گفتار فرد را پیش‌بینی کند. در همین حال مدل‌های بینایی کامپیوتری معمولا آموزش می‌بینند تا بازنمایی‌های مشابهی را به یک تصویر رنگی تبدیل کنند.

الگوریتم‌های هوش مصنوعی نیز واحد‌های مختلفی را برای هر مدالیته پیش‌بینی می‌کنند. تشخیص تصویر شامل پیش‌بینی پیکسل‌ها یا نشانه‌های بصری است، در حالی که متن شامل کلمات و گفتار به مدل‌هایی برای پیش‌بینی صدا‌ها از موجودی آموخته‌شده نیاز دارد.

محققان هوش مصنوعی متا می‌گویند: «این اختلاف مانع مهمی برای به‌کارگیری پیشرفت‌ها در یادگیری خود نظارتی به‌طور گسترده‌تر بوده است». از آنجایی که الگوریتم قدرتمندی را که مثلا برای درک تصاویر طراحی شده است، نمی‌توان مستقیما روی روش دیگری مانند متن اعمال کرد، پیش بردن چندین روش با سرعت یکسان دشوار است.

data۲vec با آموزش مدل‌های هوش مصنوعی برای پیش‌بینی بازنمایی‌های خود از داده‌های ورودی بدون توجه به اینکه چه روشی است، بر این امر غلبه می‌کند. data۲vec با تمرکز بر روی آن نمایش‌ها به جای کلمات، صدا‌ها یا نشانه‌های بصری معمولی، می‌تواند با انواع مختلفی از داده‌های ورودی کار کند.

متا اعلام کرد data۲vec را روی معیار بینایی کامپیوتری محبوب ImageNet آزمایش کرده و دریافته است که بهتر از هر الگوریتم موجود عمل می‌کند.

مارک زاکربرگ موسس و مدیر اجرایی متا در فیسبوک نوشت: data۲vec را یکی از هیجان انگیزترین پیشرفت‌های این شرکت در زمینه هوش مصنوعی توصیف کرد.

زاکربرگ گفت: «تحقیقات هوش مصنوعی متا سیستمی ساخته است که از گفتار، بینایی و نوشتار بدون نیاز به داده‌های آموزشی برچسب‌گذاری شده یاد می‌گیرد. مردم جهان را از طریق ترکیبی از بینایی، صدا و کلمات تجربه می‌کنند و سیستم‌هایی از این دست می‌توانند روزی دنیا را به روشی که ما انجام می‌دهیم، درک کنند. همه این‌ها در نهایت با یک دستیار هوش مصنوعی در عینک‌های AR تعبیه می‌شوند، به‌عنوان مثال می‌تواند به شما در پختن شام کمک کند.

در توضیح بیشتر، محققان متا گفتند data۲vec پتانسیل زیادی برای کمک به ایجاد نسل جدیدی از مدل‌های هوش مصنوعی دارد که می‌توانند به تنهایی انجام وظایف مختلف از جمله کار‌های ناآشنا را بیاموزند؛ بنابراین یک هوش مصنوعی نه تنها می‌تواند حیواناتی را که در داده‌های آموزشی خود با آن‌ها برخورد کرده است، بلکه موجودات جدید را نیز در صورتی که به آن‌ها گفته شود، تشخیص دهد.

این امر راه را برای یادگیری عمومی‌تر خود نظارتی هموار می‌کند و ما را به دنیایی نزدیک‌تر می‌کند که در آن هوش مصنوعی ممکن است از فیلم‌ها، مقاله‌ها و ضبط‌های صوتی برای یادگیری موضوعات پیچیده مانند بازی فوتبال یا روش‌های مختلف پخت نان استفاده کند.

متا بر این باور است که پتانسیل data۲vec آنقدر زیاد است که کد‌ها و مدل‌های مختلف از پیش آموزش دیده را با جامعه تحقیقاتی گسترده‌تر هوش مصنوعی به اشتراک می‌گذارد تا دیگران بتوانند بر روی کار آن کار کنند.

منبع: باشگاه