(Big Transfer )BiT

/*! elementor - v3.17.0 - 08-11-2023 */ .elementor-widget-image{text-align:center}.elementor-widget-image a{display:inline-block}.elementor-widget-image a img[src$=".svg"]{width:48px}.elementor-widget-image img{vertical-align:middle;display:inline-block} /*! elementor - v3.17.0 - 08-11-2023 */ .elementor-heading-title{padding:0;margin:0;line-height:1}.elementor-widget-heading .elementor-heading-title[class*=elementor-size-]>a{color:inherit;font-size:inherit;line-height:inherit}.elementor-widget-heading .elementor-heading-title.elementor-size-small{font-size:15px}.elementor-widget-heading .elementor-heading-title.elementor-size-medium{font-size:19px}.elementor-widget-heading .elementor-heading-title.elementor-size-large{font-size:29px}.elementor-widget-heading .elementor-heading-title.elementor-size-xl{font-size:39px}.elementor-widget-heading .elementor-heading-title.elementor-size-xxl{font-size:59px}

(Big Transfer )BiT

تاریخچه BiT

روش Big Transfer (BiT) در سال 2020 توسط گروه پژوهشی گوگل ارائه شد. این روش بر اساس مدل ترنسفورمر بنا شده است که در سال 2017 توسط Attention Is All You Need مطرح شد. مدل ترنسفورمر در اصل برای مسائل پردازش زبان طراحی شده بود اما موفقیت آن در مسایل سخت‌تر تصویری مانند دسته‌بندی تصویر عمیق و تشخیص تصویر باعث شد که به طور گسترده در این حوزه استفاده شود.

BiT به عنوان یک توسعه از مدل ترنسفورمر به منظور تسهیل یادگیری نمایش بصری توسعه یافته است. مهمترین نوآوری BiT این است که از یادگیری مشترک روی چندین مجموعه داده استفاده می‌کند. این مجموعه‌های داده می‌توانند شامل داده‌های تصویری متنوع و گوناگون باشند، مانند ImageNet، JFT، و COCO و غیره. این جمعیت متنوع از داده‌های آموزشی باعث شده تا نمایشی عمومی و کلی از دنیای بصری در BiT شکل بگیرد

مدل BiT به منظور یادگیری نمایش بصری از داده‌های برچسب‌گذاری شده استفاده می‌کند. اما در طول آموزش، مدل همراه با داده‌های برچسب‌گذاری نشده نیز آموزش می‌بیند. این روش، به مدل کمک می‌کند که درک بهتری از اطلاعات بصری کسب کند. هرچه تعداد داده‌های آموزشی بیشتر شود، مدل BiT نیز بهتر خواهد شد.

با استفاده از تکنیک هدایت تشخیصی (discriminative fine-tuning)، BiT توانایی انتقال یادگیری را از داده‌های آموزشی منبع به داده‌های آموزشی هدف فراهم می‌کند. به این معنی که بعد از آموزش بر روی مجموعه‌های آموزشی منبع، مدل بر روی داده‌های آموزشی هدف دقت بیشتری دارد و به نتیجه بهتری می‌رسد

تاکنون، مقالات تکمیلی و ایجاد نگاشت‌های بیشتر از این روش منتشر شده است و به استفاده از BiT در حوزه‌های مختلف مانند تشخیص تصویر، حلقه بسته برآورده کردن و یادگیری تقویتی پرداخته شده است

مدل یادگیری BiT

Big Transfer یک مدل یادگیری نمایش (Representation Learning) عمومی برای تصاویر است که توسط تیم Google Brain ارائه شده است. این مدل به دنبال ایجاد یک نمایش عمیق و کلی برای تصاویر بوده و در واقعیت به عنوان یک مدل پیش‌آموزش دیده شده (pre-trained) برای وظایف بینایی ماشین مورد استفاده قرار گرفته است.

معمولاً مدل‌های پیش‌آموزش دیده شده برای وظایف خاصی مثل تشخیص اشیاء، دسته‌بندی تصاویر و یا ترجمه متون آموزش داده می‌شوند. اما Big Transfer با تمرکز بر تصاویر و وظایف بینایی، سعی در ایجاد نمایش عمومی برای تصاویر دارد. این نمایش عمومی به معنای آن است که مدل برای تصاویر از دامنه‌های گسترده‌تری آموزش دیده شده و قابلیت انتقال یادگیری به وظایف مختلف بینایی را دارد.

Big Transfer بر اساس معماری Vision Transformer (ViT) ساخته شده است که از ترنسفر لرنینگ (Transfer Learning) برای یادگیری اولیه تصاویر استفاده می‌کند. این معماری توسط ترکیب بلوک‌های ترنسفر (Transformer blocks) به ایجاد نمایش‌های ژنرال برای تصاویر می‌پردازد.

استفاده از مدل‌های پیش‌آموزش دیده شده مانند Big Transfer می‌تواند در وظایف مختلفی مانند تصویربرداری پزشکی، تشخیص شیء در تصاویر ماهواره‌ای، یا سایر وظایف مربوط به پردازش تصویر مورد استفاده قرار گیرد.

کاربرد های BiT

در حوزه تشخیص تصویر و بینایی ماشین می‌تواند در مثال‌های زیر استفاده شود:

۱. تشخیص و طبقه‌بندی اشیاء: BiT می‌تواند به کمک روش‌های نمایش بصری عمیق، شیوه‌های تصویربرداری و پیش‌پردازش مدل‌های تشخیص اشیاء را بهبود بخشد. به عنوان مثال، مدل BiT می‌تواند اشیاء را تشخیص دهد و آن‌ها را در دسته‌بندی‌های مختلف قرار دهد مانند خودروها، حیوانات، میوه‌ها و غیره.

۲. تشخیص چهره: BiT قادر است تا چهره‌ها را تشخیص داده و ویژگی‌های آن‌ها را استخراج کند. این ویژگی‌ها می‌توانند در کاربردهایی مانند تشخیص چهره در تصاویر یا تحلیل هویت استفاده شوند.

۳. تشخیص وضعیت و فعالیت: BiT قابل استفاده است برای تشخیص وضعیت و فعالیت افراد و اشیاء در تصاویر. این اطلاعات می‌توانند در شناسایی اشخاص خطرناک، مراقبت از افراد سالمند یا کودکان و غیره مفید باشند.

۴. تشخیص تصاویر پزشکی: BiT می‌تواند در تشخیص بیماری‌ها و آسیب‌ها در تصاویر پزشکی مانند تصاویر MRI، CT، پرتودرمانی و غیره مورد استفاده قرار گیرد. این روش می‌تواند به شناسایی مشکلات سلامتی بیماران و همچنین بهبود دقت تشخیص کمک کند.

۵. خودران‌سازی: BiT می‌تواند در سیستم‌های خودران مانند خودروهای خودران، ربات‌های خودران و دیگر سیستم‌های مشابه استفاده شود. این روش می‌تواند به مدل‌های خودران کمک کرده و بهبود دقت آن‌ها را ایجاد کند.

یک مقاله در رابطه با (BiT: Exploring Large-Scale Pre-training for Computer Vision)

پیش آموزش
برای بررسی اثر مقیاس داده، طرحی را برای پیش آموزش ویژگی‌های عمومی با استفاده از مجموعه داده‌های تصویری با مقیاسی بالاتر از استاندارد در نظر می‌گیریم. با این مجموعه داده‌ها، رویکردهای متداولی مثل نرمال سازی فعال‌سازی‌ها و وزن‌ها، پهنای و عمق مدل و برنامه‌های آموزش را بررسی می‌کنیم. نتایج نشان می‌دهند که برای استفاده موثر از داده بیشتر، باید ظرفیت مدل را همزمان با آن افزایش داد. همچنین، مشاهده می‌شود که مدت آموزش نقش کلیدی در عملکرد دارد، بنابراین باید برنامه آموزش را با استفاده از داده جدید تطبیق دهیم.

یک مشاهده مهم دیگر این است که تعویض نرمال‌سازی دسته بندی (BN) با نرمال‌سازی گروهی (GN) برای پیش‌آموزش در مقیاس بزرگ مفید است. GN بدون وابستگی به دمای فعلی واریانس در هر بسته را محاسبه می‌کند. این تغییرات می‌توانند کمک کننده باشند تا بهبود‌های قابل توجهی را در عملکرد به دست آورد.

انتقال یادگیری
با استفاده از روش‌هایی که در حوزه زبان توسط BERT استفاده می‌شود، مدل BiT پیش‌آموزش یافته را بر روی داده‌های مربوط به تسک‌های مختلف انتقال می‌دهیم. این استراتژی ساده با توجه به دانش به دست آمده از جهان تصویر، عملکرد بسیار خوبی ارائه می‌دهد. در اینجا همچنین روش BiT-HyperRule را پیشنهاد می‌دهیم که معیارهای بالا برای انتخاب هایپرپارامترها را استفاده می‌کند. این روش بر روی بیش از ۲۰ تسک متنوع اعمال شده است.

علاوه بر این، نشان می‌دهیم که با استفاده از جدیدترین تکنیک‌های BiT، می‌توان عملکرد مدل را بهبود بخشید. به عنوان مثال، استفاده از اندازه و ظرفیت مدل بزرگتر همراه با پیش‌آموزش بر روی JFT باعث می‌شود که عملکرد مدل در تصویرهای کم برچسب شده بهبود چشمگیری داشته باشد.

نتیجه‌گیری
با پیش‌آموزش روی مقادیر بزرگ از داده‌های عمومی، استراتژی انتقال ساده می‌تواند نتایج قابل توجهی را در دست آورد. از طرف دیگر، با استفاده از داده‌های محدود و حتی تصویر تک برچسب، روش BiT توانسته است عملکرد قابل توجهی را در مقایسه با روش‌های قبلی به دست آورد. مدل BiT-M، R152x4 را که بر روی ImageNet-21k پیش‌آموزش داده شده است به همراه کدهای TF2، Jax و PyTorch منتشر می‌کنیم. همچنین، به آموزه‌های Hands-on برای استفاده از مدل‌های BiT در TensorFlow2 ارجاع می‌دهیم. امیدواریم که این روش جایگزین مفیدی برای مدل‌های ImageNet-پیش‌آموزش دیده‌ی معمولی باشد