در این آموزش با شبکههای Siamese و نحوه استفاده از آنها برای توسعه سیستمهای Face Recognition آشنا خواهید شد. ما انواع رویکردهای Face Recognition را مورد بحث قرار خواهیم داد و به جزئیات مفهومی شبکههای Siamese که آنها را به بخشی جداییناپذیر از اپلیکیشنهای قدرتمند Face Recognition تبدیل میکند، نگاهی عمیق خواهیم داشت.

در ادامه به طور خاص به تفصیل موارد زیر خواهیم پرداخت:
- Pipeline مربوط به Face Recognition و انواع رویکردهای آن
- تفاوت بین Face Identification و Face Verification
- Metric Learning و Contrastive Losses
برای یادگیری نحوه توسعه اپلیکیشنهای Face Recognition با استفاده از شبکههای Siamese ، به خواندن این مطلب ادامه دهید.
تشخیص چهره با مدلهای Deep Learning شبکه Siamese
مدلهای Deep Learning تمایل به ایجاد سوگیری نسبت به توزیع دادههایی دارند که بر اساس آن آموزش دیدهاند. این به مشکل سوگیری مجموعه داده اشاره دارد که در آن مدلهای Deep با توزیع (به عنوان مثال ژست، پسزمینه، رنگ، بافت و شرایط نوری) تصاویر آموزشی، بیش از حد مطابقت دارند و قادر به تعمیم به نماها یا نمونههای جدید از همان اشیاء در زمان آزمایش نیستند. یک راه حل ساده انگارانه برای حل این مشکل، جمعآوری و حاشیهنویسی دادهها در تمام بکگراندها یا نماهای ممکن از تصویر اشیاء است. با این حال، این فرآیند خستهکننده و غیرممکن است و منجر به هزینههای بالای حاشیهنویسی میشود.
بنابراین، اپلیکیشنهای عملی مستلزم توسعه مدلهایی هستند که در برابر مزاحمتها مقاوم بوده و میتوانند به نماهای نادیده یا تصاویر بدیع از یک شیء تعمیم دهند. به عنوان مثال، برای مقایسه اینکه «آیا این دو تصویر متعلق به یک دسته شیء هستند یا نه»، نیاز به موارد زیر دارید:
- مدلهای عمیقی ایجاد کنید که نسبت به عواملی مانند ژست، پسزمینه، رنگ و بافت تغییر نمیکنند.
- بر روی ویژگیهای اساسی که یک دسته شیء را متمایز میکنند، تمرکز کنید.
یکی از چنین تلاشهایی برای توسعه مدلهای قدرتمند Deep به موفقیت انجامید و شروعی بر شبکههای Siamese بود. در آموزشهای قبلی، مروری بر شهود و مکانیسم زیربنایی این شبکهها داشتیم. در این آموزش، ما به توسعه یک سیستم Face Recognition مبتنی بر شبکه Siamese خواهیم پرداخت.
Face Recognition
Face Recognition یکی از تسکهای مهم Computer Vision (بینایی کامپیوتری) است که به ما امکان میدهد هویت یک فرد را شناسایی و تآیید کنیم. این به طور گسترده در صنعت برای اپلیکیشنهایی مانند سیستمهای حضور و غیاب، مراقبتهای بهداشتی، تأیید امنیتی و غیره استفاده میشود.
یکی از جنبههای مهم در هر سیستم Face Recognition مؤثر، تغییرناپذیری آن نسبت به نماها و روشهای مختلف برای شناسایی یک شخص است. به عنوان مثال یک سیستم حضور و غیاب کارمندان مبتنی بر تشخیص چهره، باید بر ویژگیهای قابل تعمیمی تمرکز کند که هویت یک فرد را تشکیل میدهند و تغییرات قوی در ژست، ظاهر (مانند ریش، مدل مو و غیره) یا نماهای دیدهنشده از یک فرد خاص را تشخیص دهد. این مهم است زیرا آموزش سیستم در مورد تمام تغییرات ممکن در ظاهر هر کارمند، غیر ممکن است.
بنابراین، در پیشرفتهای اخیر تشخیص چهره، از تلفات کنتراست (Contrastive Losses) برای آموزش معماریهای مبتنی بر شبکه Siamese برای ساخت مدلهای قوی Face Recognition استفاده شده است.
تشخیص چهره: Identification و Verification
شکل 1 pipeline سیستمهای Face Recognition معمولی را نشان میدهد. همانطور که میبینیم، اولین مرحله، مرحله تشخیص است که در آن صورت از پسزمینه متمایز میشود. این مرحله همچنین ممکن است شامل یک عملیات همترازسازی باشد که حالت صورت را دوباره تنظیم میکند.

سپس، چهره شناساییشده کراپ میشود و به استخراجکننده ویژگی عمیق (deep feature extractor) منتقل میشود. همانطور که نشان داده شده است، خروجی feature extractor ، یک feature vector برای چهره است. deep network هم به گونهای آموزش داده شده است که نمایش ویژگیهای متمایز صورت را به عنوان خروجی به تصویر میکشد و در برابر تفاوتهای ظریف (مانند نور، رنگ، بافت، ریش و غیره) مقاوم است.
در نهایت، ویژگیهای آموزش داده شده برای شناسایی یا تأیید هویت فرد استفاده میشود.
در مرحله بعد، اجازه دهید تفاوت بین تسکهای Face Identification و Face Verification را در فرآیند تشخیص چهره، به تفصیل بررسی کنیم.
Face Identification
Face Identification به شناسایی هویت شخص در فرآیند Face Recognition اشاره دارد. و مستلزم اختصاص دادن هویت شخص، به یک تصویر ورودی است.
شکل 2 یک pipeline ابتدایی برای انجام Face Identification را نشان میدهد. Identification pipeline یک تصویر را به عنوان ورودی میگیرد و یک توزیع احتمال (Probability distribution) را بر روی هویتهای احتمالی افراد خروجی میدهد.

در ابتدا، تصویر ورودی از طریق یک deep feature extractor عبور داده میشود تا نمایش ویژگی f (feature representation f) به دست آید. همانطور که در شکل 2 میبینید. سپس در این مرحله از Face Recognition ، این ویژگی از طریق یک شبکه classifier منتقل میشود که هویت یا ID شخص را به تصویر ورودی داده شده، اختصاص میدهد. توجه داشته باشید که این امر مستلزم یک مسئله multi-class classification ساده K way برای یک دیتابیس با تعداد K پرسنل است. (در اینجا، K برابر با 4 نفر یا class است).
از آنجایی که Identification pipeline یک multi-class classification است، با softmax معمولی و cross entropy loss آموزش داده میشود.
Face Verification
از سوی دیگر، وظیفه Verification تأیید این است که آیا دو تصویر به یک هویت تعلق دارند یا خیر.
شکل 3 یک pipeline ابتدای برای انجام Face Verification در فرآیند تشخیص چهره را نشان میدهد. ورودی pipeline ، face image x و face id است که باید تأیید شود، و خروجی یک تصمیم باینری است که آیا تصویر متعلق به شخص دارای face id است یا خیر.

در صورت تأیید، مطابق شکل، نمایش ویژگی (feature representation) را برای همه تصاویر چهره در دیتابیس خود، از قبل استخراج و ذخیره میکنیم. با توجه به یک image x جدید و یک Face ID (مثلاً id-1021 ، همانطور که در شکل 3 نشان داده شده است)، ما feature representation fتصویر را محاسبه کرده و آن را با feature representation مربوط به Face ID-1021 مقایسه میکنیم. مقایسه بر اساس شباهت Metric است که بعداً در مورد آن خواهیم گفت. در نهایت، بر اساس یک آستانه، میتوانیم بفهمیم که آیا تصویر ورودی متعلق به شخص خاصی در دیتابیس ما است یا خیر.
Identification از طریق Verification
همانطور که قبلاً گفتیم، Identification (شناسایی) ما را ملزم میکند تا یک classifier از نوع K way را آموزش دهیم تا به تصویر چهره ورودی، یک هویت خاص از K personnel در دیتابیس خود اختصاص دهیم. با این حال، اگر تعداد افراد در دیتابیس ما افزایش یابد، این نوع سیستم Identification برای Face Recognition مقیاسپذیر نیست.
به عنوان مثال، اگر فرد جدیدی به دیتابیس اضافه شود، باید سیستم شناسایی ساخته شده برای کلاسهای K را دوباره و از ابتدا در کلاسهای جدید K+1 آموزش دهیم. این به این دلیل است که قبلاً classifier نورنهای K داشت، و اکنون به یک classifier با نورونهای K+1 احتیاج داریم. این کارایی و مقیاسپذیری سیستم را محدود میکند، زیرا هر بار که یک چهره جدید اضافه میشود، کل روش آموزشی باید تکرار شود.
بنابراین، راه کارآمدتر و مؤثرتر برای Identification ، استفاده از رویکرد مقایسه مبتنی بر شباهت، درVerification است.
پیادهسازی در تشخیص چهره
شکل 4 نشان میدهد که چگونه میتوان Identification را با استفاده از تکنیکهای Identification پیادهسازی کرد. با توجه به یک تصویر ورودی x ، میتوانیم الگوریتم Verification خود را K بار برای هر یک از K Face ID ها در دیتابیس خود اجرا کنیم. میتوانیم همچنین هویت چهره را به عنوان یک Face ID که خروجی باینری الگوریتم Face ID است (یعنی مطابقت با تصویر ورودی)، پیدا کنیم.

مزیت استفاده از Verification برای Identification این است که اگر یک چهره جدید به دیتابیس چهرههای K خود اضافه کنیم، فقط باید الگوریتم Verification K+1 خود را بارها برای Identification ، بدون نیاز به آموزش مجدد شبکه اجرا کنیم.
بنابراین مشاهده میکنیم که رویکرد Identification مبتنی بر classifier ، به دلیل تعداد ثابت نورونها در لایه نهایی، مقیاسپذیری را مهار میکند. با این حال، رویکرد مقایسه مبتنی بر شباهت که در Verification استفاده میشود، زمانی که چهرههای جدید به دیتابیس چهرهها اضافه میشوند، در فرآیند Face Recognition کارآمدتر و مقیاسپذیرتر است.
Metric Learning: Contrastive Losses
همانطور که در بخش قبل بحث شد، رویکرد مقایسه مبتنی بر تشابه در Face Recognition ، به ما اجازه میدهد تا سیستمهای کارآمدتر و مقیاسپذیرتری نسبت به رویکرد مبتنی بر classification بسازیم.
بنابراین برای ساختن سیستمهای تشخیص چهره مؤثر و فریب نخوردن آنها، باید استراتژیهای آموزشی را توسعه دهیم. که این کار ما را قادر میسازد فضایی تعبیهشده بسازیم که در آن تصاویر چهره مشابه یا تصاویر چهره یک فرد معین، در کنار هم قرار میگیرند و تصاویر چهره افراد مختلف از هم جدا میشوند.
رایجترین راه برای پیادهسازی این مورد برای شبکههای عصبی، استفاده از Deep Metric Learning است.
به عبارت سادهتر، Metric Learning الگویی در Face Recognition است که در آن شبکه ما به گونهای آموزش داده میشود که نمایش تصاویر مشابه در یک فضای تعبیهشده به یکدیگر نزدیک باشد و تصاویر اشیاء متفاوت از هم دورتر باشند. ایده «شباهت» در اینجا بر اساس یک Metric فاصله خاص در فضای تعبیهشده تعریف میشود، که شباهت معنایی و اینکه «آیا تصاویر متعلق به یک شیء یا شخص مشابه یا متفاوت هستند» را تعیین میکند.
Contrastive Losses (ضررهای متضاد)
Contrastive Losses گروهی از توابع Loss هستند که به ما اجازه میدهند فضای جداسازی را که در آن ورودیها یا تصاویر مشابه از نظر معنایی در مقایسه ورودیهای غیر مشابه، نزدیکتر به هم هستند، یاد بگیریم. این Loss ها یا تلفات، اغلب برای آموزش شبکههای عصبی برای یادگیری اندازه فاصله استفاده میشود. و میتواند شباهت بین تصاویر ورودی را به طور مؤثرتری نسبت به اندازهگیریهای فاصله از پیشتعریفشده (مانند اقلیدسی، فاصله مطلق و غیره) تعیین کند.
فرمولهای مختلفی از Contrastive Losses وجود دارد. (به عنوان مثال از دست دادن رنکینگ (ranking loss) ، از دست دادن متضاد زوجی (pairwise contrastive loss) ، از دست دادن سهگانه (triplet loss) ، از دست دادن چهارگانه (quadruplet loss) و غیره). با این حال، همه این گونهها ایده و ویژگیهای اساسی یکسانی دارند. اجازه دهید با یک مثال، این مورد را به تفصیل بررسی کنیم.
شکل 5 یک setup کلی را نشان میدهد که بیانگر این است که چگونه در Face Recognition از Contrastive Losses برای یادگیری نمایش یک ویژگی استفاده میشود.

هدف ما یادگیری mapping G از ورودی فضای X به ویژگی فضای f است. در اینجا تابع G با وزنهای W که بین دو شاخه مشترک است، پارامتر میشود. این را به توان به عنوان اعمال یک تبدیل پیچیده G در فضای ورودی X ، که ورودیها را به فضای f نشان میدهد، تفسیر کرد.
هدف یادگیری پارامترهای W است. به طوری که ورودیهای با ابعاد بالا X1 و X2 بر روی یک manifold با ابعاد پایین (یا فضای تعبیهشده) f ترسیم شوند. اگر ورودیهای X1 و X2 مشابه باشند، نمایشهای ویژگی متناظر f1 و f2 در فضای تعبیهشده باید به یکدیگر نزدیک باشند. در غیر این صورت باید از هم دورتر باشند.
فرمولهای ریاضی Contrastive Loss
از نظر ریاضی، میخواهیم پارامترهای W را طوری یاد بگیریم که فاصله بین ویژگیهای f1 = GW (X1) و f2 = GW (X2) باشد، یعنی:
DW(X1,X2) = ||GW(X1) – GW(X2) ||2
که شباهت بین ورودیهای X1 و X2 را به طور تقریبی نشان میدهد.
این هدف را میتوان با استفاده از یک تابع Contrastive Loss به دست آورد.
اگر تصاویر ورودی متعلق به یک کلاس یا شخص هستند، نقاط موجود در فضای ویژگی (یعنی f1 و f2) را به هم نزدیکتر کنید.
اگر به کلاسها یا افراد متفاوت تعلق دارند، آنها را بیشتر از هم دور کنید.
Pairwise Contrastive Loss
اجازه دهید مثال سادهترین شکل Contrastive Loss در Face Recognition را برای درک بهتر این موضوع نشان دهیم:
Lcontrastive(W,Y,X1,X2) = (1 – Y)/2(Dw)2 + Y/2[max(0, m – D2W)]
که در آن m>0 یک margin است.
معادله بالا فرمول ریاضی pairwise contrastive loss را نشان میدهد. در اینجا، W پارامترهای تابع mapping ما را نشان میدهد. G و Y یک identifier باینری برابر با 0 هستند. ولی اگر X1 و X2 به یک کلاس یا شخص تعلق داشته باشند، 1 هستند.
برای حالتی که Y = 0، یعنی زمانی که X1 و X2 متعلق به یک کلاس یا شخص هستند، Loss به فرمول زیر کاهش مییابد:
Lcontrastive(W,Y,X1,X2) = 1/2(Dw)2
به حداقل رساندن این عبارت، DW را به حداقل میرساند. که فاصله بین نمایشهای f1 و f2 است (یعنی ویژگیها را به یکدیگر نزدیک میکند).
از طرف دیگر، در حالتی که Y = 1، یعنی زمانی که X1 و X2 متعلق به یک کلاس یا شخص متفاوت هستند، ضرر به فرمول زیر کاهش می یابد:
Lcontrastive(W,Y,X1,X2) = 1/2[max(0, m – D2W)]
توجه داشته باشید که حداقل مقدار این عبارت (که 0 است) زمانی رخ میدهد که m-D2W 0، یعنی D2W
m. این به معنای به حداقل رساندن این تلفات (Loss) است. تا اطمینان حاصل شود که ویژگیهای f1 و f2 در فضای ویژگی حداقل به اندازه m از هم فاصله دارند.
بنابراین، فرمول Loss تضمین میکند که نقاط مشابه در فضای ویژگیها به هم نزدیک هستند و نقاط غیرمشابه حداقل با فاصله m در فضای ویژگی از هم جدا میشوند.
اصول نهایی در فرمولهای Contrastive Loss
توجه داشته باشید اصول مهمی که به ما امکان میدهند چنین سیستمی را یاد بگیریم و باید در هر فرمول Contrastive Loss رعایت شوند، عبارتند از:
- نقاط مشابه معنایی در فضای ورودی باید نزدیک به یکدیگر و در manifold با ابعاد پایین map شوند.
- Metric فاصله آموخته شده باید بتواند ورودیهای نادیده یا جدید را ترسیم کند.
- Mapping آموزش داده شده باید نسبت به تحولات پیچیده ثابت عمل کند.
خلاصه
در این آموزش، مفاهیم Face Recognition را مورد بحث قرار دادیم و به درک عمیقی از pipeline معمولی تشخیص چهره دست یافتیم. همچنین به این نتیجه رسیدیم که به طور خاص، تفاوتهای بین Identification و Verificationبه ما اجازه میدهد تا سیستمهای تشخیص چهره کارآمد و مقیاسپذیری بسازیم.
در مرحله بعد، ما سعی کردیم شهود پشت Metric Learning و شبکههای Siamese را درک کنیم. که به ما امکان میدهد اپلیکیشنهای Face Recognition قوی مبتنی بر شباهت بسازیم. در نهایت، ما در مورد راهاندازی و فرمولبندی ریاضی توابع Contrastive Loss ، که در آموزش شبکههای Siamese مبتنی بر شباهت، بسیار مهم هستند، بحث کردیم.
این پست از برنامه ملی آموزش پیشرفته تکنولوژی (NPTEL) با عنوان دوره Deep Learning برای Computer Vision الهام گرفته است. که نویسنده آن در حین کار در IIT حیدرآباد هندوستان، در آن مشارکت داشته است.
Leave feedback about this