همزمان با عرضه ChatGPT API ، OpenAI نیز در 1 مارس 2023 API مخصوص Whisper AI را راه اندازی کرد. این یک نسخه میزبانی شده از مدل ترجمه speech-to-text به نام Whisper AI است که این شرکت در ماه سپتامبر منتشر کرده بود.
Whisper AI یک سیستم تشخیص گفتار خودکار است که با قیمت 0.006 دلار در ازای هر دقیقه، گفتگوی افراد به زبانهای مختلف را شناسایی و آنها را به متن انگلیسی ترجمه میکند. این پلتفرم از فایلهایی در فرمتهای مختلف از جمله M4A، MP3، MP4، MPEG، MPGA، WAV و WEBM پشتیبانی میکند.
چه چیزی Whisper AI را از ابزارهای مشابه متمایز میکند؟
سازمانهای بیشماری به توسعه سیستمهای تشخیص گفتار پرداختهاند که برخی غولهای فناوری مانند گوگل، آمازون و متا در رأس آنها قرار میگیرند. به گفته گرگ براکمن، رئیس و مدیرعامل OpenAI ، چیزی که Whisper AI را از آنها متفاوت میکند، این است که بر روی 680.000 ساعت دادههای چندزبانه و multitask که از وب جمعآوری شدهاند، آموزش داده شده است. این منجر به بهبود تشخیص لهجههای منحصر به فرد، نویز پسزمینه و اصطلاحات تخصصی فنی میشود.
براکمن در یک تماس ویدئویی با TechCrunch گفت: «ما یک مدل منتشر کردیم، اما این برای ایجاد یک اکوسیستم جامع برای توسعه دهندگان کافی نبود. Whisper API همان مدل بزرگی است که میتوانید به صورت منبع باز دریافت کنید. ما آن را تا حد امکان بهینهسازی کردهایم. استفاده از این API بسیار سریعتر و آسانتر از مدلهای دیگر است».
به عقیده براکمن، وقتی صحبت از شرکتهایی میشود که از فناوری تشخیص صدا استفاده میکنند، موانع زیادی ظاهر میشود. بر اساس نظرسنجی Statista در سال 2020، شرکتها دقت پایین، مسائل مربوط به تشخیص لهجه و گویش، و قیمت این فناوریها را مهمترین عوامل عدم استقبال مردم از آنها میدانند.
Whisper چه محدودیتهایی دارد؟
اما Whisper AI هم محدودیتهای خود را دارد. به ویژه در زمینه پیشبینی «کلمه بعدی». از آنجایی که Whisper روی حجم زیادی از دادههای پر سر و صدا آموزش دیده است، ممکن است کلماتی را در رونوشتهای بعدی خود بگنجاند که واقعاً گفته نشدهاند. احتمالاً به این دلیل که هم سعی میکند کلمه بعدی را در صدا پیشبینی کند و هم خود صدای ضبط شده را رونوشت کند. علاوه بر این، Whisper AI کیفیت یکسانی در رونوشت و ترجمه زبانهای مختلف ندارد. وقتی صحبت از زبانهایی میشود که این سیستم توسط دادههای آموزشی کافی از آنها تغذیه نشده است، میزان خطا بالاتر میرود.
متأسفانه Whisper هم از خطاهای مربوط به سوگیری رنج میبرد. مطالعه سال 2020 استنفورد نشان میدهد که سیستمهای آمازون، اپل، گوگل، IBM و مایکروسافت در کار با کاربران سفیدپوست خطاهای بسیار کمتری (حدود 19 درصد) نسبت به کاربران سیاه پوست داشتهاند.
با این وجود، OpenAI شاهد این است که از قابلیتهای Whisper برای بهبود اپلیکیشنها، خدمات، محصولات و ابزارهای موجود استفاده میشود. در حال حاضر، برنامه آموزش زبان مبتنی بر هوش مصنوعی Speak برای تقویت خود با یک دستیار مجازی درونبرنامهای، از Whisper AI استفاده میکند.
چشم انداز آینده
اگر OpenAI بتواند ابزار رونوشت و ترجمه زبان خود را به طور عمدهای وارد بازار برنامههای speech-to-text کند، این میتواند سود زیادی برای این شرکت تحت حمایت مایکروسافت به همراه داشته باشد. بر اساس یک گزارش، ارزش این بازار در سال 2026 به 5.4 میلیارد دلار میرسد. که بسیار بیشتر از ارزش 2.2 میلیارد دلاری این بازار در سال 2021 است.
براکمن گفت: «تصویر ما این است که ما واقعاً میخواهیم این هوش جهانی باشیم». و «ما واقعاً میخواهیم بتوانیم به شیوه بسیار انعطافپذیری، هر نوع دادهای را که در اختیار دارید، و هر کاری را که میخواهید با آن انجام دهید، با نیرویی چند برابر برایتان انجام دهیم».
Leave feedback about this