3 مهر 1402
تهران، خیابان آزادی، تقاطع قریب
هوش مصنوعی

Whisper AI چیست؟ | بررسی ابزار ترجمه صوتی

Whisper AI چیست؟ | معرفی ابزار ترجمه صدا به متن
با برگذاری یک مینی دوره رایگان موافقید؟
برای ثبت نام در مینی دوره رایگان فرم زیر رو پر کنید.

همزمان با عرضه ChatGPT API ، OpenAI نیز در 1 مارس 2023 API مخصوص Whisper AI را راه اندازی کرد. این یک نسخه میزبانی شده از مدل ترجمه speech-to-text به نام Whisper AI است که این شرکت در ماه سپتامبر منتشر کرده بود.

Whisper AI یک سیستم تشخیص گفتار خودکار است که با قیمت 0.006 دلار در ازای هر دقیقه، گفتگوی افراد به زبان‌های مختلف را شناسایی و آن‌ها را به متن انگلیسی ترجمه می‌کند. این پلتفرم از فایل‌هایی در فرمت‌های مختلف از جمله M4A، MP3، MP4، MPEG، MPGA، WAV و WEBM پشتیبانی می‌کند.

چه چیزی Whisper AI را از ابزارهای مشابه متمایز می‌کند؟

سازمان‌های بی‌شماری به توسعه سیستم‌های تشخیص گفتار پرداخته‌اند که برخی غول‌های فناوری مانند گوگل، آمازون و متا در رأس آن‌ها قرار می‌گیرند. به گفته گرگ براکمن، رئیس و مدیرعامل OpenAI ، چیزی که Whisper AI را از آن‌ها متفاوت می‌کند، این است که بر روی 680.000 ساعت داده‌های چندزبانه و multitask که از وب جمع‌آوری شده‌اند، آموزش داده شده است. این منجر به بهبود تشخیص لهجه‌های منحصر به فرد، نویز پس‌زمینه و اصطلاحات تخصصی فنی می‌شود.

براکمن در یک تماس ویدئویی با TechCrunch گفت: «ما یک مدل منتشر کردیم، اما این برای ایجاد یک اکوسیستم جامع برای توسعه دهندگان کافی نبود. Whisper API همان مدل بزرگی است که می‌توانید به صورت منبع باز دریافت کنید. ما آن را تا حد امکان بهینه‌سازی کرده‌ایم. استفاده از این API بسیار سریع‌تر و آسان‌تر از مدل‌های دیگر است».

به عقیده براکمن، وقتی صحبت از شرکت‌هایی می‌شود که از فناوری تشخیص صدا استفاده می‌کنند، موانع زیادی ظاهر می‌شود. بر اساس نظرسنجی Statista در سال 2020، شرکت‌ها دقت پایین، مسائل مربوط به تشخیص لهجه و گویش، و قیمت این فناوری‌ها را مهمترین عوامل عدم استقبال مردم از آن‌ها می‌دانند.

Whisper چه محدودیت‌هایی دارد؟

اما Whisper AI هم محدودیت‌های خود را دارد. به ویژه در زمینه پیش‌بینی «کلمه بعدی». از آن‌جایی که Whisper روی حجم زیادی از داده‌های پر سر و صدا آموزش دیده است، ممکن است کلماتی را در رونوشت‌های بعدی خود بگنجاند که واقعاً گفته نشده‌اند. احتمالاً به این دلیل که هم سعی می‌کند کلمه بعدی را در صدا پیش‌بینی کند و هم خود صدای ضبط شده را رونوشت کند. علاوه بر این، Whisper AI کیفیت یکسانی در رونوشت و ترجمه زبان‌های مختلف ندارد. وقتی صحبت از زبان‌هایی می‌شود که این سیستم توسط داده‌های آموزشی کافی از آن‌ها تغذیه نشده است، میزان خطا بالاتر می‌رود.

متأسفانه Whisper هم از خطاهای مربوط به سوگیری رنج می‌برد. مطالعه سال 2020 استنفورد نشان می‌دهد که سیستم‌های آمازون، اپل، گوگل، IBM و مایکروسافت در کار با کاربران سفیدپوست خطاهای بسیار کمتری (حدود 19 درصد) نسبت به کاربران سیاه پوست داشته‌اند.

با این وجود، OpenAI شاهد این است که از قابلیت‌های Whisper برای بهبود اپلیکیشن‌ها، خدمات، محصولات و ابزارهای موجود استفاده می‌شود. در حال حاضر، برنامه آموزش زبان مبتنی بر هوش مصنوعی Speak برای تقویت خود با یک دستیار مجازی درون‌برنامه‌ای، از Whisper AI استفاده می‌کند.

چشم انداز آینده

اگر OpenAI بتواند ابزار رونوشت و ترجمه زبان خود را به طور عمده‌ای وارد بازار برنامه‌های speech-to-text کند، این می‌تواند سود زیادی برای این شرکت تحت حمایت مایکروسافت به همراه داشته باشد. بر اساس یک گزارش، ارزش این بازار در سال 2026 به 5.4 میلیارد دلار می‌رسد. که بسیار بیشتر از ارزش 2.2 میلیارد دلاری این بازار در سال 2021 است.

براکمن گفت: «تصویر ما این است که ما واقعاً می‌خواهیم این هوش جهانی باشیم». و «ما واقعاً می‌خواهیم بتوانیم به شیوه بسیار انعطاف‌پذیری، هر نوع داده‌ای را که در اختیار دارید، و هر کاری را که می‌خواهید با آن انجام دهید، با نیرویی چند برابر برایتان انجام دهیم».

منبع ترجمه: techcrunch

Leave feedback about this

  • کیفیت
  • قیمت
  • خدمات

PROS

+
Add Field

CONS

+
Add Field
Choose Image
Choose Video
X