شبیه‌سازی بصری در خدمت ترجمه بهتر متون

تهیه‌کننده مقاله : تیم مارکتینگ

دسته بندی: MIT
5 دقیقه زمان مطالعه
1401/08/22
0 نظر

روشهای یادگیری ماشین در حوزه ترجمه دقیقا مانند خود انسان عمل می‌کند. یعنی با در نظر گرفتن ساختار جمله و ویژگی‌های بصری آن تلاش می‌کند معنای متن را با مفاهیم موجود در دنیای واقعی مطابقت دهد و از این طریق، ترجمه آن را بهبود بخشد. در این مطلب، قصد داریم یک روش تحقیقاتی جدید را به شما معرفی کنیم که به ایجاد سیستمی برای بهبود ترجمه متون منتهی شده است. با ما همراه باشید.

فرآیند یادگیری و ترجمه زبان در انسان مبتنی بر چیست؟

فرآیند یادگیری زبان در انسان  مبتنی بر تکرار و تقلید است. بنابراین، هیچ‌کس را نمی‌توان یافت که بدون دستیابی به دانش و تقویت آگاهی و مهارت‌های خود به‌طور ناگهانی و از همان ابتدای کودکی خواندن متون سنگین را شروع کند. دلیل این امر آن است که بشر برای تفسیر معانی و درک موضوعات به برقراری ارتباط میان مفاهیم و استنتاج توصیفات نیاز دارد. واقعیت این است که سفر انسان در مسیر پرپیچ‌وخم زبان به آرامی و از طریق تعامل با محیط آغاز می‌شود و با درک ساختار کلامی، فیزیکی و اجتماعی ادامه می‌یابد. در نهایت، انسان می‌تواند جملات کاملی را تولید کرده، ایده‌های پیچیده‌ را بیان کند و تفکرات متعالی‌اش را با دیگران به‌اشتراک بگذارد.

معرفی مدل جدید یادگیری ماشین برای ترجمه متون

به‌طور مشابه، انسان در روند یادگیری و ترجمه زبان به ادغام اطلاعات حسی از قبیل مفاهیم دیداری و شنیداری روی می‌آورد. همچنین، کلمات زبان‌های مقصد و مبدا را با یکدیگر مطابقت می‌دهد و از این طریق فرآیند اکتساب داده‌های تازه و برگردان آن را به اطلاعات قابل فهم امکان‌پذیر می‌کند. سپس، انسان با تمرین کافی و بدون بهره‌برداری از رسانه‌های تصویری می‌تواند جملات جدید و ناآشنا را به زبان دلخواه خود ترجمه کند. 

شبیه‌سازی تصویر براساس متن اصلی از روش‌های موثری است که به درک بهتر مفاهیم کمک می‌کند. این همان مدل یادگیری ماشین جدیدی است که توسط محققان MIT، IBM و شعبه سان‌فرانسیسکوی دانشگاه کالیفرنیا ارائه شده و VALHALLA نام دارد. این مدل یادگیری نوین شامل یک شبکه عصبی پیشرفته و تعلیم‌دیده است که جملات زبان مبدا را بررسی می‌کند و براساس آن، تصویری ساختگی و توهم‌گونه را در اختیار مخاطب قرار می‌دهد؛ سپس، از متن اولیه و تصاویر ساخته شده به‌صورت توامان بهره می‌گیرد و روند ترجمه را پیش می‌برد. براساس مطالعات انجام شده، این روش ترجمه ماشینی به مراتب دقیق‌تر از تکنیک‌هایی است که تنها مبتنی بر متن مبتنی بوده‌اند. به‌علاوه، این راهکار در برگردان جملات طولانی، زبان‌های کم‌تر شناخته شده و موارد نا آشنا برای مترجم ماشینی موثرتر و موفق‌تر عمل می‌کند.

«یون کیم» (Yoon Kim)، استادیار دپارتمان برق دانشگاه MIT و یکی از نویسندگان و ارائه‌دهندگان این تحقیق در این باره می‌گوید: «ترجمه ماشینی یک فناوری بسیار کاربردی است که روزانه توسط میلیون‌ها نفر در سراسر نقاط جهان استفاده می‌شود. با توجه به پیشرفت‌های قابل توجهی که اخیرا در حوزه یادگیری عمیق روی داده، شاهد توسعه چشمگیری در نحوه استفاده از داده‌های غیر متنی هستیم. اکنون تصاویر، صداها و سایر اطلاعات پایه‌ای در اختیارمان قرار دارند تا درک‌مان را از زبان بهبود بخشند و انجام برخی از کارهای عملی مرتبط با آن از قبیل ترجمه را برای‌مان ساده‌تر کنند. ترجمه و پردازش زبان یک فرآیند مبتنی بر موقعیت است. بنابراین، برقراری ارتباط میان متن و تصاویر برگرفته از آن روند استنتاج را بهبود می‌بخشد و زمینه مناسبی را برای بهینه‌سازی عملکرد فراهم می‌کند

در ماه جاری، تحقیقات مذکور در IEEE / CVF کنفرانس بینایی رایانه‌ای و بازشناخت الگو (CVPR) ارائه خواهد شد. تالیف‌کنندگان همکار «کیم» در این تحقیق عبارتند از «یی لی» (Yi Li)، دانشجوی سال آخر دانشگاه سن‌دیگو، پروفسور «نونو واسکونسلوس» (Nuno Vasconcelos) و همچنین، اعضا هیات تحقیقاتی شامل «رامسوار پاندا» (Rameswar Panda)، «چون فو ریچارد چن» (Chun-fu Richard Chen)، «روجریو فریس» (Rogerio Feris) و «دیوید کاکس» (David Cox)، مدیر IBM در آزمایشگاه هوش مصنوعی MIT-IBM Watson.

عملکرد یادگیری ماشینی مبتنی بر شبیه‌سازی بصری 

یادگیری و ترجمه زبان‌های جدید معمولا با مراجعه به نمونه‌ها و تمرین‌های مداوم امکان‌پذیر است. همین امر در مورد سیستم‌های ترجمه ماشینی نیز مصداق دارد. به گفته پاندا: «با این حال، اگر قرار باشد روش‌های هوش مصنوعی در طول یادگیری از تصاویر استفاده کنند باید از جلوه‌های بصری موجود بهره‌ ببرند. این امر کاربردپذیری آن‌ها را محدود می‌کند.»

پاندا اضافه می‌کند: «در سناریوهای واقعی، ممکن است دسترسی به تصویر متناسب با جمله زبان مبدا امکان‌پذیر نباشد. بنابراین، سوال این است که برای بهبود سیستم‌های ترجمه ماشینی آیا به‌جای استفاده از یک تصویر خارجی می‌توان از توهم یا شبیه‌سازی بصری استفاده کرد؟»

برای انجام این کار، تیم مذکور با بهره‌گیری از دو ترانسفورماتور از نوعی معماری رمزگذار-رمزگشا استفاده کرد. این سیستم، نوعی مدل شبکه عصبی بوده و برای پردازش زبان و داده‌های وابسته به توالی مناسب است. از جمله ویژگی‌های این سیستم می‌توان به قابلیت توجه به کلمات کلیدی و معنایی یک جمله اشاره کرد. عملکرد این سیستم به این صورت است که یکی از ترانسفورماتورها نوعی توهم بصری را ایجاد می‌کند و دیگری با استفاده از خروجی‌های ترانسفورماتور اول، ترجمه چند وجهی (multimodal) را ارائه می‌دهد. 

در طول یادگیری، دو جریان ترجمه وجود دارد:

  • یک جمله منبع و یک تصویر مرجع که منطبق با جمله مذکور است.
  • همان جمله منبع که برای ایجاد یک جفت متن-تصویر مبتنی بر توهم بصری ایجاد می‌شود. 

برای این منظور، ابتدا تصویر و جمله مرجع به واحدهای قابل شناسایی تبدیل می‌شوند. ترانسفورماتورها می‌توانند این واحدها و بخش‌ها را مدیریت کنند. در مورد جمله، هر کلمه یک واحد (token) به حساب می‌آید. سپس، جمله مرجع مجددا تقسیم‌بندی (tokenized) می‌شود. اما این بار از ترانسفورماتور توهم‌زا عبور می‌کند تا فرآیند شبیه‌سازی بصری و نمایش تصویری مجزا از جمله را به‌عنوان خروجی ارائه دهد. برای مطابقت دادن داده‌های مرجع و شبیه‌سازی بصری ارائه شده، محققان از یک مدل خودهمبسته و خودکار بهره می‌گیرند. برای مثال، زمانی که در جمله مرجع به «خفاش» (bat) اشاره می‌شود، تجسم بصری بین نام حیوان مذکور و «چوب بیسبال» (baseball bat) تمایز قائل می‌شود. سپس دستگاه توهم‌زا از تفاوت بین آن‌ها برای بهینه‌سازی و بهبود خروجی بصری خود استفاده می‌کند و مطمئن می شود که تصویر شبیه‌سازی شده کاملا با جمله مرجع سازگار است.

در مرحله بعد، هر یک از مجموعه‌های تقسیم‌بندی شده و مشتمل بر واحدها یا توکن‌های مختلف به‌طور همزمان از ترانسفورماتور ترجمه چندوجهی عبور داده می‌شوند. هر کدام از این مجموعه‌ها شامل نمایش جمله و همچنین، تصویر توهم‌آمیز یا شبیه‌سازی بصری است.

به‌منظور بهینه‌سازی عملکرد ترجمه توسط این دستگاه، در نهایت ترجمه متن اصلی tokenize شده با جملات زبان مقصد مطابقت داده می‌شوند. سپس، هر مغایرتی به ترانسفورماتور ترجمه انتقال می‌یابد تا بهبود یابد. پاندا در این باره می‌گوید: «تا جایی که می‌دانیم، پیش از این برای بهبود عملکرد ترجمه ماشینی، هیچ ترانسفورماتور توهم‌زایی با یک سیستم ترجمه چند وجهی همکاری نکرده است.»

تجسم بصری متن 

تیم تحقیقاتی مذکور برای ارزیابی سیستم ارائه شده، عملکرد VALHALLA را با سایر روش‌های پیشرفته ترجمه چند وجهی و همچنین، ترجمه‌های صرفا متنی مقایسه کردند. برای این کار، آن‌ها از مجموع داده‌های معیار عمومی حاوی تصاویر مرجع با جملات منبع و داده‌های مرتبط با ترجمه مقالات خبری (صرفا متنی) بهره جستند. محققان مذکور عملکرد این سیستم را در بیش از ۱۳ تسک گوناگون ارزیابی کردند. از این میان، می‌توان به ترجمه زبان‌های پرکاربردی نظیر انگلیسی، آلمانی و فرانسوی تا زبان‌های کم‌ مخاطب‌تری مانند رومانیایی اشاره کرد. این گروه همچنین مواردی از قبیل ارتباط دقت ترجمه با طول جمله و ترجمه متونی را بررسی کردند که از منابع محدودتری برخوردار بوده و بخش‌هایی از آن‌ها از نظر مترجم‌های ماشینی پنهان می‌ماندند. 

با توجه به اقدامات انجام شده، این تیم شاهد پیشرفت‌های قابل‌توجهی بود که روش ارائه شده توسط آن‌ها را از روش‌های پیشین ترجمه متنی متمایز می‌کرد. مجموع این عوامل با بهبود کارایی سیستم و بهینه‌سازی داده‌ها همراه بود. با طولانی‌تر شدن جملات، عملکرد VALHALLA نسبت به روش‌های دیگر افزایش یافت. در مواردی که بخشی از جمله مبهم یا مخدوش بود نیز VALHALLA توانست متن اصلی را بازیابی و ترجمه کند. این ویژگی منحصر به‌فردی است که اعضای تیم تحقیقاتی را شگفت‌زده کرد.

در این میان، نتایج غیر منتظره دیگری نیز حاصل شد. برای مثال، در هنگام ترجمه زبان‌های کم کاربرد و زمانی که انطباق‌پذیری تصاویر با متن دشوارتر بود، پیشرفت‌های قابل توجه‌تری حاصل شد. به اعتقاد «کیم» این امر نشان می‌دهد که شبیه‌سازی بصری و مرجع‌سازی تصاویر به‌دست آمده به ترجمه زبان‌های نا آشنا با منابع اطلاعاتی محدود کمک می‌کند و کارایی آن به مراتب بهتر از سیستم‌هایی است که صرفا مبتنی بر متن هستند. 

آیا VALHALLA یک نمونه کامل است؟

با وجود همه این‌ها، محققان خاطرنشان می‌کنند که VALHALLA هم دارای محدودیت‌هایی است. برای مثال، تصاویر جفت شده با یک جمله باید حاشیه‌نویسی شود تا بعدها بتواند به‌عنوان مرجع مورد استفاده قرار گیرد. انجام این کار به صرف تلاش و هزینه بیش‌تری نیازمند است. 

به‌علاوه، «کیم» و «پاندا» یادآوری می‌کنند که تکنیک‌های مشابه VALHALLA هنوز مانند یک جعبه سیاه هستند و اطمینان از عملکرد آن‌ها مستلزم تحقیقات بیش‌تری است. در حال حاضر، فرض بر این است که شبیه‌سازی بصری اطلاعات مفیدی را ارائه می‌دهد. 

سخن آخر

این تیم تحقیقاتی قصد دارد در آینده ابزارهای دیگری را برای بهبود ترجمه پیدا کند. پاندا می‌گوید: «در این پژوهش، ما فقط بر روی تصاویر تمرکز کردیم. با این حال، انواع دیگری از اطلاعات چندوجهی هم وجود دارند که می‌توانند به بهبود فرآیند ترجمه ماشینی کمک کنند. از آن میان، می‌توان به گفتار، ویدیو، امکان برقراری تماس لمسی یا سایر روش‌های مبتنی بر حواس پنج‌گانه اشاره کرد. به اعتقاد ما چنین زمینه‌سازی چندوجهی می‌تواند به ارائه برخی از مدل‌های ترجمه ماشینی منجر شود که از این هم کارآمدتر باشند. این فرآیند می‌تواند به ترجمه زبان‌های کم‌تر شناخته شده جهان کمک کند.»

منبع

https://news.mit.edu/2022/hallucinating-better-text-translation-0606