جزئیات شغل

جزئیات شغل

توسعه سیستم لیپسینگ واج‌محور برای آواتار WebGL پروژه متاورس رنگ ( unity trainee )

تجربه: 4

سن: 20 الی 40

محدوده حقوق و دستمزد: قابل مذاکره

جای خالی: 1

طبیعت شغلی : پیمانی

تاریخ ارسال : 2025.11.20

آخرین تاریخ : 2025.12.31

1. هدف

هدف این تسک، توسعه و پیاده‌سازی یک سیستم Lip-Sync کاملاً محلی (Local) برای آواتار نسخه WebGL است، به‌صورتی که آواتار بتواند صرفاً بر اساس صدای ورودی میکروفون کاربر و با استفاده از تحلیل Phoneme-Based به شکل دقیق و به‌موقع لب‌خوانی کند.

تمام پردازش باید روی کلاینت و داخل WebGL انجام شود و هیچ نیازی به API، بک‌اند یا اتصال سرور وجود نخواهد داشت.
خروجی باید این باشد:

کاربر با میکروفون حرف می‌زند →
سیستم واج‌ها را استخراج می‌کند →
آواتار در WebGL حرکت لب هماهنگ و طبیعی انجام می‌دهد.

2. شرح کامل عملکرد مورد انتظار

۲.۱. ورودی صدا

دریافت جریان صوتی از میکروفون مرورگر با استفاده از WebAudio API یا سیستم ورودی Unity.

پردازش بلادرنگ (Realtime Audio Processing) در سمت کلاینت.

۲.۲. تحلیل واج‌ها (Phoneme Detection) – کاملاً محلی

سیستم باید صدای کاربر را به Phoneme تبدیل کند.

واج‌ها باید مستقل از زبان نوشته شوند (مثلاً: /A/، /E/، /O/، /M/، /F/ و ...).

از هیچ سیستم ابری، API صوتی یا مدل سروری استفاده نشود.

پردازش باید به‌قدری سبک باشد که روی WebGL در مرورگر نیز پایدار اجرا شود.

۲.۳. اتصال واج‌ها به BlendShape یا Rig آواتار

آواتار توسط ما ارائه می‌شود (با BlendShape یا استخوان‌بندی).

وظیفه توسعه‌دهنده:

ایجاد نگاشت (Mapping) دقیق هر واج به حرکت لب/فک

همگام‌سازی مداوم (Realtime Syncing)

کاهش نوسان و لرزش حرکات (Stabilization)

۲.۴. خروجی مورد انتظار

آواتار ارائه‌شده در WebGL باید هنگام صحبت کاربر، کاملاً هم‌زمان با صدای واقعی، لب خوانی کند.

حتی در سرعت بالای گفتار، تأخیر نباید از ۲۰۰ میلی‌ثانیه عبور کند.

کیفیت باید مشابه استانداردهای Lip-Sync در محیط‌های 3D/متاورس باشد.

3. الزامات فنی (Technical Requirements)

۳.۱. اجرای لوکال (Local-Only)

بدون API

بدون پردازش سمت سرور

بدون مدل ابری

بدون اتصال اینترنتی در زمان تحلیل

همه چیز باید داخل WebGL Build اجرا شود.

۳.۲. سازگاری WebGL

عدم استفاده از تکنیک‌هایی که WebGL پشتیبانی نمی‌کند.

کاهش مصرف حافظه و جلوگیری از GC Spike.

رعایت محدودیت‌های مرورگرها (Chrome، Firefox، Edge).

۳.۳. عملکرد و بهینه‌سازی

Latency کمتر از ۲۰۰ms

مصرف CPU مناسب برای دستگاه‌های معمولی

سیستم باید حتی روی لپ‌تاپ‌های متوسط بدون لگ اجرا شود.

4. دامنه کاری توسعه‌دهنده (Scope)

توسعه‌دهنده باید موارد زیر را تحویل دهد:

۴.۱. ماژول کامل Lip-Sync

تشخیص واج

انتقال واج به BlendShape

انیمیشن بلادرنگ

۴.۲. پیاده‌سازی WebGL Ready

سیستم باید داخل Build نهایی WebGL کاملاً سالم و بدون مشکل اجرا شود.

۴.۳. صفحه تست (Web Test Page)

روی دامنه ما یک نسخه WebGL باز می‌شود که:

آواتار نمایش داده می‌شود

کاربر میکروفون را فعال می‌کند

آواتار لب‌خوانی را انجام می‌دهد

۴.۴. مستندات

توضیح کامل ساختار سیستم

توضیح نحوه اتصال واج‌ها به آواتار

نحوه تست و Debug

5. معیار پذیرش (Acceptance Criteria)

آواتار هنگام حرف زدن کاربر، لب‌خوانی را دقیق، روان و لحظه‌ای انجام دهد.

هیچ API یا پردازش خارجی وجود نداشته باشد.

عملکرد روی WebGL بدون خطا، کرش، Freezing یا تأخیر بلند باشد.

کیفیت Lip-Sync باید از سطح انیمیشن‌های ساده فراتر باشد و به استانداردهای واج‌محور نزدیک باشد.

ماژول خروجی باید قابل استفاده روی آواتاری باشد که تیم متارنگ ارائه می‌دهد.

در صفحه تست، امکان فعال‌سازی میکروفون و مشاهده رفتار آواتار فراهم باشد.

6. تحویل‌دادنی‌ها (Deliverables)

فایل پروژه Unity با ماژول کامل Lip-Sync.

Build نهایی WebGL.

یک صفحه تست HTML برای اجرای WebGL Build.

مستندات فنی کامل.

ویدیو تست از اجرای Lip-Sync.
7. پیوست مورد نیاز این تسک:
برای این تسک میبایت از اواتاری که لینک ان در اختیاز شما قرار میگیرد استفاده کنید به این صورت است که میبایست مدل اواتار را دانلود نموده و از این مدل در محیط وب استفاده نمایید توجه فرمایید که از رینگ بندی صورت و لب و دهان این آواتار استفاده شود.
https://models.readyplayer.me/6920cd8a5f9f523e50aae2c0.glb

مشخصات کار تعریف شده

عنوان شغلی: توسعه سیستم لیپسینگ واج‌محور برای آواتار WebGL پروژه متاورس رنگ

تعیین: unity trainee