توسعه سیستم لیپسینگ واجمحور برای آواتار WebGL پروژه متاورس رنگ ( unity trainee )
تجربه: 4
سن: 20 الی 40
محدوده حقوق و دستمزد: قابل مذاکره
جای خالی: 1
طبیعت شغلی : پیمانی
تاریخ ارسال : 2025.11.20
آخرین تاریخ : 2025.12.31
1. هدف هدف این تسک، توسعه و پیادهسازی یک سیستم Lip-Sync کاملاً محلی (Local) برای آواتار نسخه WebGL است، بهصورتی که آواتار بتواند صرفاً بر اساس صدای ورودی میکروفون کاربر و با استفاده از تحلیل Phoneme-Based به شکل دقیق و بهموقع لبخوانی کند. تمام پردازش باید روی کلاینت و داخل WebGL انجام شود و هیچ نیازی به API، بکاند یا اتصال سرور وجود نخواهد داشت. خروجی باید این باشد: کاربر با میکروفون حرف میزند → سیستم واجها را استخراج میکند → آواتار در WebGL حرکت لب هماهنگ و طبیعی انجام میدهد. 2. شرح کامل عملکرد مورد انتظار ۲.۱. ورودی صدا دریافت جریان صوتی از میکروفون مرورگر با استفاده از WebAudio API یا سیستم ورودی Unity. پردازش بلادرنگ (Realtime Audio Processing) در سمت کلاینت. ۲.۲. تحلیل واجها (Phoneme Detection) – کاملاً محلی سیستم باید صدای کاربر را به Phoneme تبدیل کند. واجها باید مستقل از زبان نوشته شوند (مثلاً: /A/، /E/، /O/، /M/، /F/ و ...). از هیچ سیستم ابری، API صوتی یا مدل سروری استفاده نشود. پردازش باید بهقدری سبک باشد که روی WebGL در مرورگر نیز پایدار اجرا شود. ۲.۳. اتصال واجها به BlendShape یا Rig آواتار آواتار توسط ما ارائه میشود (با BlendShape یا استخوانبندی). وظیفه توسعهدهنده: ایجاد نگاشت (Mapping) دقیق هر واج به حرکت لب/فک همگامسازی مداوم (Realtime Syncing) کاهش نوسان و لرزش حرکات (Stabilization) ۲.۴. خروجی مورد انتظار آواتار ارائهشده در WebGL باید هنگام صحبت کاربر، کاملاً همزمان با صدای واقعی، لب خوانی کند. حتی در سرعت بالای گفتار، تأخیر نباید از ۲۰۰ میلیثانیه عبور کند. کیفیت باید مشابه استانداردهای Lip-Sync در محیطهای 3D/متاورس باشد. 3. الزامات فنی (Technical Requirements) ۳.۱. اجرای لوکال (Local-Only) بدون API بدون پردازش سمت سرور بدون مدل ابری بدون اتصال اینترنتی در زمان تحلیل همه چیز باید داخل WebGL Build اجرا شود. ۳.۲. سازگاری WebGL عدم استفاده از تکنیکهایی که WebGL پشتیبانی نمیکند. کاهش مصرف حافظه و جلوگیری از GC Spike. رعایت محدودیتهای مرورگرها (Chrome، Firefox، Edge). ۳.۳. عملکرد و بهینهسازی Latency کمتر از ۲۰۰ms مصرف CPU مناسب برای دستگاههای معمولی سیستم باید حتی روی لپتاپهای متوسط بدون لگ اجرا شود. 4. دامنه کاری توسعهدهنده (Scope) توسعهدهنده باید موارد زیر را تحویل دهد: ۴.۱. ماژول کامل Lip-Sync تشخیص واج انتقال واج به BlendShape انیمیشن بلادرنگ ۴.۲. پیادهسازی WebGL Ready سیستم باید داخل Build نهایی WebGL کاملاً سالم و بدون مشکل اجرا شود. ۴.۳. صفحه تست (Web Test Page) روی دامنه ما یک نسخه WebGL باز میشود که: آواتار نمایش داده میشود کاربر میکروفون را فعال میکند آواتار لبخوانی را انجام میدهد ۴.۴. مستندات توضیح کامل ساختار سیستم توضیح نحوه اتصال واجها به آواتار نحوه تست و Debug 5. معیار پذیرش (Acceptance Criteria) آواتار هنگام حرف زدن کاربر، لبخوانی را دقیق، روان و لحظهای انجام دهد. هیچ API یا پردازش خارجی وجود نداشته باشد. عملکرد روی WebGL بدون خطا، کرش، Freezing یا تأخیر بلند باشد. کیفیت Lip-Sync باید از سطح انیمیشنهای ساده فراتر باشد و به استانداردهای واجمحور نزدیک باشد. ماژول خروجی باید قابل استفاده روی آواتاری باشد که تیم متارنگ ارائه میدهد. در صفحه تست، امکان فعالسازی میکروفون و مشاهده رفتار آواتار فراهم باشد. 6. تحویلدادنیها (Deliverables) فایل پروژه Unity با ماژول کامل Lip-Sync. Build نهایی WebGL. یک صفحه تست HTML برای اجرای WebGL Build. مستندات فنی کامل. ویدیو تست از اجرای Lip-Sync.7. پیوست مورد نیاز این تسک:برای این تسک میبایت از اواتاری که لینک ان در اختیاز شما قرار میگیرد استفاده کنید به این صورت است که میبایست مدل اواتار را دانلود نموده و از این مدل در محیط وب استفاده نمایید توجه فرمایید که از رینگ بندی صورت و لب و دهان این آواتار استفاده شود.https://models.readyplayer.me/6920cd8a5f9f523e50aae2c0.glb
هدف این تسک، توسعه و پیادهسازی یک سیستم Lip-Sync کاملاً محلی (Local) برای آواتار نسخه WebGL است، بهصورتی که آواتار بتواند صرفاً بر اساس صدای ورودی میکروفون کاربر و با استفاده از تحلیل Phoneme-Based به شکل دقیق و بهموقع لبخوانی کند.
تمام پردازش باید روی کلاینت و داخل WebGL انجام شود و هیچ نیازی به API، بکاند یا اتصال سرور وجود نخواهد داشت. خروجی باید این باشد:
کاربر با میکروفون حرف میزند → سیستم واجها را استخراج میکند → آواتار در WebGL حرکت لب هماهنگ و طبیعی انجام میدهد.
دریافت جریان صوتی از میکروفون مرورگر با استفاده از WebAudio API یا سیستم ورودی Unity.
پردازش بلادرنگ (Realtime Audio Processing) در سمت کلاینت.
سیستم باید صدای کاربر را به Phoneme تبدیل کند.
واجها باید مستقل از زبان نوشته شوند (مثلاً: /A/، /E/، /O/، /M/، /F/ و ...).
از هیچ سیستم ابری، API صوتی یا مدل سروری استفاده نشود.
پردازش باید بهقدری سبک باشد که روی WebGL در مرورگر نیز پایدار اجرا شود.
آواتار توسط ما ارائه میشود (با BlendShape یا استخوانبندی).
وظیفه توسعهدهنده:
ایجاد نگاشت (Mapping) دقیق هر واج به حرکت لب/فک
همگامسازی مداوم (Realtime Syncing)
کاهش نوسان و لرزش حرکات (Stabilization)
آواتار ارائهشده در WebGL باید هنگام صحبت کاربر، کاملاً همزمان با صدای واقعی، لب خوانی کند.
حتی در سرعت بالای گفتار، تأخیر نباید از ۲۰۰ میلیثانیه عبور کند.
کیفیت باید مشابه استانداردهای Lip-Sync در محیطهای 3D/متاورس باشد.
بدون API
بدون پردازش سمت سرور
بدون مدل ابری
بدون اتصال اینترنتی در زمان تحلیل
همه چیز باید داخل WebGL Build اجرا شود.
عدم استفاده از تکنیکهایی که WebGL پشتیبانی نمیکند.
کاهش مصرف حافظه و جلوگیری از GC Spike.
رعایت محدودیتهای مرورگرها (Chrome، Firefox، Edge).
Latency کمتر از ۲۰۰ms
مصرف CPU مناسب برای دستگاههای معمولی
سیستم باید حتی روی لپتاپهای متوسط بدون لگ اجرا شود.
توسعهدهنده باید موارد زیر را تحویل دهد:
تشخیص واج
انتقال واج به BlendShape
انیمیشن بلادرنگ
سیستم باید داخل Build نهایی WebGL کاملاً سالم و بدون مشکل اجرا شود.
روی دامنه ما یک نسخه WebGL باز میشود که:
آواتار نمایش داده میشود
کاربر میکروفون را فعال میکند
آواتار لبخوانی را انجام میدهد
توضیح کامل ساختار سیستم
توضیح نحوه اتصال واجها به آواتار
نحوه تست و Debug
آواتار هنگام حرف زدن کاربر، لبخوانی را دقیق، روان و لحظهای انجام دهد.
هیچ API یا پردازش خارجی وجود نداشته باشد.
عملکرد روی WebGL بدون خطا، کرش، Freezing یا تأخیر بلند باشد.
کیفیت Lip-Sync باید از سطح انیمیشنهای ساده فراتر باشد و به استانداردهای واجمحور نزدیک باشد.
ماژول خروجی باید قابل استفاده روی آواتاری باشد که تیم متارنگ ارائه میدهد.
در صفحه تست، امکان فعالسازی میکروفون و مشاهده رفتار آواتار فراهم باشد.
فایل پروژه Unity با ماژول کامل Lip-Sync.
Build نهایی WebGL.
یک صفحه تست HTML برای اجرای WebGL Build.
مستندات فنی کامل.
ویدیو تست از اجرای Lip-Sync.
برای این تسک میبایت از اواتاری که لینک ان در اختیاز شما قرار میگیرد استفاده کنید به این صورت است که میبایست مدل اواتار را دانلود نموده و از این مدل در محیط وب استفاده نمایید توجه فرمایید که از رینگ بندی صورت و لب و دهان این آواتار استفاده شود.https://models.readyplayer.me/6920cd8a5f9f523e50aae2c0.glb
عنوان شغلی: توسعه سیستم لیپسینگ واجمحور برای آواتار WebGL پروژه متاورس رنگ
تعیین: unity trainee