参与手机端 GUI Agent 与多模态交互的算法研究与实验;协助进行 GUI 视觉理解(屏幕元素检测、布局解析、视觉 Grounding)、多步操作导航等方向的模型训练与评测;配合推进端侧轻量 VLM 的适配与落地验证
计算机相关专业硕士及以上,计算机视觉、多模态学习或人机交互方向;熟悉 PyTorch,具备 VLM 或视觉 Grounding 相关研究基础;了解 GUI Agent 领域前沿工作(如 UI-TARS-2、Ferret-UI Lite、MAI-UI、GUI-Owl-1.5 等)或相关评测基准(AndroidWorld、MobileWorld、ScreenSpot-Pro);有 GUI 自动化、Large Action Model 或端侧模型部署相关课题研究者优先;有顶会论文发表或投稿经历者优先
有 GUI 自动化、Large Action Model 或端侧模型部署相关课题研究者优先;有顶会论文发表或投稿经历者优先
Search for other job offers that match your skills and interests.
8 matching positions







