强化学习算法工程师
3-6万上海市硕士不限经验
职位描述
岗位信息
岗位职责
1.负责LLM对齐链路整体优化,包括标注数据的生产与分析、奖励模型优化、RL策略迭代及效果评估等,持续提升算法的效率与效果
2.强化学习技术前瞻探索,包括但不限于Bandit相关算法、离线强化学习、环境模型学习等
岗位要求
1.计算机科学、自动化、数学、统计学或相关领域专业的硕士或博士
2.扎实的算法基础,熟悉强化学习、自然语言处理和机器学习技术,对技术开发及应用有热情
3.能够基于实际业务问题优化算法,有RL算法优化和项目实践经验优先
4.熟悉Python、Java等至少一种编程语言,具有良好的编程能力和扎实的数学理论基础
5.熟悉PyTorch、Megatron等框架并有实际项目经验
6.关注行业前沿进展,对技术开发及应用有热情,有自己的想法并乐于挑战自我
7.良好的沟通能力和跨团队协作能力,能够梳理繁杂的工作并建立有效机制,推动上下游配合完成目标
8.在ICML、NeurIPS、IJCAI、AAAI、ICLR、KDD、SIGIR等***会议或期刊上发表过论文者优先
9.获得过国际或国内***赛事奖项者优先
10.有大语言模型算法优化和大规模分布式RL框架优化经验者优先
11.在国际竞赛中取得过优异成绩
12.在***学术期刊中以一作、二作身份发表过论文
13.在开源社区中有突出的影响力和成就
14.实践高手
15.有过重大项目实现的全过程
16.top企业/项目实践经验
20,861+ 岗位更新等你来订阅
一键订阅最新的岗位,每周送达
🎉恭喜你,订阅成功
继续订阅您可以在邮箱中随时取消订阅