强化学习算法工程师

3-6万

上海市硕士不限经验

职位描述

岗位信息

岗位职责

1.负责LLM对齐链路整体优化,包括标注数据的生产与分析、奖励模型优化、RL策略迭代及效果评估等,持续提升算法的效率与效果

2.强化学习技术前瞻探索,包括但不限于Bandit相关算法、离线强化学习、环境模型学习等

岗位要求

1.计算机科学、自动化、数学、统计学或相关领域专业的硕士或博士

2.扎实的算法基础,熟悉强化学习、自然语言处理和机器学习技术,对技术开发及应用有热情

3.能够基于实际业务问题优化算法,有RL算法优化和项目实践经验优先

4.熟悉Python、Java等至少一种编程语言,具有良好的编程能力和扎实的数学理论基础

5.熟悉PyTorch、Megatron等框架并有实际项目经验

6.关注行业前沿进展,对技术开发及应用有热情,有自己的想法并乐于挑战自我

7.良好的沟通能力和跨团队协作能力,能够梳理繁杂的工作并建立有效机制,推动上下游配合完成目标

8.在ICML、NeurIPS、IJCAI、AAAI、ICLR、KDD、SIGIR等***会议或期刊上发表过论文者优先

9.获得过国际或国内***赛事奖项者优先

10.有大语言模型算法优化和大规模分布式RL框架优化经验者优先

11.在国际竞赛中取得过优异成绩

12.在***学术期刊中以一作、二作身份发表过论文

13.在开源社区中有突出的影响力和成就

14.实践高手

15.有过重大项目实现的全过程

16.top企业/项目实践经验

20,861+ 岗位更新等你来订阅

一键订阅最新的岗位，每周送达

您可以在邮箱中随时取消订阅