视觉语言大模型算法工程师

北京市不限学历应届

职位描述

【岗位描述】

负责开发和优化视觉语言多模态大模型，设计和实现能够与乘客进行自然交互的多模态视觉语言大模型。此模型将用于实现包括但不限于车内人员与物体的检测和属性划分；人员的动作和行为的理解与分析，危险动作和场景的预警；车内气氛状态的感知；基于视觉和语音的用户自然交互等。

【岗位职责】

1、模型与算法设计：基于最先进的机器学习和神经网络方法算法，设计能够跨多种模态（图像、视频、语音、文本及其他模态）学习数据语义的大模型。

2、创建训练所需的数据集；并根据模型表现以及功能需求，动态筛选、整理与适配数据。

3、实施和优化大模型的分布式训练，提高模型训练的效率和性能。

4、根据相应任务，构建合理的测试数据集，测试视觉语言模型的KPI。

5、与模型部署组和软件组进行沟通，协助模型的转化和部署。

6、实时跟进学术界前沿算法，升级改进数据生成算法与软件。

【基本要求】

1、计算机相关专业学历，并在计算机视觉、语言、语音、机器学习等相关领域的经验

2、具备大语言模型开发经验，熟悉主流视觉语言大模型（CLIP、SAM或其他视觉语言对齐、开放词汇的检测分割的基础架构），能够独立进行算法设计与优化

3、具备对LoRA或其他至少一项大模型微调训练的经验

4、熟悉深度学习框架（如 PyTorch、TensorFlow），具备计算机视觉、自然语言处理等领域的扎实基础

5、具备数据清洗和预处理的丰富经验

6、良好的团队合作精神和沟通能力，能够有效地与跨职能团队合作

7、能够熟练阅读国内外论文

【优先条件】

1、有设计多模态大语言模型prompt的经验

2、有RAG、LangChain、agent相关经验

3、有大模型预训练或量化的相关经历

4、在相关领域顶会有论文发表 (例如：CVPR、ICCV、ECCV、NeurIPS、SIGGRAPH 或类似会议)

5、大模型相关领域两年以上经验或博士学历

6、熟悉分布式训练技术，能够优化模型训练效率。

7、大模型相关开源代码库主要贡献者。

8、具备模型在边缘设备或板端部署的经验。

20,861+ 岗位更新等你来订阅

一键订阅最新的岗位，每周送达

您可以在邮箱中随时取消订阅