多模态算法工程师（OCR&CV）

1-2万

上海市硕士不限经验

职位描述

岗位职责

· OCR系统开发与优化

1.构建高精度文档OCR系统：集成合适的OCR解决方案（Tesseract、ABBYY、PaddleOCR等），优化中英文混合文档识别效果（特别是对复杂表格内容的提取）

2.针对低质量文档增强方案：针对扫描模糊、字体倾斜等场景建立合理的预处理机制，提高低质量文档输入的质量

· 文档智能理解

1.构建多模态文档解析引擎：融合LayoutLLM/LayoutXLM等模型，实现文档结构分析（标题层级识别、跨页表格重建）与语义理解（关键信息抽取、逻辑关系推理）

2.开发行业相关解决方案：针对技术文档/标准文件特点，建立领域知识增强的文档分类与结构化处理流水线

· 构建数据处理系统

1.设计分布式文档处理框架：支持万级文档/天的批量处理，并对文件进行评估

2.构建模块化处理链路：从文档扫描→图像预处理→OCR识别→结构化存储→知识图谱等形式构建实现全流程闭环

· 前沿技术探索

1.布局多模态大模型应用：探索视觉-文本跨模态对齐、文档问答等创新场景落地

2.建立领域效果评估体系：设计专业符号识别率、表格结构还原度等量化指标

任职要求

1.计算机或AI相关专业硕士及以上学历

2.2年及以上OCR系统和文档处理项目经验

3.精通OpenCV/Tesseract/PaddleOCR等工具

4.掌握Transformer/BERT系列模型微调

5.熟练使用PyTorch框架及ONNX部署

6.熟悉LayoutLLM、LayoutXLM等多模态文档理解模型

7.有构建端到端文档处理链路的经验

8.熟练掌握Python和PDF处理技术

9.有技术文档或标准文件处理经验者优先

关键能力

1.对细节有高度关注，注重质量

2.优秀的问题分析和解决能力

3.良好的团队合作和沟通能力

4.自驱力强，能独立应对技术挑战

5.耐心处理复杂文档结构化任务

20,861+ 岗位更新等你来订阅

一键订阅最新的岗位，每周送达

您可以在邮箱中随时取消订阅