職位描述
該職位信息待核驗(yàn),請仔細(xì)了解后再進(jìn)行投遞!
崗位職責(zé):
1.大模型部署與推理優(yōu)化
負(fù)責(zé)主流大模型(如Qwen、DeepSeek)的推理服務(wù)部署,使用 TensorRT、vLLM、SGLang 等框架進(jìn)行推理加速,實(shí)現(xiàn)低延遲、高吞吐的在線服務(wù);主導(dǎo)模型量化(INT8/FP16)、剪枝、動態(tài)批處理、KV Cache優(yōu)化等技術(shù)落地,提升GPU資源利用率,降低單位推理成本。
2.AI系統(tǒng)運(yùn)維與工程化
基于k8s容器化模型服務(wù),配合商業(yè)的算力池化平臺實(shí)現(xiàn)集群調(diào)度、自動擴(kuò)縮容與服務(wù)高可用;構(gòu)建 CI/CD 流水線(GitLab CI/Jenkins),實(shí)現(xiàn)模型版本上線前測試、灰度發(fā)布與回滾;部署 Prometheus Grafana 監(jiān)控體系,追蹤模型響應(yīng)時間、顯存占用、請求成功率等核心指標(biāo),建立告警機(jī)制保障服務(wù)SLA。
3.智能體應(yīng)用構(gòu)建與業(yè)務(wù)落地
設(shè)計(jì)并實(shí)現(xiàn)基于 LangChain、MCP、Skills 等工具的智能體(Agent)系統(tǒng),完成RAG增強(qiáng)問答、多工具調(diào)用、記憶管理等核心功能;與產(chǎn)品、業(yè)務(wù)方深度協(xié)作,將模糊業(yè)務(wù)需求(如“提升客服效率”)轉(zhuǎn)化為可執(zhí)行的技術(shù)方案(如“構(gòu)建FAQ知識庫 Agent自動應(yīng)答鏈”),推動從PoC到生產(chǎn)環(huán)境的端到端落地。
任職要求:
1.精通 TensorRT、vLLM、SGLang 的部署與調(diào)優(yōu);熟悉模型量化(INT8/FP4)、動態(tài)批處理、PagedAttention、模型并行等優(yōu)化技術(shù);熟練使用 CUDA、Python、C 進(jìn)行性能分析與底層優(yōu)化。
2.熟練掌握 Docker、K8s 集群管理,具備生產(chǎn)級CI/CD流水線搭建經(jīng)驗(yàn);熟悉 Prometheus、Grafana、Alertmanager 監(jiān)控體系,能自定義指標(biāo)與告警規(guī)則。
3.有 LangChain、LlamaIndex、CrewAI、AutoGen 等框架的實(shí)際項(xiàng)目經(jīng)驗(yàn),能獨(dú)立構(gòu)建多智能體協(xié)作系統(tǒng);熟悉RAG流程優(yōu)化、向量數(shù)據(jù)庫(Milvus/Chroma)、檢索重排序(Rerank)等關(guān)鍵技術(shù)。
4.具備優(yōu)秀的跨團(tuán)隊(duì)溝通能力,能將非技術(shù)語言的業(yè)務(wù)需求轉(zhuǎn)化為清晰的技術(shù)規(guī)格文檔;有主導(dǎo)過至少1個AI項(xiàng)目從0到1落地的完整經(jīng)驗(yàn)。
1.大模型部署與推理優(yōu)化
負(fù)責(zé)主流大模型(如Qwen、DeepSeek)的推理服務(wù)部署,使用 TensorRT、vLLM、SGLang 等框架進(jìn)行推理加速,實(shí)現(xiàn)低延遲、高吞吐的在線服務(wù);主導(dǎo)模型量化(INT8/FP16)、剪枝、動態(tài)批處理、KV Cache優(yōu)化等技術(shù)落地,提升GPU資源利用率,降低單位推理成本。
2.AI系統(tǒng)運(yùn)維與工程化
基于k8s容器化模型服務(wù),配合商業(yè)的算力池化平臺實(shí)現(xiàn)集群調(diào)度、自動擴(kuò)縮容與服務(wù)高可用;構(gòu)建 CI/CD 流水線(GitLab CI/Jenkins),實(shí)現(xiàn)模型版本上線前測試、灰度發(fā)布與回滾;部署 Prometheus Grafana 監(jiān)控體系,追蹤模型響應(yīng)時間、顯存占用、請求成功率等核心指標(biāo),建立告警機(jī)制保障服務(wù)SLA。
3.智能體應(yīng)用構(gòu)建與業(yè)務(wù)落地
設(shè)計(jì)并實(shí)現(xiàn)基于 LangChain、MCP、Skills 等工具的智能體(Agent)系統(tǒng),完成RAG增強(qiáng)問答、多工具調(diào)用、記憶管理等核心功能;與產(chǎn)品、業(yè)務(wù)方深度協(xié)作,將模糊業(yè)務(wù)需求(如“提升客服效率”)轉(zhuǎn)化為可執(zhí)行的技術(shù)方案(如“構(gòu)建FAQ知識庫 Agent自動應(yīng)答鏈”),推動從PoC到生產(chǎn)環(huán)境的端到端落地。
任職要求:
1.精通 TensorRT、vLLM、SGLang 的部署與調(diào)優(yōu);熟悉模型量化(INT8/FP4)、動態(tài)批處理、PagedAttention、模型并行等優(yōu)化技術(shù);熟練使用 CUDA、Python、C 進(jìn)行性能分析與底層優(yōu)化。
2.熟練掌握 Docker、K8s 集群管理,具備生產(chǎn)級CI/CD流水線搭建經(jīng)驗(yàn);熟悉 Prometheus、Grafana、Alertmanager 監(jiān)控體系,能自定義指標(biāo)與告警規(guī)則。
3.有 LangChain、LlamaIndex、CrewAI、AutoGen 等框架的實(shí)際項(xiàng)目經(jīng)驗(yàn),能獨(dú)立構(gòu)建多智能體協(xié)作系統(tǒng);熟悉RAG流程優(yōu)化、向量數(shù)據(jù)庫(Milvus/Chroma)、檢索重排序(Rerank)等關(guān)鍵技術(shù)。
4.具備優(yōu)秀的跨團(tuán)隊(duì)溝通能力,能將非技術(shù)語言的業(yè)務(wù)需求轉(zhuǎn)化為清晰的技術(shù)規(guī)格文檔;有主導(dǎo)過至少1個AI項(xiàng)目從0到1落地的完整經(jīng)驗(yàn)。
工作地點(diǎn)
地址:浦東南路360號新上海國際大廈24層
??
點(diǎn)擊查看地圖
詳細(xì)位置,可以參考上方地址信息
求職提示:用人單位發(fā)布虛假招聘信息,或以任何名義向求職者收取財(cái)物(如體檢費(fèi)、置裝費(fèi)、押金、服裝費(fèi)、培訓(xùn)費(fèi)、身份證、畢業(yè)證等),均涉嫌違法,請求職者務(wù)必提高警惕。
職位發(fā)布者
君管HR
國泰君安期貨有限公司
-
基金·證券·期貨·投資
-
500-999人
-
股份制企業(yè)
-
靜安區(qū)延平路121號三和大廈26樓
相似職位
-
電動硬件測試工程師 面議應(yīng)屆畢業(yè)生 不限華為技術(shù)有限公司
-
硬件工程師 5000-10000元應(yīng)屆畢業(yè)生 本科唐山平升電子技術(shù)開發(fā)有限公司
-
軟件工程師 8000-12000元3年以上 大專河北潤創(chuàng)科技開發(fā)有限公司
-
保定五險一金/上五休二/百度審核 3000-5000元不限 大專內(nèi)蒙古??Э萍加邢薰?
-
網(wǎng)站管理 面議不限 高中河北華強(qiáng)科技開發(fā)有限公司
-
運(yùn)維工程師 4000-6000元應(yīng)屆畢業(yè)生 大專神創(chuàng)新能源滄州有限公司

應(yīng)屆畢業(yè)生
本科
2026-04-22 19:01:44
906人關(guān)注
注:聯(lián)系我時,請說是在河北人才網(wǎng)上看到的。
