团队描述:
基础产品事业部创新产品之高性能计算产品与技术团队,旨在开发和维护阿里云高性能计算服务,包括异构计算应用在阿里云弹性高性能计算平台的部署和优化,同时支持数据处理,可视化和机器学习等分布式并行算法在高性能平台上的实现,为用户提供弹性,快捷,安全,云产品互通的HPCaaS产品和服务。
岗位描述:
1.负责阿里云高性能计算E-HPC的增量功能开发,包括并行存储集成,网络功能,科学可视化开发。负责阿里云高性能计算SCC超级计算集群产品开发,技术支持。
2.负责支持阿里云高性能计算专有云产品和第三方SaaS的HPC产品开发。负责阿里云高性能计算对智能超算,人工智能扩展产品的开发。
3.针对阿里云HPC行业客户需求,完成线下高性能计算上云的搬站与优化,在阿里云环境最大化虚拟化平台分布式计算的交付性能。行业应用包括并不限于商业代码,客户in-house code和开源代码。
4.根据行业应用需求开发PaaS功能与方案支撑软件栈,实现被SaaS集成, 包括并不限于应用前台,调度软件,性能监控和优化软件,数据库等。
5.HPC和机器学习垂直行业应用的云上部署与调优,解决客户对性能和功能的需求。撰写和优化针对云超算平台,包括专有云超算平台的应用性能基准测试,支持客户POC和性能评估,优化性能和成本方案。
职位描述
至少具备以下2条:
五年以上技术计算领域C/C++/Fortran/Python开发或优化经验,掌握多线程编程、MPI编程,熟悉Linux/Unix开发环境;三年以上的JAVA/Node.js/Python开发经验,熟悉常见框架及其原理,对算法和数据结构有较深入理解,熟练使用Linux操作系统及MySQL数据库。
熟悉技术计算软件栈的开发流程,至少具备OpenMP/MPI/CUDA/OpenCL/OpenACC以及TensorFlow等并行框架其中三种以上的项目经验,掌握Linux下性能剖析和优化工具,掌握编译器,微架构性能优化手段,有硬件虚拟化优化经验者优先。
有HPC行业经验,具备HPC集群管理、常用调度系统的部署、HPC系统调优经验者优先,对HPC异构计算,机器学习和通用AI计算框架有移植经验者优先。
熟悉分布式机器学习算法框架及其优化,具备数值计算的算法编程经验,熟悉数学库算法实现者优先,熟悉深度学习框架的训练调参、预测优化者优先;
简历投递: wanqing.hwq@alibaba-inc.com
关于“Linux宝库”微信公众号:
欢迎关注"Linux宝库"微信公众号,这里每天发布最新的开源人物和开源事件。谨以此号记录Linux和开源业界的点点滴滴,为开源爱好者和从业者点亮人生。
- 责任编辑:耿航-- END -