日程安排

09:00-09:20

Istio Ambient Mesh Present and Future

近期,全世界开发者目睹了服务网格Istio新模式Ambient Mesh的发布,它是与Sidecar完全不同的新模式。自2017年istio开源以来,Sidecar一直被视为零入侵代理的革命性创新。然而,五年过去了,用户发现有许多副作用很难通过Sidecar解决。今年9月,除了Sidecar之外,Istio社区宣布了另一种数据平面模式Ambient Mesh,它旨在简化操作、更广泛的应用程序兼容性和降低基础架构成本。本次演讲,中虎将对Ambient模式进行一个整体的介绍,并展示Ambient mesh是如何工作的。然后将其与Sidecar模式进行比较。最后,中虎将以社区核心贡献者的角度分享官方istio社区的观点:关于Ambient mesh在未来将如何演变,以及为什么Istio社区正在用rust重新设计一个新的轻量级代理“ztunnel”。

09:20-09:40

KubeSkoop: 容器网络问题的自动化诊断系统 下载PPT

Kubernetes本身比较复杂,使用门槛较高,用户在开始容器化迁移时经常遇到各种各样的问题,由于缺乏故障定位的技能和工具,用户常常产生挫败感,甚至放弃业务容器化。其中网络问题表现尤为突出,Kubernetes网络虚拟化导致网络问题的排查的难度巨大。KubeSkoop正是为了降低网络问题排查难度,让没有网络知识的人也可以自助的自动化的定位网络问题。KubeSkoop能够自动构建出给定源和目的地址在容器网络中的访问路径,自动化的采集和分析链路上每一个网络节点的配置,结合eBPF内核监控以及IAAS层的网络配置检查,定位出导致网络不通的根因,极大的降低了网络问题定位的时间,即使没有任何网络技能的用户也可以使用。目前在阿里云容器服务的环境中,作为自运维工具解决了大量客户的大规模的Kubernetes集群遇到的网络问题。最近阿里云将KubeSkoop开源,支持世面上主流的网络插件和云厂商的Kubernetes集群诊断。这次议题将介绍KubeSkoop诊断系统的使用,架构设计,以及一些诊断能力实现的技术细节。

09:40-10:00

基于 Kitex Proxyless 和 Istio 的云原生微服务实践 下载PPT

随着 Istio 的日益流行,经典的 sidecar 模型也被大家所熟知,这种模式最大的亮点就是业务无侵入,也正是这个优点,让服务网格的理念深入人心,满足了大部分场景需求,但是在一些对性能比较敏感的场景, sidecar 模式也不可避免地会带来一些问题,诸如:应用协议绑定、性能损耗、资源开销、运维复杂度提升等等。 CloudWeGo-Kitex 是一个支持多协议的 RPC 框架,字节内部主要是 Thrift 协议,所以在 Thrift 协议深耕已久,做了大量优化,Kitex 开源希望能帮助其他企业快速构建微服务,但使用 Kitex-gRPC 采用 Istio - Sidecar 解决方案存在上面说的问题,同时也希望使用 Thrift 协议的用户能基于 Istio 实现服务治理,所以针对多协议,Kitex 支持了基于 Istio 的 Proxyless 模式,然而相比 gRPC 接口特点直接接入 Istio 存在一些问题,本分享也会介绍实现中的问题以及如何解决。我们期望 Kitex Proxyless 可以满足一些对性能比较敏感的业务方诉求,也同时丰富服务网格在统一治理平面、异构数据面场景下的部署形态。 本次分享也会从 Kitex Proxyless 实现原理 到 基于 Kitex Proxyless 落地全链路泳道 来和大家一起深入探索一下这块的实践

10:00-10:20

使用容器工具构建和管理 WebAssembly 应用 下载PPT

Wasm 已崛起为一种安全、便携、轻量级且高性能的运行时沙箱,适用于云原生负载,如微服务和 serverless 函数。Docker Desktop 最近也集成了 WasmEdge,支持了 Wasm container。 今天,已有一大批经过实战检验的工具使开发人员能够在开发和生产环境中创建、管理和部署Linux容器应用。 开发者希望使用相同的工具来管理他们的Wasm应用程序,以减少学习曲线和操作风险。更重要的是,使用相同的工具将允许Wasm容器与Linux容器并行运行。 这使得在架构上具有灵活性,可以在Wasm容器中运行一些工作负载(例如轻量级、无状态、事务性、可扩展的),而在Linux容器中运行其他工作负载(例如长时间运行、重量级的)。 在这个演讲中,我将介绍如何使用 Docker Desktop 、Podman、containerd 和各种版本的 Kubernetes 来创建、发布、共享和部署真实世界的Wasm应用程序。这些示例将展示混合容器类型,以展示Wasm容器是如何与现有Linux容器应用程序并行工作的。

10:20-10:40

OpenKruise:全方位的提升云原生应用管理能力

云原生的应用负载从 Kubernetes 原生的 workloads(Deployment、StatefulSet)为人所熟知,但在另一方面,我们也看到从中小型的创业公司到大型互联网公司,越是大规模的应用场景下这些原生的 workloads 越是无法满足复杂的业务部署诉求。 因此,不少公司都自研了适用于自身场景的自定义 workload,但其中真正在通用化、全面性、稳定性等多方面做到成熟的开源组件,只有阿里云开源的、已经成为 CNCF Incubation 项目的 OpenKruise。 本次分享中,我们将从 Kubernetes 原生 workloads 开始介绍云原生应用负载的职责、实现基础,而后分析在超大规模业务场景下对应用负载的真实诉求,OpenKruise 是通过什么样的方式来满足这些需求,以及后续开源生态下的发展趋势。 1. 云原生应用部署的问题与挑战 2. OpenKruise 如何满足大规模业务场景下的部署诉求 3. 以阿里巴巴应用场景为例,介绍使用 OpenKruise 做应用管理的实践

10:40-11:00

当FinOps遇上云原生 - 腾讯如何基于Crane优化云成本 下载PPT

用户调研显示,越来越多的公司正在将他们的业务往Kubernetes上迁移。然而,云资源的装箱率和利用率却远低于预期,云支出存在明显的浪费。腾讯云遵循FinOps的“云财务管理”方法,实践了基于Kubernetes的资源优化和成本优化。我们将这些云优化经验总结并开源出来—Crane:Cloud Resource Analytics and Economics。我将分享腾讯如何基于Crane在大规模集群场景实现应用画像、成本监控以及混部的经验

11:00-11:20

云原生助力数据中心节能减排 下载PPT

绿色计算如今已经成为各行业追逐的对象.数字经济时代,“计算力就是生产力”已经成为行业的重要共识。但算力增长的背后,数据中心的耗电量也会增长。在碳达峰、碳中和的战略背景下,如何提高效率、降低能耗,是一个宏大的命题。 谈起“绿色计算”,外界普遍关注的是如何降低数据中心PUE,实际上它还包括如何合理使用计算资源。比如,在保证服务稳定的前提下,合理分配算力资源,提高资源利用率,降低服务器的用量,从而减少碳排放。 云原生技术通过对计算资源的高效使用,使得在能耗方面和传统云计算技术比较有着明显的的优势,逐步成为云服务的主流技术基础,为实现绿色计算提供了更先进的解决方案. 议题将从7个方面进行分享:运行时资源利用率比较、静态服务消耗比较、微服务框架比较、云管理平台效率比较、研发服务节能分析、云原生生态相关技术节能分析、其它非显性节能关键点比较。

11:20-11:40

Kubernetes 跨集群的流量管理实践 下载PPT

在今天的云原生应用环境中,许多公司使用多个 Kubernetes 集群来支持其应用程序已变得越来越普遍。 有效的流量管理对于确保现代云原生应用程序的可靠和高效运行至关重要。随着这些应用程序的日益复杂和需要支持高水平的用户流量,高效的流量管理比以往任何时候都更为重要。通过正确管理多个 Kubernetes 集群之间的流量,组织可以确保其应用程序顺畅运行,用户获得最佳的体验。 “多 Kubernetes 集群的流量管理”是现代云原生应用程序的重要主题,了解管理集群之间流量的最佳实践和工具可以帮助组织实现更好的性能和可靠性,从而提高应用程序的性能和可靠性。 本次分享从多集群的驱动因素出发,介绍如何实现应用的跨集群互通来实现应高可用性、灾难恢复和全局负载平衡。

11:40-12:00

服务网格中工作负载的私钥保护 下载PPT

HSM SDS Server 是一款开源软件,其开源地址为: https://github.com/istio-ecosystem/hsm-sds-server。该项目基于服务网格项目 Istio 并遵循 Envoy 的 SDS 扩展标准,然后通过"硬件安全模块"(HSM)实现了服务网格外部的SDS server的解决方案。在应用此项目后,用户可以通过外部 SDS 服务器在更安全的场景下维护 Istio/Envoy 管理的工作负载的credentials。除了支持管理工作负载新建的credentials外,它还允许用户上传现有工作负载凭据,并以更高的安全级别对其进行管理,比如用户证书的rotation等功能。该项目可用于云原生服务网格中工作负载和服务网格网关两种场景下,工作负载credentials信息的保存。 此项目使用英特尔® SGX 技术保护服务网格数据平面内用户工作负载的私钥。用户的私钥在 SGX enclave内存中被创建和存储,并通过SGX的key-handle授权应用程序访问在加密内存中保存的用户私钥。因此用户的私钥永远不会以明文形式存储在系统的任何地方,以此实现更高的安全等级。

13:30-13:50

一种基于云原生批量计算平台Volcano的工作流编排引擎JobFlow

工作流编排引擎广泛应用于高性能计算、AI、生物医药、图片处理、美颜、游戏AGI、科学计算等场景,帮助用户简洁化管理多个任务的并行与依赖关系,大幅度提升整体计算效率。 JobFlow是一种轻量化的任务流编排引擎,专注于云原生批量计算平台Volcano的作业编排,为Volcano提供多样化作业依赖类型,如:完成依赖,探针,作业失败率容忍依赖等;支持复杂的流程控制原语,如:串行或并行执行、if-then-else 语句、选择语句、循环执行等。在HPC、AI、大数据分析等领域,用户通过JobFlow 可以简洁的定义任务处理模板,减少人为等待过程,大幅度节约人力、时间成本。 JobFlow已在国内一知名研究所落地应用,通过任务流编排解决用户数据预热、回收、业务资源限制、过高io导致节点宕机等问题,在同等硬件环境下,提升任务计算效率。 这次分享中,汪洋和周铭橙将介绍: 1、Volcano在工作流编排场景下面临的主要挑战 2、JobFlow的设计思想与应用场景 3、JobFlow在生产环境中的应用实践与收益 生态效益: Volcano是业界首个云原生批量计算项目,2019年由华为云捐献给云原生计算基金会(CNCF),目前处于孵化阶段,参与贡献的企业包括华为、AWS、百度、腾讯、京东、小红书等。 JobFlow为Volcano社区孵化中的子项目,由博云主导并联合社区开发者共同贡献,相信本次分享可以给大家带来一种不同以往的Volcano作业编排方法,另外观众还可以了解到: 1、博云对于AI、大数据分析等任务编排的管理实践 2、JobFlow的设计背景,遇到的困难,解决方案等

13:50-14:10

字节跳动基于 Kubernetes 的大规模集群联邦技术实践 下载PPT

随着字节跳动内部各业务系统云原生化的演进,k8s 集群数量和规模极速增长,集群维护成本不断提高,同时数量众多,形态各异的集群也为用户选择集群部署带来认知负担。为解决上述问题,我们自研了大规模集群联邦系统 KubeAdmiral,为用户提供统一的服务部署入口,方便任务负载在多集群之间流转,为打造统一资源池,提高资源利用率奠定基础。

14:10-14:30

云原生边缘智能设备管理框架:KubeEdge DMI 下载PPT

边缘设备管理是边缘计算中的一个重要应用场景,面临诸多问题,如边缘设备生命周期管理、边缘设备映射云原生数字孪生模型、轻量级边缘框架、海量边缘设备采集的数据如何进行存储、分发、消费等等。 KubeEdge是基于Kubernetes构建的云原生边缘计算开源平台,已成为CNCF的孵化项目。KubeEdge支持复杂边云网络环境下的云边应用协同,并提供边缘设备管理框架(DMI),以云原生数字孪生模型的形式支持多种协议的边缘设备管理。 本议题介绍了KubeEdge的设备管理框架DMI。在DMI框架设计下,设备不再是单纯的数据源,而是被抽象为微服务,以云原生的方式为设备数据消费者提供数据服务。DMI框架下的设备数据访问支持多种场景,非常灵活。DMI框架可以为基于KubeEdge的边缘智能设备云原生化管理提供有力支持。 本议题为双人议题,与上海道客网络科技有限公司研发工程师、KubeEdge社区Member刘琛林共同分享。

14:30-14:50

基于CubeFS存储平台的机器学习最佳实践 下载PPT

为了满足企业日益增长的机器学习需求,OPPO打造了一站式机器学习平台。随着业务的快速增长,训练任务的多样性和激增对存储的可扩展性、成本和高性能提出了挑战。演讲嘉宾将分享他们如何使用云原生分布式文件系统CubeFS,构建50PB数据容量和百亿级小文件存储,实现机器学习平台在混合云中的统一存储,支撑AI业务的日常训练,服务200个团队,10000+日常训练任务。议题会重点介绍CubeFS在混合云架构下的百亿级小文件元数据管理、存储管理和缓存加速能力,数据生命周期灵活存储冷热数据的解决方案和实践经验。

14:50-15:10

从负载均衡到面向云原生的流量管理平台

议题将剖析负载均衡的现状和问题,探讨流量管理平台的需求和发展趋势。通过BFE开源项目解析应用负载均衡的高级特性,以及对Kubernetes的支持。还将介绍新一代的安全架构,讲解如何将安全功能整合至BFE。

15:10-15:30

携程基于Karmada的多集群HPA探索与实践 下载PPT

随着携程业务的快速发展,Kubernetes集群规模迅速扩大,承载在线业务和包括大数据、机器学习等场景的离线业务。为了提高资源利用率、增强平台可靠性和降低集群运维成本,携程基于Karmada打造了新一代多云多集群架构平台,并扩展了应用跨集群弹性伸缩的关键能力。本次分享主要涉及携程多集群架构,以及多集群应用弹性伸缩的探索和实践。

15:30-15:50

电信网络云原生的一些实践与思考

云原生时代,电信网元非业务功能下沉,用户关注点上移,最初的网络功能以虚拟化的形态出现(即VNF),本次演讲面向虚拟化网元在云化方面存在的网元封闭、形式上云化、资源利用率较低问题,聚焦网元云原生本身的网络功能实现,抽象CNF网络功能共性,充分考量云的灵活性以及弹性伸缩能力,给出云原生网元目标架构,并就此目标架构提出一种通用云原生网元框架(Framework of CNF),并结合开源产品给出实现方案并进行了可行性验证,实现方案能够打开网元黑盒,改变网元功能对外提供服务的形态,提供网元外部可观测性。

15:50-16:10

Clusterpedia —— 多集群场景下资源的聚合检索 下载PPT

当前多集群领域处于快速发展的阶段,已经有很多项目和工具可以在多个集群间分发部署资源,但是对于同时查看这些位于多个集群中的资源时,便有些束手无策了。这时,使用 Clusterpedia 便可以解决这样的问题,让用户可以同时查看多个集群的资源,并且支持复杂的检索条件(指定多个 namespaces, 指定 label ...), 分页排序等等操作,而且 Clusterpedia 同时兼容 Kubernetes OpenAPI 的 list/get 方法,在不使用 UI 的情况下,依然可以利用已有的工具 kubectl 来检索数据。对于多云生态中繁多的管理平台(例如 karmada,clusternet,cluster-api 或者自建的云管平台),Clusterpedia 提供了集群自动发现来兼容多云管理平台,减少对 clusterpedia 的额外运维管理。

16:10-16:30

FluidTable:云原生环境下的数据表抽象及其弹性缓存系统

数据密集型应用(深度学习、大数据查询等)在云原生平台上面临数据访问方面的多重挑战。为了解决上述问题,国际云原生计算基金会(CNCF)旗下的开源云原生弹性数据加速系统Fluid提出了云原生数据抽象、缓存弹性扩缩容、数据应用协同编排等技术。本报告将介绍Fluid开源系统最新推出的云原生数据表抽象及其缓存弹性扩缩容设计与性能分析评估。

16:30-17:10

kubeflow-chart: 一个IDE搞定MLOps

大纲: - kubeflow-chart 项目简介 - 基于JupyterLab的MLOps IDE - 工作流直接调度的分布式训练 - 企业如何快速应用 kubeflow-chart 受众:有MLOps、AI平台需求的开发者、企业。AI相关从业者。
©开源中国(OSChina.NET) 深圳市奥思网络科技有限公司版权所有 粤ICP备12009483号