USDP 是优刻得推出的智能化、轻量级大数据基础服务平台,可帮助企业用户快速构建大数据分析处理和服务管理运维的能力。
在过去的半年,优刻得积极倾听并收集老客户的反馈和新客户的试用意见,这让我们更加理解用户应用需求和更好地支持客户业务。USDP 不断进行功能迭代,近日迎来了全新的 v3.2 版本。新版本提供更加丰富的管理功能、扩展了更为广泛的生态技术,通过全面便捷的工具和服务,帮助企业用户更高效地进行数据管理和分析,进一步提升平台体验和生产管理效率。
USDP v3.2 新增以下核心能力:
1)集群计算任务实时监控,提高整体计算效率
支持对 YARN 和 Impala 算力集群中运行的应用任务进行实时监控。用户可通过监控便捷地查看任务所属类型、资源池、执行用户、资源消耗、运行时长以及累计占用 CPU 和内存资源等信息。此外,还可以查阅集群任务的执行历史,为管理员提供了更全面的整个系统监控能力。实际上,任何需要对计算资源进行动态分配和管理的大数据环境中,算力集群任务监控均发挥着关键作用。例如在批处理作业性能优化、实时流处理资源管理等使用场景中,集群计算任务监控十分重要。
批处理作业场景中,企业运行了大量的批处理作业(数据清洗、转换和分析等),通过监控可以实时追踪每个作业的执行情况,包括资源利用、任务进度、任务执行时间等;可以发现哪些作业占用了大量资源、哪些作业运行较慢,进而进行针对性的优化资源分配,提高整体计算效率。比如通过调整任务的优先级、调度策略,可以更合理地利用计算资源,减少等待时间。
实时流处理场景下,用户基于 Flink 或 Spark Streaming 的应用,任务的资源需求可能会在短时间内快速波动。对于需要快速响应和实时计算的场景,任务监控可以实时了解每个流处理任务的资源占用情况,及时发现异常和瓶颈。当某个任务突然消耗了过多的内存,可能是由于数据倾斜或其他问题引起的,监控可以帮助迅速定位问题并采取相应的调整措施,以保证实时流处理系统的稳定性和性能。
2)升级集群日志服务,企业智能监控大数据环境
日志服务通过收集、存储和分析大量的日志数据,可对整个集群所有运行的大数据服务组件的日志进行查看。用户可以根据需要,按照主机名、服务组件、实例、日志等级、自定义时间区间、日志内容关键字或 LogSql 等方式,灵活检索集群的日志数据。日志服务能够提供丰富的信息和洞察,在故障问题排查诊断、性能监控优化、安全审计监控等场景中很有用,可以很好地帮助企业提高系统稳定性、优化性能,对安全性、降低成本等提供重要支撑。
在大数据管理平台持续维护中,通常需要通过日志服务排查定位服务组件的一些问题,包括服务日志错误与错误监控、服务异常分析、服务性能监控优化、用户行为分析等,集中式的查询分析日志,极大地加速了分析问题、定位问题、处理问题的效率。
在大数据服务过程中,可能会面临不同级别的警告和错误,例如资源不足、连接超时等问题,日志服务可以实时采集服务产生的警告和错误日志,进行分类和分级,帮助团队快速发现潜在问题并采取及时措施,保障服务的稳定性。服务也可能因为一些未知原因异常退出,并因此导致服务中断、数据处理异常。基于日志服务可以实时追踪服务的异常退出情况、记录退出的时间、原因以及可能造成的影响。通过分析这些异常退出日志,大数据运维团队可以快速识别问题并改进服务,提高系统的可靠性。
3)负载均衡管理工具,助力大数据平台高效运行
支持基于 Nginx + Keepalived 实现四层/七层代理负载均衡配置管理服务。该功能提供一致性哈希和源地址哈希等六种负载均衡算法,确保流量能够被有效地分散到多个服务器上;用户可以根据实际需求,按照端口自定义负载配置。大数据分析计算任务涉及大量的数据传输和计算资源消耗,通过负载均衡可以避免单一节点负载过重的情况,提升集群资源整体利用率、为整个集群性能提供保障;此外,负载均衡可以帮助实现大数据服务请求吞吐的灵活扩展,确保大数据服务具备高可用性和容错性。通过负载均衡器,用户可以集中处理对外的请求,提高安全性。
某客户的大数据应用采用了多层次服务架构,包括基于 HUE 服务的 Web 业务数据开发和基于 IMPALA 的数据查询分析服务。这些服务部署在集群中不同的服务器上,每种服务都有独特的资源需求。为了更好地管理和优化这些服务的性能,优刻得为用户推荐了负载均衡器的方案。
通过负载均衡器,业务数据开发用户的请求被分发到不同的 HUE 服务器上,使每个用户的 Session 得到保持,此外,这种方法还为每个用户提供了稳定的数据处理能力和带宽。对于 IMPALA 数据查询分析服务需求,负载均衡器确保了每个任务可以获得足够的计算资源,保证了查询分析的性能和效率。
4)技术生态再扩展
USDP 目前已支持 30+丰富的生态服务技术,全面覆盖数据分析需求场景。新版本升级扩展 3 大技术:
- Alluxio:统一的数据编排与数据缓存加速层
为数据分析和 AI 提供统一的数据访问接口,上层计算框架(如 Spark、Flink 等)只需要连接 Alluxio 即可读取和写入存储在底层任意存储系统中的数据;Alluxio 支持数据策略制定,以及数据缓存和预取,提供完整的数据呈现、加速数据访问;通过统一的命名空间,实现跨存储平台、跨数据中心等异构体系敏捷数据集成和编排能力
- StreamPark:一个简化流处理应用程序开发构建和管理框架。
StreamPark 是大数据管理平台扩展的新服务组件,为大数据技术生态提供了实时数据仓库和流批一体的一站式解决方案,简化了 Flink 任务的日常操作和维护。StreamPark 综合了实时数据平台和流式数仓平台的功能,支持低代码的 Flink&Spark 任务托管,融合了诸多最佳实践。此外,它还支持单点登录和不同身份验证系统的集成,提供了集中式的身份验证机制,增强了可定制性和灵活性。
- Knox:一个开源的安全应用程序网关
Knox 是大数据安全代理的开源项目,提供全面的安全和访问控制方案。作为安全代理,它保护集群资源,支持单点登录和身份验证集成,提高用户体验和系统管理效率;而在 API 网关层面,它提供 RESTful API 和协议转换功能,简化应用程序开发和维护;同时还支持 SSL 加密和数据传输安全,保护数据在传输过程中的机密性和完整性;Web 操作界面和管理控制台方便管理员配置和监控安全策略、用户权限和集群访问情况;支持审计、日志记录和多租户配置,满足不同安全需求和环境。
5)USDP 信创版,解锁国产大数据时代
USDP v3.2 专业版、企业版,UDH(优刻得大数据组件发行套件) v3.2 均已全面完成与国产芯片、操作系统的兼容适配,企业大数据生态服务可在各信创平台上良好运行,让数据流畅运转。截止当前,USDP 已取得包括鲲鹏、飞腾、海光在内的多家 CPU 厂商以及银河麒麟等 OS 厂商的互认证书。
这都标志着 USDP v3.2 已具备基于信创环境构建大规模大数据基础平台的能力,能够为客户提供更加稳定、可靠的大数据服务。共享信创机遇,促进合作共赢。
6)产品视觉升级,崭新 UI 控制台登场
在 USDP v3.2 版本中,为用户带来了全新的控制台视觉 UI 提升,并对用户体验和功能性进行了全方位优化。全新的 UI 控制台以清新、直观的设计风格为特色,每个元素都经过精心设计,为用户提供更便捷、更直观、功能更强大的大数据管理平台。
USDP 新版本的 UI 控制台更加注重易用性。新布局使得每个功能入口更为清晰,用户可以更迅速地找到所需的功能。交互设计方面,新版本优化了各类操作流程,简化了复杂任务的执行步骤,让用户能够更轻松地完成各项操作。
此外,控制台还新增了丰富的集群核心指标展示,用户可以直观地了解 YARN 集群的计算资源使用情况,包括集群 CPU 和内存等重要指标。用户还可实时监测 YARN 集群和 HDFS 集群的健康状况,了解存储使用情况以及 YARN 应用程序的运行统计等关键信息。这一切都集中在集群首页,让用户一目了然,从而更好地制定管理策略和进行性能优化。