增强 AI 性能的测试解决方案

我们提供最广泛的解决方案来测试人工智能基础设施

为人工智能开发和部署提供端到端支持

二十多年来,Teledyne LeCroy 在数据中心人工智能技术的可靠运行中发挥着关键作用。我们的测试解决方案用于整个生态系统,包括高性能计算和分析、允许高效移动和访问数据的网络以及作为云中冷热存储支柱的存储设备。我们通过为超大规模环境中使用的 PCI Express、CXL、NVMe、千兆以太网和 SAS 等技术提供领先的解决方案来实现这一点,这些技术面向设计和测试工程师(从早期采用者到系统集成商)。

    人工智能 - 互连

    计算

    人工智能应用需要数据中心的高性能计算来以高吞吐量和低延迟分析大量数据,这推动了现代计算机和以数据为中心的架构的发展。
    人工智能 - 网络

    网络

    在机架、数据中心和校园内移动大量数据加速了对更快、更高效的网络技术的追求。
    人工智能 - 存储

    对存储容量的不断增长的需求以及从任何地方访问数据的追求推动了云和混合存储解决方案以及存储接口技术的发展。

    计算 - 互连、处理、数据流和内存管理

    AI 变革力量的核心是使这一切成为可能的计算和处理要求。AI 工作负载推动数据中心高性能计算 (HPC) 的转型,每秒提供数万亿次计算,以惊人的速度和准确性实现图像识别、自然语言理解和趋势预测。并行处理系统使 AI 能够高效地执行多任务,反映出人脑的复杂性。

    代表 PCIe/CXL 的 AI 大脑的彩色图像
    管理记忆和人工智能的头部彩色图像

    Teledyne LeCroy Summit 分析器、训练器、干扰器、插入器和测试系统有助于构建和优化使用 PCIe 来支持 AI 的最快和最新系统。这些设备和计算系统使用高速接口将 AI 加速器(例如 GPU 和定制硅片)连接到中央处理器 (CPU)。它的不断发展确保 AI 系统始终处于技术前沿,随时准备应对未来数据驱动世界的挑战。

    • 可扩展性:PCIe 每一代的带宽都会翻倍,以满足 AI 应用日益增长的需求。最新的 PCIe 6.0 规范提供了每针 64 GT/s 的数据传输速率,确保 AI 系统能够处理日益复杂的任务。
    • 多功能:PCIe 的用途非常广泛,从用于深度学习系统的大型芯片到较小的空间加速器,后者可以扩展以处理需要数百 petaFLOPS 处理能力的广泛神经网络。
    • 节能:较新的 PCIe 版本引入了低功耗状态,有助于提高 AI 系统的能效。这对于可持续且经济高效的 AI 运营至关重要。
    • 互联性:PCIe 促进了 AI 基础设施内计算、加速器、网络和存储设备的互连,从而实现了具有更低功耗和最大覆盖范围的高效数据中心解决方案。

    CXL 在塑造 AI 格局方面具有重要前景,而 Teledyne LeCroy 解决方案是测试和优化当今 CXL 系统的唯一方法。使用支持 CXL 测试和合规性的 Teledyne LeCroy 解决方案,可以实现内存效率、延迟减少和性能 - 所有这些都对于保持低延迟和高吞吐量至关重要。这对于需要快速访问大型数据集的带宽密集型 AI 工作负载尤其重要。

    • 内存容量扩展:CXL 允许将大型内存池连接到多个处理器或加速器。这对于处理海量数据集的 AI/HPC 应用程序至关重要。
    • 减少延迟:CXL 的低延迟设计可确保数据在计算元素之间快速传输。AI/ML 工作负载受益于最小化的等待时间。
    • 互操作性:CXL 促进与供应商无关的兼容性,允许不同的加速器和内存模块无缝协作。
    • 增强内存带宽:CXL 显著提高了内存带宽,确保数据密集型工作负载能够无瓶颈地访问数据。

    网络 - 高速以太网、数据吞吐量、结构和网络

    最近的大型语言模型(如 GPT-$)需要数亿甚至更多的参数,这些参数通过可扩展网络从不同的来源提供。为此,高速网络和网络技术必须支持针对这些新工作负载优化的低延迟和高效信息传输。

    有线连接 AI 基础设施
    用于 AI 后端测试的程式化全球网络

    千兆以太网以 1 Gbps(千兆位每秒)的速度运行,可提供快速的数据传输速率。这种速度对于处理 AI 工作负载中的大型数据集至关重要。太比特以太网以 1 Tbps(太比特每秒)的速度运行,可实现海量数据集的无缝交换。它支持物联网 (IoT)、人工智能 (AI) 和大数据分析等新兴技术。

    标题页图像 - 如何测试针对人工智能优化的数据中心交换机 - 白皮书 如何测试针对人工智能优化的数据中心交换机 - 白皮书
    • 实时响应:低延迟对于 AI 系统至关重要。千兆以太网可最大程度地减少延迟,确保 GPU、CPU 和存储设备等组件之间的及时交互。
    • 实时决策:太比特以太网可实现实时人工智能驱动的决策。其高带宽可确保人工智能节点之间的高效通信。
    • 无损网络:传统以太网在拥塞时可能会丢包,影响 AI 模型的准确性。然而,新兴技术承诺“无损”传输,即使在重负载下也能确保数据完整性
    • 可扩展性:随着 AI 模型变得越来越复杂,可扩展的基础设施变得至关重要。千兆以太网通过连接其他服务器和设备实现无缝扩展。太比特以太网可适应其指数级增长,确保高效的连接和数据交换

    Teldyne LeCroy XENA 产品使公司能够优化和适应未来发展,使其 AI 后端网络结构能够处理大量时间关键型流量。用于 AI 工作负载的数据中心架构通常采用脊叶结构,通过低延迟 L2/L3 网络基础设施连接数千个 AI 加速器和存储解决方案,端口速度为 400 至 800 Gbps。融合以太网上的 RDMA (RoCE) 是存储数据传输协议的一个有前途的选择。

    标题页图像 - 如何测试针对人工智能优化的数据中心交换机 - 白皮书 如何测试针对人工智能优化的数据中心交换机 - 白皮书
    • 数据中心桥接 (DCB):促进 RDMA 数据包(无损流量)以及常规尽力流量(有损流量)的高吞吐量、低延迟和零数据包丢失传输。
    • 优先流量控制 (PFC):当缓冲区填满超过某个阈值时,通过提示发送方暂时暂停发送数据包来防止数据包丢失。
    • 拥塞通知(CN):RoCEv1 和 RoCEv2 在网络设备之间实现了一种信令,可用于减少无损网络中的拥塞蔓延、降低延迟和提高突发容忍度。
    • 增强流量选择 (ETS):能够为每种服务类别 (CoS) 分配最低保证带宽。

    存储 - SSD、数据中心、数据管理

    AI 存储解决方案必须快速适应 AI/ML 工作负载的扩展要求。应支持存储容量和性能的可扩展性,而不会中断正在进行的操作,并防止过度配置和利用不足。同时支持结构化和非结构化数据。存储基础设施的核心是 NVMe、SAS、CXL 等技术,它们与固态硬盘、旋转介质和高带宽内存元件一起使用。

    AI 和 Oakgate SSD 设备测试
    管理记忆和人工智能的头部彩色图像
    AI 头部和 SAS 盒的彩色图像

    人工智能和机器学习 (ML) 的出现只会增强对全面固态存储设备 (SSD) 测试的迫切需求。由于人工智能工作负载的计算要求很高,预计人工智能将增加数据中心对 SSD 的需求。人工智能应用程序会生成和处理大量数据,因此需要具有高速数据访问和处理能力的存储解决方案。

    • 更快的数据访问和处理速度:对于处理 AI 任务中使用的大型数据集和复杂算法至关重要。AI 应用程序通常涉及频繁的读写操作,这使得 SSD 的性能和耐用性比传统 HDD 更合适。这种需求可能会推动 SSD 技术和其他高性能存储解决方案的创新。
    • 专业化和多样化的工作量:可能会有专门针对 AI 应用需求的存储解决方案的需求。这可能包括针对深度学习算法、实时分析或大规模数据处理优化的存储系统。
    • 优化存储系统:提高效率、可靠性和性能。这涉及使用机器学习算法来预测存储使用模式、自动化数据分层或改进数据压缩技术。

    Teledyne LeCroy OakGate 解决方案为新兴的 CXL(Compute Express Link)内存设备提供测试功能,这些设备有望彻底改变数据中心,尤其是对于 AI 和机器学习工作负载。使用 CXL 的 AI 平台需要 CPU 和 GPU、FPGA 和 TPU 等加速器之间进行高速、一致的内存访问,CXL 内存设备将显著提高数据传输速度、减少延迟并提高整体系统性能。

    • 功能和性能验证测试:确保新的 CXL 设备投放市场时符合标准。
    • 质量和合规性测试:这意味着 AI 模型的训练和推理时间更快,最终使数据中心的机器学习操作更加高效、强大。
    • 训练和推理时间:在数据中心测试人工智能系统以实现更高效、更强大的机器学习操作,并增加不同处理单元之间的一致内存访问,从而促进更复杂、更精密的人工智能算法和工作流程。

    测试串行连接 SCSI (SAS) 对于支持 AI 应用程序至关重要,尤其是在数据存储和检索方面。通过确保 SAS 系统经过全面测试并符合要求,AI 应用程序可以从可靠、高速且可扩展的数据存储解决方案中受益,这对于有效的 AI 操作至关重要。

    • 高速数据传输:SAS 提供高速数据传输率,这对于需要快速访问大型数据集的 AI 应用至关重要。这确保了 AI 模型能够得到高效训练和部署。
    • 可靠性和冗余:SAS 系统以其可靠性和冗余功能而闻名。这对于 AI 来说很重要,因为它可以确保数据始终可用并防止发生故障。
    • 可扩展性:SAS 支持可扩展存储解决方案,允许 AI 系统扩展并处理不断增加的数据量,而不会影响性能。
    • 兼容性:SAS 兼容各种存储设备和接口,使其能够灵活适用于不同的 AI 应用和环境。
    • 一致性测试:SAS 合规性测试可确保硬件符合性能和可靠性的行业标准。这对于维护依赖这些存储解决方案的 AI 系统的完整性至关重要

    需要帮助或信息?

    我们随时为您提供帮助并回答您可能遇到的任何问题。我们期待您的回音