英伟达Tesla P100加速计算平台五大技术突破

出处：互联网发布于：2016-04-08 14:32:19

Tesla P100 是NVIDIA Tesla 加速计算平台的产品，能为全新级别的服务器提供支持，实现相当于数百个 CPU 服务器节点的性能。尽管当前数据中心融合了巨大的网络基础设施与众多相互连接的商用 CPU 服务器，可用于处理网络服务等大量交易型工作负载。但面对下一代人工智能和科学应用程序，这些数据中心的效率变得捉襟见肘。因为这些新型应用需要效率超高、速度极快的服务器节点。

    借助采用五项突破性技术的全新 NVIDIA Pascal GPU 架构，Tesla P100 能发挥无与伦比的性能和效率来运行对计算能力要求的应用程序。
    NVIDIA 联合创始人兼执行官黄仁勋表示：“我们的科学挑战 — 治疗癌症、认识气候变化和打造智能机器 — 它们需要近乎无限的计算性能。借助各个层面的创新，我们从零开始设计了 Pascal GPU 架构。它是计算性能和效率的巨大进步，将帮助人才推动明天的进步。”
    认知解决方案和 IBM 研究部副总裁 John Kelly III 博士表示：“我们正进入全新的计算时代，要充分实现人工智能和认知的好处，我们需要采用全新的方法来探索底层技术。NVIDIA GPU 和 OpenPOWER 技术的结合正在加速 Watson 对新技能的学习。包含 NVLink 支持的 IBM Power 架构和 NVIDIA Pascal 架构将共同进一步加速认知工作负载的性能并推动人工智能行业。”
    基于五项突破，Tesla P100 实现了
    前所未有的性能、可扩展性和编程效率：
    NVIDIA Pascal 架构实现了巨大的性能飞跃 – 相比前代 NVIDIA Maxwell 解决方案，基于 Pascal 的 Tesla P100 解决方案在神经网络训练方面将性能提升 12 倍。
    NVIDIA NVLink 实现了水平的应用程序扩展性 – NVIDIA NVLink 高速 GPU 互联技术在多颗 GPU 上扩展了应用程序，相比当前同级解决方案，带宽实现 5 倍加速。借助 NVLink，可以连接八颗 Tesla P100 GPU，在同一个节点上将应用程序的性能化，IBM 在自有 POWER8 CPU 上实施了 NVLink 技术来加速 CPU 到 GPU 通讯。
    16nm FinFET 实现了前所未有的能效 – Pascal GPU 拥有 153 亿个采用 16 纳米 FinFET 制造技术的晶体管，是世界上迄今为止的 FinFET 芯片。2 打造它的目的是为计算需求近乎无限的工作负载提供快的性能和的能效。
    CoWoS 和 HBM2，适用于大数据工作负载 – Pascal 架构将处理器和数据封装到一起，实现了前所未有的计算效率。包含 HBM2 的芯片-晶圆-基底（CoWoS）是内存设计的创新方法，相比 Maxwell 架构提供了 3 倍的显存带宽，高达 720GB/s。
    全新人工智能算法，实现了峰值性能–全新的半指令为深度学习提供了超过 21 Teraflops 的峰值性能。

    Tesla P100 GPU 加速器为AMBER 分子动力学程序代码等一系列 HPC 和深度学习应用程序提供了全新水平的性能。相比 48 个配备双路 CPU的服务器节点，该代码在配备 Tesla P100 GPU 的单服务器节点上运行速度更快。训练大受欢迎的 AlexNet 深度神经网络需要 250 个双路 CPU 服务器节点才能抵得上八个 Tesla P100 GPU 的性能。相比 27 个双路 CPU 服务器，广泛使用的天气预报程序 COSMO 在八个 Tesla P100 GPU 上运行速度更快。
    Tesla P100 是双性能和单性能分别超过 5 Teraflop 和 10 Teraflop 的加速器，在众多领域的处理性能和研究发现时间方面实现了巨大飞跃。
    NVIDIA 还发布了针对强劲的 GPU 计算开发平台–NVIDIA SDK的一系列更新：
    这些更新包括NVIDIA CUDA 8。NVIDIA 并行计算平台的版本可以让开发者直接使用 Pascal 一系列强大的全新特性，包括统一内存和 NVLink。该版本还包括全新的图表分析库 nvGRAPH，后者可用于机器人路径规划、网络安全和物流分析，将 GPU 加速的应用扩展到大数据分析领域。
    NVIDIA 还发布了 cuDNN version 5，一个 GPU 加速的深度神经网络基元库。cuDNN 5 可提供Pascal GPU 支持、循环神经网络（用于视频和其他串行数据）和用于医疗、油气和其他行业的额外增强特性。cuDNN 加速的深度学习框架，包括 Google 的 TensorFlow、加州大学伯克利分校的 Caffe、蒙特利尔大学的 Theano 和纽约大学的 Torch。这些又驱动 Amazon、Facebook 和 Google 等所用的深度学习解决方案的运行。

上一篇：城市公共自行车租赁无线智能管理系统方案介绍

下一篇：13个必知的ARM知识点