新闻中心

INFORMATION CENTER

栏目导航
【AI大会】2021世界人工智能大会SAIL奖TOP30榜单入选项目专题报道(一)

来源:发布日期:2021-06-17

字号:         

1.jpg

        2021世界人工智能大会将于7月8日—10日在上海举办。作为世界人工智能大会的最高荣誉,SAIL奖一直坚持“追求卓越、引领未来”的理念,秉持“高端化、国际化、专业化、市场化、智能化”原则,从全球范围发掘在人工智能领域中具有高度认可和美誉、并具有提升人类福祉意义的项目,激励全球范围内在技术上做出方向性突破、应用创新,正在或将要改变未来生活的人工智能项目。


        SAIL奖设置大奖,并形成年度榜单。即日起,我们将连续对2021年度SAIL奖TOP30榜单入选项目进行系列专题报道以飨读者。


        今日主题为AI芯片。

        以下项目以项目单位笔画为序


        云端7纳米GPGPU芯片产品BI

        上海天数智芯半导体有限公司

        上海天数智芯半导体有限公司(简称“天数智芯”)于2018年正式启动GPGPU芯片设计,是中国第一家GPGPU高端芯片及超级算力提供商。公司以“成为智能社会的赋能者”为使命,专注于云端服务器级的通用高性能计算芯片,瞄准以云计算、人工智能、数字化转型为代表的数据驱动技术市场,解决核心算力瓶颈问题。重点打造自主可控、国际一流的通用、标准、高性能云端计算GPGPU大芯片,从芯片端解决算力问题;并推出面向5G应用需求的云端推理芯片,与进口主流GPGPU生态兼容,并提供国产化选项,意在将超级计算发展为水电煤一样的基础设施,以更可信、更高效、更经济的方式帮助各行业实现算力升级。


        公司发布的云端7纳米芯片产品BI,实现了国产高性能GPGPU历史上“从0到1”的突破。它采用全自研核心知识产权、极先进的7纳米制程和2.5D CoWoS封装工艺,性能优异。没有图形渲染专有模块,具有更灵活的可编程性,突出通用计算功能,并对人工智能训练和推理进行了优化。BI芯片即将进入批量生产和商用交付,产品开发和商业应用进度领先国内同行1-2年时间。



2.jpg


        寒武纪思元290智能芯片及加速卡、玄思1000智能加速器

        上海寒武纪信息技术有限公司

        云端智能芯片具有卓越的性能和能效,可覆盖视觉处理、语音处理、自然语言处理、推荐系统、搜索引擎及传统机器学习等应用领域。寒武纪是目前国际上少数全面系统掌握了智能芯片及其基础系统软件研发和产品化核心技术的企业之一,能提供云边端一体、软硬件协同、训练推理融合、具备统一生态的系列化智能芯片产品和平台化基础系统软件。在本项目中,寒武纪研制出了速度快、耗能少的智能芯片,以满足智能处理对智能计算力和能耗的需求。

3.jpg


        寒武纪思元290智能芯片及加速卡、玄思1000智能加速器于2021年1月21日量产落地后首次正式亮相。思元290智能芯片是寒武纪的首颗训练芯片,采用台积电7nm先进制程工艺,集成460亿个晶体管,采用MLUv02扩展架构,全面支持AI训练、推理或混合型人工智能计算加速任务。芯片具备多项关键性技术创新,MLU-Link™多芯互联技术,提供高带宽多链接的互连解决方案;HBM2内存提供AI训练中所需的高内存带宽;vMLU帮助客户实现云端虚拟化及容器级的资源隔离及热迁移。相比于思元270芯片,思元290芯片实现峰值算力提升4倍、内存带宽提高12倍、芯片间通讯带宽提高19倍。新架构结合7nm制程,思元290可提供更优性能功耗比,以及多MLU系统的扩展能力。寒武纪MLU290-M5智能加速卡搭载思元290智能芯片,采用开放加速模块OAM设计,具备64个MLU Core,1.23TB/s内存带宽以及全新MLU-Link™多芯互联技术,在350W的最大散热功耗下提供AI算力高达1024 TOPS(INT4)。


        寒武纪玄思1000智能加速器,在2U机箱内集成4颗思元290智能芯片,高速本地闪存、Mellanox InfiniBand网络,对外提供高速MLU-Link™接口,打破智能芯片、服务器、POD与集群的传统数据中心横向扩展架构,实现AI算力在计算中心级纵向扩展,是AI算力的高集成度平台。寒武纪训练产品线采用自适应精度训练方案,面向互联网、金融、交通、能源、电力和制造等领域的复杂AI应用场景提供充裕算力,推动人工智能赋能产业升级。



        基于GPGPU软件定义的片内异构通用人工智能加速器—Goldwasser

        上海登临科技有限公司

        登临科技Goldwasser™是国内目前规模量产的GPGPU高性能通用人工智能加速器,成功填补了国内高性能GPGPU在商业、技术和产品方面的空白。Goldwasser采用了完全自主创新的架构实现(Minsky™ 软件定义的基于GPGPU的片内异构计算架构),解决了通用性和高效率的双重难题。Goldwasser的硬件可直接支持CUDA/OpenCL加速,且通过片上高带宽、低延迟内存子系统技术,结合任务级并行技术,实现了高性能和低功耗。对标国际主流云端推理卡,芯片实测有3倍能效和更准确的精度。Goldwasser已于2020年底在台积电12nm工艺上完成流片并已实现量产。基于在成熟的12nm/14nm工艺上实现的量产,Goldwasser具备强烈的自主可控性。


        登临创新的基于GPGPU的、软件定义的片内异构架构体系已在国内外申请了多个核心专利,部分已获得授权。可在通用性、兼容性(兼容现有软件生态)、能效等方面对比国际主流云端加速器的产品。它不仅打破了国内市场被国外产品垄断的局面,也使得登临科技的国际化成为可能。


亮点:

        a.采用了完全自主创新的架构实现(Minsky™ 软件定义的基于GPGPU的片内异构计算架构),解决了通用性和高效率的双重难题

        b.可实现高性能和低功耗,对标国际主流云端推理卡,有3倍效能提升

        c.硬件支持CUDA/OpenCl加速,无缝接入现有软件生态

        d.自主研发,已在成熟的12nm/14nm工艺上实现量产

        e.已在国内外申请了多个核心架构专利,部分已获得授权


4.jpg



        面向人工通用智能的类脑计算天机芯片

        清华大学

        本项目将计算机科学导向的机器学习和脑科学导向的神经形态计算进行跨范式异构融合的类脑计算学术思想,研制了对应架构的天机芯片支撑人工通用智能发展,并演示基于天机芯的无人驾驶智能自行车平台。天机芯及平台相关成果以封面论文发表于《自然》,入选2019年两院院士评选中国十大科技进展、中国科学十大进展和15项世界互联网领先科技成果,并孵化了北京灵汐科技有限公司推动类脑计算技术的产业转化,目前已实现芯片量产。


        类脑计算通过借鉴脑科学原理发展人工通用智能,是国际半导体协会认定的后摩尔时代两个新技术之一(另一是量子计算),是“脑科学和类脑研究”(中国脑计划)主要研究内容,而缺乏系统性理论框架、高效计算芯片及平台是其主要挑战。为此,本项目将计算机科学导向的机器学习和脑科学导向的神经形态计算进行跨范式异构融合的类脑计算学术思想,实现两者的优势互补以支撑人工通用智能的发展。进一步,研制了对应架构的天机芯片,工作时内部数据访问带宽高达600GB/s;提出了与环境交互迭代发展类脑计算的思路,基于天机芯构建了无人驾驶智能自行车平台,演示了实时低功耗地完成视听觉探测识别、目标追踪、避障、平衡控制、自主决策等功能。天机芯及平台相关成果以封面论文形式发表于《自然》杂志,实现中国在人工智能和芯片领域在该杂志论文突破,被《自然》总编辑Magdalena Skipper评价为人工智能领域的重要里程碑,入选2019年两院院士评选中国十大科技进展、中国科学十大进展和15项世界互联网领先科技成果。本项目孵化了国家高新技术企业—北京灵汐科技有限公司推动该领域产业转化,已完成12nm量产流片工作,并开发了对应的系统平台和软件工具链,整体计算能效比领先同类芯片。


5.jpg

6.jpg


        高性能数据流AI芯片CAISA

        深圳鲲云信息科技有限公司

        高性能数据流AI芯片CAISA是鲲云科技基于在人工智能定制数据流领域三十余年的技术积累,自主研发的专为人工智能图像提供高性能计算加速的AI芯片产品,率先在全球实现数据流AI技术的量产和商用化规模落地。CAISA基于自主研发的定制数据流架构,不同于传统的冯诺依曼的指令集架构,通过控制数据的流动次序来管理计算执行次序,大大提升了芯片的利用效率,在实测算力上实现了技术突破,最高可实现95.4%的芯片利用率,较同类产品提升11.6倍。同时,CAISA依托简单易用的RainBuilder编译工具链实现对主流框架和算法的通用支持,为客户提供最优算力性价比。CAISA芯片作为数据流AI芯片,通过底层架构创新实现了实测算力突破,为AI芯片研发和AI产业的发展探索了一条新的道路。


        CAISA芯片基于自主研发的定制数据流架构,为AI计算平台提出了一种新的架构实现方式——不同于传统计算平台依托的指令集架构,该架构不存在指令依赖,解决了冯诺依曼体系面临的指令墙问题。CAISA架构依托数据流的流动次序控制计算执行次序,数据计算与数据流动的重叠,压缩计算资源的每一个空闲时钟;通过算力资源的动态平衡,消除流水线的性能瓶颈;通过数据流的时空映射,最大化复用芯片内的数据流带宽,减少对外部存储带宽的需求,通过这些技术创新,实现了芯片利用效率的大幅提升。基于数据流技术,CNN算法的计算数据在CAISA芯片架构内实现不间断的持续运算,最高可实现95.4%的芯片利用率,在同等峰值算力条件下,可获得同类GPU产品三倍以上的实测算力,为用户提供更高的算力性价比。


        基于自主研发的定制数据流架构,CAISA在芯片利用率上实现了技术突破,打破了算力提升对芯片制程工艺的高度依赖,为行业客户提供了更具算力性价比的芯片产品选择。目前,鲲云科技已经发布基于CAISA的多款数据流AI计算平台,包括星空加速卡X3、星空边缘小站X6A及星空加速卡X9,满足边缘和高性能场景中的AI计算加速需求,应用于智慧安监、智慧油田、智能制造、智慧电网等领域,大幅降低客户的AI应用落地成本。


        作为全球首款可商用数据流AI芯片,CAISA已与飞腾、麒麟操作系统、浪潮等信创服务商完成产品兼容,在算力性价比、芯片利用率、实测性能和处理延时等指标实现了业界领先,为底层的AI算力支撑提供了新的选择,填补了国内数据流AI推断芯片领域的技术空白,并获得高交会优秀产品奖、世界计算机大会创新技术和产品应用、全球人工智能产品应用博览会产品金奖等荣誉。

8.jpg