原标题:新基建智“绘”未来 | 大模型破解公共视频“盲人摸象”难题
宁网编前语
随着宁波国家级互联网骨干直联点的开通,5G、5G-A的加速推广以及超算中心的加快建设,稳步推进的宁波网络基础设施,正不断优化营商环境,更好服务保障高质量发展。
6月3日起,中国宁波网推出“新基建智‘绘’未来”系列报道,从企业、市民的角度出发,寻找宁波网络基础设施赋能经济社会高质量发展的新故事。
中国宁波网记者 殷聪 王嘉彬
你能想象吗?在公共视频领域,也存在“盲人摸象”问题。由于摄像头的角度,单个摄像头看到的场景都有自己的局限性。
“我们要做的就是通过大模型,对多个场景跨摄像头的视频进行分析,将每个摄像头‘看’到的局部场景串联起来,反应出‘大象’的全部面貌。”6月25日,在演示“风华·苍鹭”视频场景理解大模型的过程中,宁波大学研究生院副院长钱江波透露出他的雄心壮志:要加快场景应用,早日兑现公共视频数据的价值。
钱江波正在和同学讨论大模型相关问题。
据钱江波介绍,随着数字媒体的普及,视频已成为市民生活中不可或缺的一部分,被用来记录、传输和展示。因此,对于视频的处理和理解变得越来越重要。虽然深度学习以及神经网络技术的发展,使得视频场景理解取得了一定的进展。但现阶段视频训练数据大多来源于网络视频,多局限于日常拍摄的小场景,数据量以及类型十分有限。针对不同监控场景,视频场景理解大模型缺位明显。
比如,某个摄像头拍到两个人正围着一辆电瓶车互相推搡,你的第一印象可能是一起普通的交通事故;而另一个摄像头拍到两人追逐,你的第一印象可能是打闹。但结合两个摄像头的视频,将信息串联起来就能判断出这可能是一起抢劫事件。
马路上常见的摄像头。
“单个公共视频的数据虽然有用,但将其由点及面,进行数据的分析,意义更大。”钱江波说,为破解公共视频“盲人摸象”的瓶颈,由郑纬民院士指导、宁波大学钱江波教授等多位老师共同参与研发的“风华·苍鹭”视频场景理解大模型,通过构建视频大数据库,可在多个场景实现跨摄像头的视频分析,解决了视频“盲人摸象”的问题。这也是全球首个基于昇腾AI的视频场景理解大模型。
与国外的视频场景理解大模型不同,国外公共视频数据大多以水平拍摄为主,而国内的公共视频数据以俯拍为主。“因此,建立拥有自主知识产权的视频场景理解大模型显得更为重要。”钱江波说,大模型的发布仅仅是个开始。未来,他们需要大量的视频资源,不断训练大模型,并对其进行持续的迭代与更新。
钱江波。
由于视频的数据量巨大,原本学校购买的计算能力已远远满足不了大模型迭代发展的要求。随着宁波人工智能超算中心的上线与扩容,成功补上了宁波城市级大型超算中心缺失的短板。拥有300P的智算算力以及5P超算算力的超算中心,自然成为了宁波大学大模型迭代升级的“最优解”。
“1P算力代表超算中心每秒可进行1000万亿次的浮点运算。”钱江波说,以智算为例,在图像处理领域,1P算力可提供每秒约10万张图片的处理能力,可同时为约500辆汽车提供道路实况分析。
钱江波给记者算了一笔账:同样的数据量,在超算中心内计算只需要花费100个小时,与此前相比提升了百余倍。与超算中心的合作,将加快大模型的迭代速度,不断优化和提升它的性能与稳定性。
“风华·苍鹭”,未来可期。