界面新闻记者 |
界面新闻编辑 | 文姝琪
“从长远的角度来看,人类社会发展每次巨大跃迁都是由技术创新带来的 。工业时代的全球GDP年均增速约为1%-2% ,信息时代增速为3%-4%,人工智能时代,这个数字会是多少?”
11月22日 ,IDEA研究院创院理事长 、美国国家工程院外籍院士沈向洋在2024 IDEA大会上表达了上述观点。他强调,随着AI的各项能力逼近、甚至超越人类,AI治理已成亟待全球共同面对的议题。
当天,粤港澳大湾区数字经济研究院(下称IDEA研究院)发布DINO-X目标检测视觉大模型 ,该模型作为GroundingDINO系列升级之作,在多项能力上得到提升 。
在检测能力上,无需用户提示即可检测万物 ,无论是常见物体还是罕见的长尾物体(出现频率低但种类繁多的物体)都能精准识别并给出类别。
得益于超1亿高质量样本的大规模数据集多样化训练,DINO-X对未知场景和新物体适应性强,泛化能力出色 ,在实际应用场景中更具灵活性。
在探讨AI发展脉络时,沈向洋提及算力、算法与数据层面变化。算力上,摩尔定律指出每18个月算力需求增长一倍 ,而当下大模型对算力需求每年增长四倍以上,过去十年英伟达市值大幅攀升300倍与算力需求剧增紧密相关,十年间算力需求增长约100万倍 。
算法层面 ,2017年Transformer架构面世后,AI 、深度学习、大模型多沿此路线发展,OpenAI的O1系列带来算法突破思路,改变过往单纯预训练预测“下一个token ”模式 ,融入类似人思考、推理的后训练、后推理过程。
数据方面,“缺数据”已经成为大模型行业内的共识之一。随着GPT系列发展,数据需求激增 。沈向洋透露 ,距离GPT3面世已经过去三年,当时OpenAI用了2T数据,1万亿Token。GPT4用了12T数据 ,训练用了20T数据,“事实上,互联网上洗干净的数据大概是20万亿。”
沈向洋认为 ,GPT5预计需200T数据规模,合成数据可以给大模型提供更为丰富的训练材料,还有望催生未来百亿美金级别的创业机遇 。
“互联网上已经找不到那么多的数据 ,未来需要更多高质量的合成数据训练未来的模型。 ”他举例称,1万亿的数据约等于500万本书,20万张高清照片,抑或500万篇论文。人类历史上的书籍大概是21亿Tokens ,微博有38亿Tokens,Facebook大概拥有140TTokens的数据 。
当下互联网数据存量告急,社交媒体数据质量欠佳 ,合成数据受重视,且私域数据利用存在安全孤岛问题。对此,IDEA研究院通过IDEADataMaker用加密方式利用私域数据生成新语料 、语境图谱。
对话月之暗面杨植麟:Kimi推理模型对标OpenAI o1, 预训练还有提升空间|界面新闻 · 科技
盘前机会前瞻|国内首个算力场景验证平台正式开放,这几家公司在AI算力和智算中心建设方面国内领先值得关注(附概念股)|界面新闻 · 证券
商业头条No.49 | 大模型抵达“分水岭”|界面新闻 · 科技
关于AI基建及产业大模型,吴泳铭、周鸿祎等在乌镇给出了这些看法|界面新闻 · 科技
盘前机会前瞻|谷歌大模型Gemini正式登陆苹果商店,AI应用进入业绩兑现期,这几家公司AI技术已在财税、文档等细分领域实现落地(附概念股)|界面新闻 · 证券
盛美上海超380亿元市值限售股解禁,流通盘大增超四倍|界面新闻 · 证券
中国平安开展“支持乡村振兴”调研活动,发布“中国平安2025-2027年服务贵州乡村振兴计划”,提供农业产业风险保障超1200亿元|界面新闻