披露:此處表達的觀點和觀點僅屬于作者,不代表crypto.news社論的觀點和觀點。
人工智能可能是下一個價值萬億美元的產業,但它正在悄然接近一個巨大的瓶頸。當每個人都在競相構建更大、更強大的模型時,一個迫在眉睫的問題基本上沒有得到解決:我們可能會在短短幾年內耗盡可用的訓練數據。
總結- 人工智能即將耗盡燃料:訓練數據集每年增長3.7倍,我們可能會在2026年至2032年間耗盡全球優質公共數據的供應。
- 標簽市場正在從37億美元(2024年)爆炸式增長到171億美元(2030年),而在圍墻花園和法規的背后,對現實世界人類數據的訪問正在萎縮。
- 合成數據還不夠:反饋循環和缺乏現實世界的細微差別使其成為混亂的人類生成輸入的危險替代品。
- 權力正在轉移到數據持有者手中:隨著模型商品化,真正的差異將是誰擁有和控制獨特、高質量的數據集。
根據EPOCH AI的數據,自2010年以來,大型語言模型的訓練數據集規模一直以每年約3.7倍的速度增長。按照這個速度,我們可能會在2026年至2032年間耗盡全球高質量公共培訓數據的供應。
甚至在我們到達那堵墻之前,獲取和管理標簽數據的成本就已經飆升。2024年,數據收集和標簽市場的價值為37.7億美元,預計到2030年將飆升至171.0億美元。
這種爆炸式增長既意味著一個明顯的機會,也意味著一個明顯的瓶頸。人工智能模型的好壞取決于它們所訓練的數據。如果沒有新鮮、多樣化和公正的數據集的可擴展管道,這些模型的性能將趨于平穩,其有用性將開始下降。
因此,真正的問題不在于誰構建下一個偉大的人工智能模型。問題在于誰擁有數據以及數據來自哪里?
人工智能的數據問題比看起來更大
在過去的十年里,人工智能創新嚴重依賴于公開可用的數據集:維基百科、Common Crawl、Reddit、開源代碼存儲庫等。但那口井正在迅速干涸。隨著公司收緊數據訪問權限和版權問題堆積,人工智能公司被迫重新考慮他們的做法。各國政府還在出臺法規來限制數據抓取,公眾情緒正在轉向反對在無償用戶生成的內容上訓練價值數十億美元的模型的想法。
合成數據是一種擬議的解決方案,但它是一種危險的替代方案。根據模型生成的數據訓練的模型可能會導致反饋循環、幻覺和隨著時間的推移性能下降。還有質量問題:合成數據通常缺乏現實世界輸入的混亂和細微差別,而這正是人工智能系統在實際場景中表現良好所需的。
這使得現實世界的人類生成的數據成為黃金標準,而且越來越難獲得。大多數收集人類數據的大型平臺,如Meta、Google和X(前身為Twitter),都是圍墻花園。訪問受到限制、貨幣化或完全禁止。更糟糕的是,他們的數據集經常偏向特定地區、語言和人口統計,導致有偏見的模型在不同的現實世界用例中失敗。
簡而言之,人工智能行業即將與長期被忽視的現實發生沖突:建立大規模的法學碩士只是戰斗的一半。喂養它的是另一半。
為什么這實際上很重要
人工智能價值鏈有兩個部分:模型創建和數據獲取。在過去的五年里,幾乎所有的資本和炒作都投入到了模型創建中。但隨著我們突破模型大小的極限,注意力終于轉移到等式的另一半上。
如果模型變得商品化,采用開源替代方案、更小的版本和硬件高效的設計,那么真正的差異化因素就是數據。獨特、高質量的數據集將成為定義哪些模型表現出色的燃料。
它們還引入了新的價值創造形式。數據貢獻者成為利益相關者。建筑商可以訪問更新鮮、更動態的數據。企業可以訓練更符合目標受眾的模型。
人工智能的未來屬于數據提供商
我們正在進入人工智能的新時代,誰控制數據,誰就掌握真正的權力。隨著訓練更好、更智能模型的競爭愈演愈烈,最大的限制將不是計算。它將采購真實、有用且使用合法的數據。
現在的問題不在于人工智能是否會擴大規模,而在于誰將推動這一規模。不僅僅是數據科學家。它將是數據管理者、聚合者、貢獻者以及將它們聚集在一起的平臺。這就是下一個前沿所在。
因此,下次當您聽到人工智能的新前沿時,不要問誰構建了這個模型。詢問是誰訓練的,數據來自哪里。因為歸根結底,人工智能的未來不僅僅是架構。這是關于輸入的。
馬克斯·李馬克斯·李是去中心化人工智能數據云OORT的創始人兼首席執行官。李博士是一位教授、一位經驗豐富的工程師和一位擁有200多項專利的發明家。他的背景包括與高通研究院合作研究4G LTE和5G系統,以及對信息理論、機器學習和區塊鏈技術的學術貢獻。他寫了一本書,題為《網絡物理系統的強化學習”,由泰勒和弗朗西斯CRC出版社出版。