傳動網 > 新聞頻道 > 行業資訊 > 資訊詳情

AI的終極形態:是萬能神諭,還是無數個“專用智能”?

時間:2025-10-23

來源:智能制造網

導語:當AI開始主動為我們點擊按鈕、調試代碼、甚至操作整個瀏覽器時,一場靜默的變革正在數字世界蔓延。這個十月,谷歌讓AI真正“看見”并操控電腦屏幕,豆包在編程領域化身不知疲倦的專家助手,Open AI試圖重塑我們上網的入口,而DeepSeek則選擇成為賦能行業的“鑄劍人”。從對話到執行,從工具到伙伴,AI正在重新定義與我們共處的方式——這場從“應答”到“行動”的轉變,正在重塑我們與技術的未來。

  曾幾何時,我們與AI的交流,仿佛隔著一灣湖水——它在水外,我們在水里,通過文字進行著一場場問答。但不知你是否察覺,那層界面正在悄然消失。AI不再只是對話框后的智慧大腦,它開始“伸出手”,為我們點擊按鈕、撰寫郵件、甚至調試代碼。在2025年10月的這個節點,從OpenAI、谷歌到DeepSeek、豆包,一系列新動向似乎都在共同訴說一個主題:那個只會聊天的AI,正努力成為我們數字生活中更具能動性的伙伴。

  智能體的“分身術”:向內深耕,向外拓界

  AI智能體的集體亮相,是本月最引人注目的趨勢。當我們仔細觀察,會發現不同的“玩家”選擇了截然不同的進化路徑,這恰恰反映了他們對未來AI形態的不同理解。

  大洋彼岸的另一端,谷歌Gemini展現了“通用操作者”的野心。10月8日凌晨,谷歌DeepMind重磅發布了基于Gemini 2.5的計算機使用模型Gemini 2.5 Computer,將AI智能體的戰場聚焦于瀏覽器交互這一核心場景。這款模型憑借視覺理解與推理能力支持13種瀏覽器操作,能夠實時“看到”用戶的電腦屏幕,并且能像人類一樣進行點擊、輸入、滾動等操作。無論是整理表格數據還是在線預定行程,用戶只需要發出語音指令,Gemini便能自主輕松應對。

  “這相當于給AI裝上了‘眼睛’和‘雙手’。”AI交互設計師陳曦在接受相關采訪時表示,“過去AI處理網頁任務需要提前定義規則,而Gemini 2.5能自主理解視覺元素的語義,比如區分‘提交’和‘重置’按鈕,這種泛化能力是關鍵突破。”

  這也將表明,谷歌此次發布的Gemini 2.5直接向Open AI的ChatGPT智能體和Anthropic的Claude計算機使用版本發起沖擊。

  當國外的AI志在成為“全能助理”時,國內的市場又在發生什么?答案在對于具體場景的深度挖掘。就在谷歌發布新功能的同期,字節跳動的豆包選擇了“垂直場景專家”的路徑。10月21日,字節跳動旗下豆包編程完成版本升級,正式引入Agent能力并同步推出創作與問答兩種交互模式,面向開發者提供自動化編程輔助服務。該能力不僅能理解復雜的代碼邏輯,還能自動規劃步驟,調用代碼解釋器、終端命令行等工具,一鍵完成代碼修復、運行和測試。在編程這個垂直領域,豆包正在努力成為一位不可或缺的專家助理。

  從通用的電腦操作到專業的編程輔助,AI智能體正根據不同的場景需求,分化出多元化的“人格”與能力。然而,能力的分化僅僅是開始,更深層次的競爭在于對這些能力載體的爭奪——即AI究竟應該存在于哪里?

  奔跑的方向:占據入口,還是鑄就基石?

  當AI成為“執行者”,競爭便不再局限于模型本身,而是上升到了對整個生態位的爭奪。這場爭奪戰在產業鏈的上下游同時打響,形成了“涇渭分明”的兩種商業模式。

  在“應用層”,我們目睹了一場“平臺夢”的上演。Open AI的ChatGPT Atlas是這一戰略的典范。它不再甘于只做一個網站或APP,而是直接發布了一款AI瀏覽器。10月22日消息,Open AI推出了一款AI驅動的網絡瀏覽器,這款名為ChatGPT Atlas的工具正式發布。根據Open AI的說法,ChatGPT正式開始在蘋果macOS平臺“全球”可用,而Windows、IOS和Android版本的訪問權限則“即將到來”。

  就在Open AI試圖“向上”包攬用戶入口的同時,另一股力量則選擇“向下”深耕,為整個行業提供基礎設施。在“工具層”,DeepSeek則扮演了“技術賦能者”的角色。近日,DeepSeek在GitHub上開源了其最新研究成果——DeepSeek-OCR模型。該款模型以其創新的“視覺記憶壓縮”技術,精準地命中了長文本、長視頻處理中的效率與成本痛點。其核心創新在于構建“視覺token”體系,通過多分辨率壓縮技術,將文檔信息轉化為不同精度的圖像編碼:簡單PPT僅需64個視覺token即可完整呈現,而復雜學術圖表則自動切換至400個token的精細模式。實驗數據顯示,在文檔理解任務中,該模型使用100個視覺token的表現已超越256個文本token的GOT-OCR 2.0,壓縮20倍時仍能保持60%準確率。這項技術革新不僅引發了海外開發者熱議,更被業界評價為“重新定義AI記憶機制”的重要嘗試。

  DeepSeek不像Open AI那樣直接面向消費者做產品,而是通過向開發者和企業提供這類強大的底層技術工具,來繁榮整個應用生態,如同為AI“淘金熱”提供了最鋒利的“鏟子”。

  這種在生態位上的分化,自然而然地引出了一個根本性的戰略抉擇:面對即將到來的智能體時代,什么樣的技術開放策略才能贏得未來?

  源代碼之外:開放的花園與封閉的城堡

  上述不同的生態位選擇,自然也決定了它們截然不同的開放策略,這構成了競爭的第三個維度,也是一場關乎AI技術將以何種方式普及的哲學辯論。

  DeepSeek堅定走在“開源”的道路上。其發布的OCR模型的代碼與權重均已開放,這不僅能迅速吸引全球開發者基于其技術進行創新,也旨在通過技術貢獻來確立行業的事實標準,從底層推動整個產業的進步。俗話說,眾人拾柴火焰高,這種策略的核心就在相信于此。通過構建繁榮的開發阿哲生態來間接確立影響力。

  與此形成鮮明對比的是,Open AI與谷歌則繼續其“閉源整合”策略。它們將先進的智能體能力牢牢封裝在自己的產品中。這種策略旨在構建從模型、產品到用戶的完整閉環,通過提供最佳體驗來保持其核心競爭力和商業護城河。它們賭的是,無縫集成的用戶體驗,將比開放的技術本身更具吸引力。

  2025年10月的AI“賽馬場”,已不再是單一維度的競速,而是清晰地勾勒出一幅立體競爭的圖景。在這里,我們看到了“通用智能”與“垂直深度”的路徑分化,目睹了“平臺入口”與底層工具的生態位爭奪,更見證了“開源共享”與“閉源整合”的戰略博弈。未來的勝負手,不再是單一的模型性能評分,而是“技術深度(如DeepSeek的創新算法)”、“生態廣度”(如Open AI的平臺野心)與“產業理解力”(如豆包的場景深耕)的三重較量。

  AI的進化,或許將告別對“宏大敘事”的迷戀,轉而投身于一場“細微的革命”。它的終極形態,不是唯一的解答,而是由無數個“專用”的智能,在具體細微的角落,完成它們各自的使命。當“執行”取代“對話”成為核心,我們與技術的關系,便從提問與解答,走向了無聲的共生與共同的進化。


AI
傳動網版權與免責聲明:

凡本網注明[來源:傳動網]的所有文字、圖片、音視和視頻文件,版權均為傳動網(www.mytsb.cn)獨家所有。如需轉載請與0755-82949061聯系。任何媒體、網站或個人轉載使用時須注明來源“傳動網”,違反者本網將追究其法律責任。

本網轉載并注明其他來源的稿件,均來自互聯網或業內投稿人士,版權屬于原版權人。轉載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。

如涉及作品內容、版權等問題,請在作品發表之日起一周內與本網聯系,否則視為放棄相關權利。

關注伺服與運動控制公眾號獲取更多資訊

關注直驅與傳動公眾號獲取更多資訊

關注中國傳動網公眾號獲取更多資訊

最新新聞
查看更多資訊

熱搜詞
  • 運動控制
  • 伺服系統
  • 機器視覺
  • 機械傳動
  • 編碼器
  • 直驅系統
  • 工業電源
  • 電力電子
  • 工業互聯
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機界面
  • PLC
  • 電氣聯接
  • 工業機器人
  • 低壓電器
  • 機柜
回頂部
點贊 0
取消 0