近期,Google 的 Gemini 人工智能系統在一項關鍵技術上取得了顯著進展:它能夠同時處理多個視覺流,包括實時視頻和靜態圖像。這一成就並非通過 Google 的主流平台公布,而是源自一款名為 “AnyChat” 的實驗性應用。
Gemini 的這一能力得益於其先進的神經網絡架構,使得 AnyChat 能夠充分利用該架構,在不犧牲性能的前提下處理多個視覺輸入。儘管 Gemini 的 API 已具備這種功能,但 Google 的官方應用尚未向終端用戶開放此特性。
相比之下,許多其他 AI 平台,包括 ChatGPT,在處理單個視覺流時就會遇到資源限制。例如,當 ChatGPT 處理視頻流時,無法同時上傳並處理圖像。而 Gemini 通過 AnyChat 展現出的多流處理能力,打破了這一限制。
AnyChat 通過獲得 Gemini API 的特殊權限,實現了這一突破。這些權限使 AnyChat 能夠訪問 Google 官方平台尚未提供的功能。利用這些權限,AnyChat 優化了 Gemini 的注意力機制,使其能夠同時跟踪和分析多個視覺輸入,同時保持對話的連貫性。
AnyChat 的成功並非偶然,其開發者與 Gemini 的技術架構緊密合作,拓展了其能力邊界。通過這一實驗性方法,AnyChat 實現了同時處理實時視頻和靜態圖像的功能,打破了 “單流障礙”。
Gemini 的這一新能力具有廣泛的應用前景。在醫療領域,專業人士可以同時向 AI 展示患者的實時症狀和歷史診斷掃描,以獲得更全面的分析。工程師可以比較實時設備性能與技術圖紙,獲得即時反饋。質量控制團隊可以以前所未有的準確性和效率,將生產線輸出與參考標準進行對比。
在教育領域,學生可以使用 Gemini 實時分析教科書,同時解決實踐問題,從而獲得情境感知支持,彌合靜態與動態學習環境之間的鴻溝。藝術家和設計師可以同時展示多個視覺輸入,開闢新的創意協作和反饋渠道。
目前,AnyChat 仍作為一個實驗性開發者平台存在,其成功證明了多流 AI 視覺不再是遙不可及的願景,而是已經實現的現實,準備迎接大規模應用。
AnyChat 的出現也引發了一些問題。為何 Gemini 的官方推出未包含此功能?這是疏忽、資源分配的故意選擇,還是表明更小、更靈活的開發者正在推動下一波創新?
隨著 AI 競賽的加速,AnyChat 的經驗表明:最重要的進步可能並非總是來自科技巨頭的龐大研究實驗室,而是來自那些看到現有技術潛力並敢於進一步推動的獨立開發者。
Gemini 的突破性架構現已證明能夠處理多流,這為新一代 AI 應用奠定了基礎。Google 是否會將此功能融入其官方平台尚不確定。但有一點是明確的:AI 能夠做到的事情與其官方提供的功能之間的差距,現在變得更加有趣。
【教學】如何在香港申請 Google Gemini 及訂閱 Google Gemini Advanced /
【教學】香港 iPhone 如何使用 Apple Intelligence!設定方法與功能 /
【教學】5 個「香港」免費使用 ChatGPT 的方法 /
【說明】4 個方法,讓你的 iPhone / Android 在香港無需 VPN 就能用 ChatGPT