Gemini 2.0 Flash 正式啟用原生圖像生成功能,將改變數字內容創作方式

Gemini 2.0 Flash 正式開放原生圖像生成功能

Gemini 2.0 Flash 現在向所有支持 Google AI Studio 的地區開放了原生圖像輸出功能的實驗性版本。此前,該功能已於去年 12 月面向部分受信任的測試者進行了初步介紹。

多模態輸入與自然語言理解

Gemini 2.0 Flash 結合了多模態輸入、增強的推理能力和自然語言理解能力,能夠生成圖像。該功能的幾個應用場景尤為突出:

一、文本與圖像的融合使用。用戶可以通過 Gemini 2.0 Flash 講述一個故事,並讓它用圖片進行插圖,保持角色和場景的一致性。用戶還可以提供反饋,模型會根據反饋重新講述故事或改變繪圖風格。

二、對話式圖像編輯。Gemini 2.0 Flash 支持通過多輪自然語言對話進行圖像編輯,這對於迭代出完美圖像或共同探索不同想法非常有用。

世界知識理解與文本渲染

三、世界知識理解。與其他許多圖像生成模型不同,Gemini 2.0 Flash 利用世界知識和增強的推理能力來創建正確的圖像。這使得它在創建如食譜插圖等詳細且逼真的圖像方面表現出色。儘管它力求準確,但其知識廣泛且一般,並非絕對或完整。

四、文本渲染。許多圖像生成模型在準確渲染長文本序列方面存在困難,往往導致字符格式不佳、難以辨認或拼寫錯誤。內部基準測試顯示,Gemini 2.0 Flash 在文本渲染方面相較於領先的競爭模型表現更強,非常適合創建廣告、社交帖子甚至邀請函。

開發者接入與未來展望

目前,開發者可以通過 Gemini API 開始使用 Gemini 2.0 Flash 的原生圖像生成功能。相關文檔提供了更多關於圖像生成的詳細信息。

無論是構建 AI 代理、開發具有美麗視覺效果的應用程序(如插圖式互動故事),還是在對話中進行視覺創意頭腦風暴,Gemini 2.0 Flash 都允許用戶通過單個模型實現文本和圖像的生成。開發者的反饋將有助於進一步完善該功能,推進其向生產就緒版本邁進。

【教學】如何在香港申請 Google Gemini 及訂閱 Google Gemini Advanced /
【說明】4 個方法,讓你的 iPhone / Android 在香港無需 VPN 就能用 ChatGPT

十斗
十斗https://www.techritual.com/author/tenten/
十斗在知名大學取得了計算機科學與工程學位,並在學術研究方面表現出色。她的研究領域包括人工智能、機器學習和數據科學。一斗為十升,一升為十合,一合為十分之一升。謝靈運言天下才學一石,曹植占八斗,以此讚譽。後用以比喻才學極高。