Gemini 2.0 Flash 正式啟用原生圖像生成功能，將改變數字內容創作方式

Gemini 2.0 Flash 正式開放原生圖像生成功能

Gemini 2.0 Flash 現在向所有支持 Google AI Studio 的地區開放了原生圖像輸出功能的實驗性版本。此前，該功能已於去年 12 月面向部分受信任的測試者進行了初步介紹。

Gemini 2.0 Flash 結合了多模態輸入、增強的推理能力和自然語言理解能力，能夠生成圖像。該功能的幾個應用場景尤為突出：

一、文本與圖像的融合使用。用戶可以通過 Gemini 2.0 Flash 講述一個故事，並讓它用圖片進行插圖，保持角色和場景的一致性。用戶還可以提供反饋，模型會根據反饋重新講述故事或改變繪圖風格。

二、對話式圖像編輯。Gemini 2.0 Flash 支持通過多輪自然語言對話進行圖像編輯，這對於迭代出完美圖像或共同探索不同想法非常有用。

三、世界知識理解。與其他許多圖像生成模型不同，Gemini 2.0 Flash 利用世界知識和增強的推理能力來創建正確的圖像。這使得它在創建如食譜插圖等詳細且逼真的圖像方面表現出色。儘管它力求準確，但其知識廣泛且一般，並非絕對或完整。

四、文本渲染。許多圖像生成模型在準確渲染長文本序列方面存在困難，往往導致字符格式不佳、難以辨認或拼寫錯誤。內部基準測試顯示，Gemini 2.0 Flash 在文本渲染方面相較於領先的競爭模型表現更強，非常適合創建廣告、社交帖子甚至邀請函。

目前，開發者可以通過 Gemini API 開始使用 Gemini 2.0 Flash 的原生圖像生成功能。相關文檔提供了更多關於圖像生成的詳細信息。

無論是構建 AI 代理、開發具有美麗視覺效果的應用程序（如插圖式互動故事），還是在對話中進行視覺創意頭腦風暴，Gemini 2.0 Flash 都允許用戶通過單個模型實現文本和圖像的生成。開發者的反饋將有助於進一步完善該功能，推進其向生產就緒版本邁進。