OpenAI 發佈 GPT-4o 圖像生成技術,提升文本呈現能力與指令執行效果

約一年前,OpenAI 的 GPT-4o 經過改進,新增了多項功能,其中最新的為圖像生成技術。這一人工智能模型能夠生成高質量、細緻的圖像,並能根據自然語言指令進行修改,直到達到用戶心中想要的效果。

舊有的人工智能模型在文本生成方面存在困難,例如要求生成一個標誌時,得到的結果往往是無意義的字詞或根本不是字母的曲線。然而,GPT-4o 現在能夠創建帶有清晰可讀文本的圖像。

圖像生成通常從輸入文本提示開始,然後通過不斷調整原始提示來完善圖像。GPT-4o 的工作方式有所不同,使用者可以首先請求一個圖像,然後告訴它需要更改的內容,接著再要求進一步的更改,直到得到滿意的結果。以下是一些示例:

用簡單的英文生成和修改圖像。

用戶可以查看創建這些圖像所用的提示,OpenAI 也承認進行了選擇性展示,很多圖像是從多次嘗試中挑選出來的,儘管如此,最終的結果仍然相當令人印象深刻,並且用戶界面簡單易用。

另一個例子是,GPT-4o 可以從零開始創建圖像,或者修改用戶提供的圖像。在一個示例中,用戶提供了一張貓的照片,並要求 AI 給它加上偵探帽和單片眼鏡。然後,用戶進一步調整圖像,將其變成類似角色扮演遊戲的截圖。

用戶還可以從多張圖像開始,將每張圖像中的元素整合到最終結果中。OpenAI 表示,GPT-4o 在遵循詳細指令方面表現出色,能夠在一個場景中操作 10 到 20 個不同的物體,而其他人工智能模型通常只能處理 5 到 8 個物體。

儘管如此,GPT-4o 並非完美,OpenAI 也坦承其不足之處。有時,它會將圖像底部裁剪掉,幻覺現象仍然存在,處理超過 10 到 20 個物體時可能會出現困難,對於非拉丁字符的文本呈現也需要進一步改進。

最後,還有一些視頻展示了 GPT-4o 新的圖像生成技能。

日本電話卡推介 / 台灣電話卡推介

更多手機開箱評價請即睇:手機開箱
https://www.techritual.com/category/unbox-review/mobile-phone-tablet/

Henderson
Henderson
Henderson 主要擔任「炒稿記者」的職責,以翻譯最新科技,手機 電動車等消息為每天的工作。