據報導,參與改進 Google Gemini A.I. 系統的外部工作人員在評估過程中,將Gemini的回答與來自競爭對手Anthropic的Claude模型的輸出進行對比。這一做法基於內部文件顯示,但 Google 方面未對是否獲得使用Claude測試Gemini的授權作出回應。
通常情況下,科技公司在開發AI模型時會通過行業標準測試來衡量性能,而不是讓員工直接評估對手AI的表現。然而,對於Gemini項目,合同工需要根據多個標準如準確性、資訊量等,對每次回答進行評分,並比較Gemini和Claude哪個更優。每項評價任務限時30分鐘。
最近,負責Gemini評估的合同工注意到,在用於對比的內部平台上出現了明確標識為「是由Anthropic創造的Claude」的回答。部分交流記錄表明,Claude的回覆往往比Gemini更注重安全性,例如拒絕響應可能涉及不安全內容的提示,而Gemini的某些回答則因包含不當內容而被標記為嚴重違反安全規定。
按照Anthropic的服務條款,客戶不得未經允許使用Claude構建競爭產品或訓練競爭性AI模型。值得注意的是, Google 是Anthropic的重要投資者之一。
一位 Google DeepMind的發言人表示,公司確實會在評估過程中對比不同模型的輸出結果,但強調並未用Anthropic的模型來訓練Gemini。發言人指出,按照行業慣例,有時會進行模型輸出對比作為評估的一部分工作,否認了利用Anthropic模型訓練Gemini的說法。
上週有報導指出, Google 的AI產品合同工現在被要求對Gemini的回答進行評級,即使這些領域超出了個人的專業範圍。內部通信中表達了對Gemini可能在醫療等敏感話題上生成不準確資訊的擔憂。