品玩4月21日訊,據techCrunch 報導,OPenAI 最近推出的 o3 和 o4-mini 模型被曝存在嚴重的幻覺問題。
وفقا للاختبار الداخلي ل OpenAI ، فإن o4 و o0-mini أكثر عرضة للهلوسة من نماذج الاستدلال السابقة للشركة (o0 و o0-mini و o0-mini) ، بالإضافة إلى نماذج OpenAI التقليدية "غير الاستدلالية" مثل GPT-0o. كتبت OpenAI في تقريرها الفني عن o0 و o0-mini أن "هناك حاجة إلى مزيد من البحث" لفهم سبب تفاقم الهلوسة مع توسع نماذج الاستدلال.
OpenAI 發現,o3 在回答 PersonQA 中 33% 的問題時產生了幻覺,而 PersonQA 是公司內部衡量模型對人的認知準確性的基準。這大約是OpenAI之前的推理模型o1和o3-mini出現幻覺率的兩倍,o1和o3-mini的幻覺率分別為16%和14.8%。O4-mini在PersonQA上的表現更糟--48%的時間出現幻覺。