大語言模型做產品實測:效果究竟如何?
更新于:2025-03-25 22:45:51

隨著大語言模型的發展,越來越多的人開始關注其在產品領域的實際效果。這篇文章將深入探討大語言模型在產品開發中的應用,分析其優勢和局限性,並通過實測數據來評估其實際效果。

大年初八,年後上班的第一天,我就收拾行囊,直奔客戶那兒去,準備紮營開干,全力搞出個大語言模型的產品應用來。

為啥要這麼著急跑客戶現場來開發呢?原因有兩點:

一是我們要做這個產品,必須要有數據,要不大模型的準確度上不去,做出來個60分的產品,對客戶根本談不上提質增效,大概率會被嫌棄。

二是客戶比我們著急,寄希望於我們把產品做出成效,好圓前期吹出去的牛,堵上同行質疑的嘴。

說實在的,過去一兩年大模型的橫空出世,人工智慧那是火得一塌糊塗,各行各業都發起了一場場的AI競賽。

大家都想著搶先一步,宣傳自家用上AI的產品之後,到底牛成啥樣了。

正因為大家都相信AI可以極大提升效率,可以替代人力,可以解放生產力。所以,都一股腦兒地扎進用AI做產品的浪潮之中。

不過啊,有些人宣傳得太過頭,花了幾百萬做出來的東西,結果還是一個小學生的水準,別說替代人力,還得花更多的精力去“批改”它的作業。

說到客戶,他們對AI的預期其實各不相同。

有些客戶從來就沒有用過AI的東西,也不確定這東西到底能幹啥,你整個AI的產品給他這麼一試,他會覺得非常的神奇。“哎呀,居然寫出來的東西看起來還可以,是那麼回事。”

而另外一些客戶呢,因為一直在做AI方面的產品的嘗試,心裡大概也知道,AI能做啥,水平幾何。所以,當你提供給他的產品,還是只有六七十分的水準,他就會比較失望。因為在他的預期中,AI必須要替代人力,解放人力,別的地方都是這麼宣傳的,都已經到了這麼牛的地步,你家的產品還得讓人伺候著,那哪行啊!

言歸正傳,當前階段,絕大部分嘗鮮用上AI的客戶,其實都是死鴨子嘴硬,60分的效果硬是要吹出90分的成效。

搞得大家對AI的預期都上了一個台階,就如同明明你家的孩子只能考60分,你卻說考到了90分,這下子大家都相信這個孩子可以上一個好學校。但只有你心裡清楚,就這水準,高中估計都上不了。

而我們呢?匆匆趕赴客戶現場來做專案,就相當於要給這個孩子上一個強化班,短時間內要把他的成績從60分提升到80分,這樣好歹也算是個“學習成績好”的孩子了。

接下來,我就來簡單分析一下我們用AI做出來的這個“孩子”到底能考得怎麼樣,哪些“題”擅長,哪些“題”還不行。

計算題——100分

說到計算,大模型那可是個中高手,尤其是那些需要按照各種規則來推算的業務,對它來說簡直就是小菜一碟。只要你把計算規則梳理得清清楚楚,大模型就會輸出準確的答案,並且可以給到你解題的步驟,讓你看得明明白白。

拿司法領域常見的量刑計算來舉例:

基本案情:張三,男,25歲,2000年1月30日精,民族:漢族,身份證號:43*****56,文化程度:初中,政治面貌:群眾,戶籍地:西虹市經開區前進村90號,現居地:西虹市高新區廣陽村1棟2單元101。犯罪嫌疑人張三有多次盜竊前科,最近一次因為盜竊罪被判處有期徒刑2年,於2023年4月4日刑滿釋放。2025年1月20日晚上23時許,張三獨自一人來到西虹市高新區廣場路停車廠,以“手拉車門”的方式盜竊了李xxx放置在小車內的現金1000元和2張銀行卡。

問:張三應該如何量刑?

答:張三盜竊金額為1000元,屬於數額較大的範疇,且沒有其他嚴重情節,因此,其基準刑應在三年以下有期徒刑、拘役或者管制,並處或者單處罰金。

大模型的這個計算過程就是基於法律條款的明確規則,根據其犯罪的情節加以分析,得出的答案。

填空題——90分以上

這裡說的填空題,就是能從文書中精準抓取“要素欄位”。別以為它只是簡單檢索關鍵詞做匹配,現在它已經聰明到能理解語意了,意思相近的描述它也能秒懂。

繼續以張三盜竊案子來舉例:

這一次,我們要求大模型從張三的案件描述中提取相關的資訊。

問:請幫我提取出犯罪嫌疑人張三的基本資訊,包括:姓名、年齡、性別、民族、身份證號、文化程度、戶籍地、犯罪時間、犯罪地點、盜竊金額。

答:

  • 姓名:張三
  • 年齡:25歲
  • 性別:男
  • 民族:漢族
  • 身份證號:43*****56
  • 文化程度:初中
  • 戶籍地:西虹市經開區前進村90號
  • 犯罪時間:2025年1月20日晚上23時許
  • 犯罪地點:西虹市高新區廣場路停車場
  • 盜竊金額:1000元

幾乎是100%的準確,為什麼我認為效果只能達到90分以上呢?它也有“犯迷糊”的時候。

從我做產品的實踐經驗來看,這裡主要受限於如下兩個方面:

  1. 有一部分的文書材料是照片或掃描、複印出來的,文字會存在不清晰、有摺痕、有印章等情況,導致大模型識別出來的文字內容可能會出錯,間接導致了提取效果不好。
  2. 存在一些文書的描述表達不夠清晰、準確或有錯別字的情況,我們自己去閱讀是能發現和理解的,但大模型還理解不了,也就可能準確率降低。

這也引申出一個思考:我們看到的絕大部分的產品宣傳那些“天花亂墜”的效果,都是在理想條件下測出來的。現實里,啥奇怪事兒都能遇到,產品效果自然就得打點折扣

閱讀理解——70分

我們有很多的產品功能,其實是需要去做數據分析、業務流程規範(預警)、關鍵資訊的摘取,這些功能都涉及到需要讓大模型幫我們去做資訊的分析總結。

比如,針對上述的張三案件,檢察官要去做社會危險性的評估(分析下張三有沒有存在危害社會的可能性),以決定是否要逮捕張三。其中,有一個評估指標是:在案發地有相對固定的工作或住所。

問:請幫我提取出張三案件中涉及到社會危險性的相關指標內容?

在大模型給出的回答中,就沒有給出“在案發地有相對固定的工作或住所”。

我繼續問它,為什麼沒有呢?

它回答的邏輯是:內容中並沒有明確告知張三有固定住所或工作。

也就是說,對於一些資訊的理解,大模型有時候還是比較死板,還達不到我們看到一個資訊,可以直接推導出結論,你需要給他更明確的提示,才有可能給到你想要的答案。

寫文章——60分

說起用大模型來寫文章,那可真是不少人的“救星”啊!畢竟,寫文章這事兒,對很多人來講,就已經是生活中少有的“地獄”級任務。但用上大模型,居然寫的這麼好,簡直“神”了。

不過,日常辦公或生活里,想發表點啥,用大模型寫寫,完全沒問題。咱們也不求它寫得多麼準確無誤,多麼精彩絕倫,只要能給點修改意見,或者啟發點思路,就知足了。

但是,如果要依賴大模型生成的專業的內容當前來講,還是很難達到。

繼續以上面的張三案件來講,我們當前就是在用大模型去説明檢察官做《起訴書》、《審查報告》等法律文書的生成。

依靠開源的大模型,是可以達到60分的效果的。

但要想讓大模型寫得更好,那就得下點功夫了。得不斷優化提示詞,還得給它餵更多的法律文書數據,讓它變得更“聰明”,更懂咱們的法律行話,更像一個有資深辦案經驗的檢察官。

總的來說,大模型在規則計算、要素提取、內容摘要、文書生成這些方面,已經算是60分以上的“好學生”了。但要想讓它考到80分,那還得定向訓練,喂行業數據,調整提示詞,加各種約束條件。

作者:武林,公眾號:肖武林

本文由@武林 原創發佈於人人都是產品經理,未經作者許可,禁止轉載。

題圖來自Unsplash,基於CC0協定。

小雞專注app功能拆分
小雞專注app功能拆分
2025-03-25 23:27:02