恒生電子首席科學家白碩：Agent之難，無關算力、模型與平臺丨Agent價值創(chuàng)造十人談①

本文作者：周蕾

2025-12-23 14:45

導語：“你會關心一個電飯鍋能做多少種不同的飯菜，而不是單純關注爐子的好壞。”

阻礙金融機構把Agent從演示PPT推向核心業(yè)務場景的，究竟是什么？是算力成本，是模型能力，抑或是一個萬能的開發(fā)平臺？

在與恒生電子首席科學家白碩的深度對話中，我們得到了一個不太常見的答案：以上都不是最要緊的。

白碩早年間在中科院計算所從事前沿研究，后長期擔任上海證券交易所總工程師，主導核心交易系統(tǒng)升級，如今作為恒生電子首席科學家，推動AI技術落地。在經(jīng)過學術前沿、行業(yè)監(jiān)管核心與產(chǎn)業(yè)實踐這一完整路徑之后，他對當下最熱門的Agent話題，給出了具有歷史縱深感的、頗具穿透力的洞察。

他指出，缺乏足夠“厚度”的業(yè)務接口——這里并非指底層技術的API，而是指封裝了業(yè)務邏輯、能“聽懂”業(yè)務人員自然語言指令的能力單元——直接導致現(xiàn)在許多Agent項目陷入“讀不懂”真實業(yè)務需求當中的復雜意圖，無法解讀有業(yè)務語義的自然語言的指令，或者只能對原有系統(tǒng)做簡單粗暴的封裝。他風趣地提到：你會關心一個電飯鍋能支持多少種花式菜譜，至于底下加熱組件好不好用，會是你關注的重點嗎？

而目前通用型Agent平臺的價值，其在整體解決方案中的價值占比有所下降——脫離垂直領域深厚積累的平臺，只能是一個“空架子”。他認為花錢做Agent，錢除了花在算力上，更要花在構建和豐富原子化的服務能力上。

在白碩眼中，金融Agent已經(jīng)走過了“硬編碼”“拖拉拽”的階段，抵達目前人們所熟知的自然語言驅(qū)動的階段，但眼下并非他所認為的技術終局。他告訴雷峰網(wǎng)，未來的架構很可能會是這樣：敏態(tài)業(yè)務都歸Agent負責，穩(wěn)態(tài)業(yè)務轉(zhuǎn)變?yōu)楹笈_的工具、資源或物料，當中會有AI中臺進行承接。

這個技術終局聽起來或許不夠賽博朋克，但它在金融這個極其“苛刻”的世界當中，指明了一條AI Agent落地的生存之路。

以下是雷峰網(wǎng)與白碩的對話，有不改變原意的編輯：

Agent的“假門檻”與“真壁壘”

雷峰網(wǎng)：構建Agent過程中，真正有壁壘的是哪個環(huán)節(jié)？

白碩：接口的“厚度”，這是我認為構建Agent的核心壁壘所在。也就是說，我需求里的復雜意圖是用業(yè)務語言表達的，但它跟原有應用系統(tǒng)開放出來的接口能不能對得上，是一個問題。

原有的IT系統(tǒng)及應用系統(tǒng)，還沒成功轉(zhuǎn)化為Agent可用的工具、資源或物料，原有系統(tǒng)也沒有把所有具體業(yè)務含義的接口都開放出來。部分開放的接口與業(yè)務緊密程度不一，有些接口距離業(yè)務較遠，以至于自然語言的指令“夠不著”業(yè)務。Agent也好，開發(fā)框架也好，平臺或者大模型也好，要讓它們充分理解業(yè)務意圖，現(xiàn)在的接口形式很可能是不合適的。

原來的交互方式下，業(yè)務人員能懂我的意圖，但這切換到AI時代的交互方式下，讓大模型同樣懂我，那要看企業(yè)上下文的這個“厚度”?！昂穸取睕Q定了還有多少技術上的“欠賬”，補不上這筆欠賬，那業(yè)務和技術之間就是一道鴻溝了，這樣開發(fā)出來的Agent，要么無法滿足業(yè)務需求，要么帶有濃厚的技術痕跡，又或者只是對原有系統(tǒng)的簡單遷移，AI組合應用的靈活性也就體現(xiàn)不出來了。

其次要注意“黑話”的存在。垂直領域大量的行話、術語，行業(yè)人士懂，但大模型不一定懂。你直接把含有“黑話”的資料交給大模型，它很難充分理解，所以說這里有一個大模型友好的數(shù)據(jù)治理工作，讓垂域數(shù)據(jù)和資源能與通用AI技術友好對接，讀懂彼此之后，那就是如虎添翼了。

雷峰網(wǎng)：可以說，接口開放的“厚度”是Agent發(fā)展的“生門”。

白碩：對，只有具備足夠的厚度，才能100%容納并理解用技術或業(yè)務語言表達的復雜意圖。否則，系統(tǒng)理解不了業(yè)務表達，根本不知道怎么做。意圖理解是接口開放厚度的關鍵體現(xiàn)，也是實現(xiàn)技術與業(yè)務對接的基礎。

業(yè)務文件中通常包含大量宏觀的業(yè)務語言描述，如開戶需滿足前提條件、檢查事項等。這些要求需要用具體的工具和操作來實現(xiàn)，但怎么將業(yè)務文件中的字眼落到實際操作？是一個難題。

同時，要充分利用Agent，原有的IT系統(tǒng)需要具備一定的健康度和健壯性，以及較為完備的接口。接口開放得越多，提供的服務就越多；接口越貼近業(yè)務，表明在業(yè)務層面提供的服務越豐富。

過去也有類似的做法：AI興起之前，SOA（面向服務的體系架構）是一種新潮的技術架構。SOA要求服務描述和服務發(fā)現(xiàn)必須遵循特定協(xié)議，但那時自然語言理解技術還不過關，這些協(xié)議只能設計得非常死板，很容易導致“即便供給方發(fā)布了服務，但需求方并不知道如何描述才能夠找到服務”，那就等于是白做了。但現(xiàn)在供給方只要擁有大模型，只要系統(tǒng)真正具備并封裝了這些服務，并用自然語言進行描述，需求方就能用語義相近的自然語言找到并利用這些服務。

雷峰網(wǎng)：怎么判斷技術廠商的接口開放“厚度”，判斷標準是什么？

白碩：我打個比方：做飯一定要爐子加熱，但爐子只是個基礎工具，就像Agent的編排框架，它是標準化的，沒有太多領域相關的技術含量，這些底層技術組件未來可能會變成“白菜價”，非常普及。

真正有價值的，是廠商能提供多少種“菜譜”，也就是他們能支持多少種服務。這些服務才是廠商的看家本領，最終要通過MCP等以標準上下文接口的形式暴露出來。

你會關心一個電飯鍋能做多少種不同的飯菜，而不是單純關注爐子的好壞。如果一個廠商只能提供基本的、通用的功能，就像只會用爐子煮白米飯，那它的競爭力就很有限。但它要是除了煮飯還會煲湯、燉肉，競爭力就會更強。如果這些服務能夠通過自然語言被方便地發(fā)現(xiàn)和使用，那就說明廠商具備更高的接口開放厚度。

所以，當我們?nèi)ピu判一個廠商在做Agent時的接口開放厚度時，關鍵在于看他們能提供多少種服務，這些服務是否封裝良好，是否能被方便地調(diào)用。

雷峰網(wǎng)(公眾號：雷峰網(wǎng))：講到底層技術組件的“白菜價”，Agent現(xiàn)在除了算力以外的成本構成是否有很大變化？

白碩：預算構成上，算力還是占大頭的，或者說在客戶的接受程度范圍之內(nèi)，其他因素和算力相比，都還沒法成為決定性因素。這一點我們是無能為力的，它需要大模型算法本身有足夠的創(chuàng)新。不過Deepseek不斷沖擊大模型需要的算力下限，我個人對這件事是覺得很欽佩的，也很有信心算力（價格）一定還可以再降。

在以私部署為主的金融領域，付費的大模型打不過開源的大模型。付費的私有化部署已經(jīng)很少了，競爭力也不強。開源大模型尤其是千問，在金融機構應用較多。恒生落地案例也是從千問開始的，在這之前開源（效果）最好的有說是Llama，但它本地化之后我們還要做大量的繼續(xù)訓練，這里成本也蠻高的?，F(xiàn)在可以說Llama的時代已經(jīng)過去了。

通用Agent編排平臺，我覺得它的價值是在弱化的，至少在整體解決方案中的成本占比正在下降。

還應有一部分錢花在構建和豐富原子化的服務能力上，這是決定Agent是否有用、能否滿足多樣化需求的關鍵。

雷峰網(wǎng)：所以您覺得，行業(yè)高估了通用Agent編排平臺的價值。

白碩：現(xiàn)在一些過于夸大通用Agent編排平臺作用，把未來市場份額夸大到幾萬億的說法，我是覺得完全不對的。實際上，你只是為場景提供了一個標準化的基礎工具而已。

通用的開發(fā)平臺、編排框架或工具，市場價值并不高，也沒有那么大市場份額，兩個原因：一是它可能很快標準化，很多廠商都能提供，缺乏門檻；二是垂域僅靠它不夠，真正的競爭力不在這方面。

如果你提供一個編排平臺，讓用戶能夠自行搭建Agent，這很快就能實現(xiàn)。但關鍵在于搭建時所使用的“積木塊”，即那些已經(jīng)原子化的服務能力是什么、在哪里。只有將這些能力封裝好且足夠豐富，才能構建出有用的Agent。

廠商是要基于自己熟悉的資源，去通用平臺開發(fā)出貼合需求的解決方案，不熟悉的資源，很難有效整合利用。就像恒生自己在金融科技領域有積累有覆蓋面，自然有相應資源去開發(fā)契合金融Agent。有人覺得通用技術可以顛覆這個路徑，可以不通過場景的積累，我覺得這個想法有點一廂情愿了。

從雛形到落地，金融Agent的務實路徑

雷峰網(wǎng)：金融科技領域其實一直在提數(shù)字化、智能化、自動化等等概念，您眼中的Agent是怎樣的發(fā)展路徑？

白碩：金融AI Agent發(fā)展應該是有三個不同階段。

最初的時候，流程性的工作都是通過硬編碼的方式寫死在程序里。那些內(nèi)部沒有寫死的部分，出現(xiàn)臨時情況又沒有相應的流程來應對，就無法繼續(xù)操作，必須有人在流程中間手動去銜接。這就很像高速公路上有一些土路或者斷頭路，得用點“土辦法”來連接，離全程自動化還很遠。

AI出現(xiàn)之后，我們就進入了一個中間階段，也就是半自動化階段。在這個階段，流程性的銜接不再需要編寫代碼。像是步驟的先后順序、條件滿足后執(zhí)行的操作等，這些純粹流程性的工作，都可以通過拖拉拽的方式在圖形界面上配置流程，將具體的步驟設置到中間的具體位置。這個階段里，節(jié)點之間的順序和業(yè)務控制邏輯是清晰的，但節(jié)點內(nèi)部的具體操作過去需要寫程序來實現(xiàn)。

現(xiàn)在，我們可以利用自然語言去描述單一步驟的動作，AI能夠自動映射到具體的資源和能力。這一步涉及到具體的原子能力，我們需要編寫能夠映射成這樣的能力。同時，有些操作會調(diào)用已知的能力，比如可執(zhí)行的方法或函數(shù)，這就需要輸入?yún)?shù)和輸出參數(shù)。這些參數(shù)是一些數(shù)據(jù)要素，我們需要用自然語言來指定使用什么樣的數(shù)據(jù)要素以及取什么樣的值。

我們目前所處的階段還不是最先進的形態(tài)，仍然有發(fā)展的空間。實際上，我們對于接口和流程的知識并非一片空白，我們擁有大量的文檔和描述。這些文檔和描述提供了自動化用AI的可能性，如果AI足夠強大，我們可以利用它來自動化地拆解流程。這樣一來，那些拖拉拽的配置方式也都可以免了。

目前的AI達不到百發(fā)百中、一拆解就是對的情況，但我們可以識別到拆解出來不對的部分，動態(tài)地去修改它，讓它再執(zhí)行一遍。但要注意，存在前后依賴關系時，一旦中間有一步出錯，可能會引發(fā)后續(xù)一系列的錯誤。要修改的話，系統(tǒng)必須是未經(jīng)破壞的，系統(tǒng)操作是可回滾、可重演的，不能出現(xiàn)不可逆的、永久性的不符合預期的改變，或者數(shù)據(jù)是只讀的，避免出現(xiàn)不可逆的、永久性的不符合預期的改變。在大模型調(diào)試過程中，調(diào)整步驟順序或修正數(shù)據(jù)讀取權限等問題，這就是ReAct模式，在新型Agent開發(fā)工具中很常見。

雷峰網(wǎng)：金融機構對Agent的需求今年以來發(fā)生了什么變化？他們“繞開”技術廠商，自建Agent的概率大嗎？

白碩：一些金融機構對自己整體資源把控程度和接口暴露程度，是心里有數(shù)的。那他們不借助廠商能力，直接采購通用平臺走自建，這種是存在的，但大多數(shù)還不具備這樣的能力。

機構首先還是面向業(yè)務需求，但要服務這個需求，我們會共同探討落地路徑和手頭的資源，所以構建Agent也并非唯一選擇，有時簡單的技術方案也能滿足需求。

過去兩年（2023-2024年）遇到的一種情況是，金融機構的Agent構建多集中在單業(yè)務域，資源掌控相對獨立，不太有各業(yè)務間的數(shù)據(jù)和底層資源交叉拉通的需求。很多場景，哪怕是同一家金融機構，不同業(yè)務背后的大模型、算力都是各自采購部署、各自支持自己的應用。

已經(jīng)度過這個階段的機構，就會開始思考：怎么讓采購的算力和大模型資源能夠交叉支持不同業(yè)務，減少重復采購？于是平臺化的需求在2025年就被提出來了。

平臺化的出現(xiàn)，使得金融機構能夠共享底層共性資源，實現(xiàn)跨系統(tǒng)的數(shù)據(jù)要素統(tǒng)一和業(yè)務創(chuàng)新。在AI時代，如果金融機構的接口開放程度足夠高，結合Agent開發(fā)框架、編排平臺或大模型，就可以更輕松地實現(xiàn)這種拉通和創(chuàng)新。這也是我們在與金融機構合作過程中觀察到的，比較具有代表性的一種需求。

雷峰網(wǎng)：金融機構應用Agent時，除了算力以外，還可能面對什么比較大的障礙？

白碩：算力是一個問題，再一個是業(yè)務適配的“厚度”，也就是怎么讓Agent更貼近實際業(yè)務需求。這是個長線任務，不是說要全都處理好了才搭場景，可以看需要，逐步開放和搭建所需的接口，先從簡單的場景入手，實現(xiàn)短期目標。在這個過程中，接口的積累和業(yè)務適配的優(yōu)化可以持續(xù)推進。會順其自然地通過若干個短線目標，去把長線任務帶起來。比起一次性大量投入“備而不用”，“邊用邊備”的做法在商業(yè)角度也比較合理，

雷峰網(wǎng)：Agent加入之后的金融科技解決方案，其付費模式相應地出現(xiàn)了什么變化？

白碩：如果方案中包含Agent的搭建和使用，大模型可能會按token收費。底層接口和物料的使用也可能成為計價單位，這也是可以去暢想的一件事。不過，目前大多數(shù)金融機構還是采用傳統(tǒng)的項目招投標形式進行合作。

雷峰網(wǎng)：幻覺這個問題，在恒生的金融科技解決方案里可以怎么被抑制？

白碩：幻覺實際上是生成式AI一個固有的缺陷，主要涉及編造數(shù)據(jù)或接口，但在金融場景里，這種情況是能夠一定程度上被控制的。因為不存在的接口是調(diào)不出來的，錯誤的接口也會調(diào)用失敗。我們的智能體要用來干活兒的，如果數(shù)據(jù)或接口是虛幻的，那么就會取不到數(shù)，接口不對而執(zhí)行失敗。這個場景并不是在聊天，所以幻覺“幻不出來”。

不過，在規(guī)劃階段，有可能規(guī)劃步驟無法執(zhí)行或執(zhí)行結果錯誤，這時候就需要修正，需要ReAct。這就需要確保智能體所依賴的基礎能力，都是可逆和可恢復的。如果做不到可逆，這個接口就不能暴露出來給Agent自由規(guī)劃。

終局與未來，金融Agent往何處去？

雷峰網(wǎng)：Agent在金融機構內(nèi)部，從POC到實際上線是一個很難一概而論的過程。

白碩：對，有些機構會有平臺級的訴求，希望智能體具備通用能力，會關注智能體在具體場景中的端到端表現(xiàn)。有些機構會從平臺的交叉知識能力和跨域組合能力的角度進行評估。如果業(yè)務部門主導，他們通?？粗刂悄荏w在特定場景中端到端的性能；如果是IT部門主導，他們可能更看重智能體的通用性和跨域組合能力，并且需要有真實的跨域場景來支撐這些能力的驗證。

雷峰網(wǎng)：能看到單Agent到多Agent是一個趨勢，相信金融場景也不例外，您覺得多Agent需要注意的是什么？

白碩：恒生的解決方案里也有應用多Agent的項目，但一個法人機構內(nèi)部使用多Agent的必要性相對較弱，是否為不同法人機構之間的跨機構業(yè)務往來，是判斷是否使用多Agent的標準之一。

在一個法人機構內(nèi)部，主要涉及的是分工和工作類型問題。有些Agent負責在線檢查數(shù)據(jù)是否滿足特定條件，滿足后發(fā)送信息，另一個Agent響應并采取行動。如果僅僅是簡單的上下游關系、串聯(lián)式的處理，即一件事完成后依次進行另一件事，那么完全可以將這些流程合并為一個Agent來處理。如果有一個統(tǒng)一的場景或口徑，即使流程再復雜，理論上也可以將多Agent合并為一個大Agent來完成任務。

然而，如果Agent具有不同的性質(zhì)，例如需要長期運行、持續(xù)探測和判斷條件是否滿足，滿足后才通知其他Agent，那么這種Agent有必要單獨存在，并與其他Agent互通。

雷峰網(wǎng)：恒生電子這段時間主要有哪些AI方面的動作？

白碩：恒生電子的AI落地包括兩部分，一部分是市場端客戶側(cè)的落地，另外一部分就是恒生自身的落地，不單是Agent，是對內(nèi)對外推進整體的解決方案。

在客戶側(cè)，恒生電子積極與國內(nèi)頭部金融機構開展合作，面向投研、投顧、運營等場景打造專業(yè)Agent應用，并陸續(xù)實現(xiàn)落地。此外，恒生電子也在探索基于實體地圖增強的金融垂域智能體開發(fā)平臺的研發(fā)，助力金融機構打造垂域大模型技術體系，子公司恒生聚源也通過“語控萬數(shù)”數(shù)據(jù)智能體平臺，在厚實的金融數(shù)據(jù)底座基礎上，通過“數(shù)據(jù)地圖”的導航為Agent的搭建提供精準的數(shù)據(jù)物料供給。

對內(nèi)方面，比如客服部分，恒生的客戶服務系統(tǒng)是七八年前建的，去年做了大升級，給接線的客服“武裝”AI能力，升級之后變成自助平臺「U+」，能回答業(yè)務、系統(tǒng)、運維相關問題，幫接線同事分擔壓力。

再比如工程，因為恒生面向市場提供的是產(chǎn)品，但從產(chǎn)品到實際落地的解決方案，中間還有相當一部分工作量是定制，這個工程實施也需要大量的知識上和工具上的賦能。工程實施的人員如果有不明白的地方，也不用具體的產(chǎn)品部門的員工來跟他們的對接了，很多問題都沉淀在相應的知識庫里。新手員工是非常需要這種工具的，現(xiàn)在AI幫他們擴寬了求助的通道路徑。

還有就是內(nèi)部面向程序員的AI編程能力，這個技術不斷在進步，為編程效率的提升提供了很多空間，我們作為軟件公司是必須要去擁抱新技術，盡快地讓程序員轉(zhuǎn)到AI賦能編程的工作方式上來。因此有很多內(nèi)部工具的研發(fā)來打造最佳實踐。隨著技術推廣，內(nèi)部研發(fā)的流程和組織管理方式也在不斷發(fā)生變化。

雷峰網(wǎng)：恒生內(nèi)部也是有上線相應的Agent來應對這些場景。

白碩：Agent簡單地說，就是兩種用法。其中一種是“干事”，之前的聊天是干事的低級形態(tài)，copilot嵌入系統(tǒng)，通過說話的方式來下指令指揮系統(tǒng)干事，但使用的還是原來的系統(tǒng)。Agent的出現(xiàn)，讓事情又發(fā)生了一個改變，即Agent并非嵌入原來系統(tǒng)，而是一種獨立的存在。大模型作為它的大腦，原來系統(tǒng)的各個接口就作為它的“手和眼”，它能感知情況、能取數(shù)，對數(shù)據(jù)分析加工處理，辦理業(yè)務等等?！傲奶臁焙汀案墒隆钡膮^(qū)分，Agent和以往一些數(shù)字化應用方案的區(qū)分標準之一。

智能地干事的方式，是能夠把一些平凡的環(huán)節(jié)串起來，在這個過程里體現(xiàn)智能。只是告訴Agent一句話，它不會把這句話只對應一個動作，而是說它能夠把這個話作為一個復雜意圖，拆解成一些簡單的意圖組合，每一個簡單意圖對應一個簡單的動作，每一個動作有可能調(diào)用后臺的不同資源、不同系統(tǒng)、不同數(shù)據(jù)源。

雷峰網(wǎng)：比起“智能地干事”“自動化AI”，金融Agent還有沒有下一步發(fā)展形態(tài)？

白碩：有。我們先給業(yè)務做個區(qū)分：穩(wěn)態(tài)業(yè)務，相對穩(wěn)定，要求較高；敏態(tài)業(yè)務，變化頻繁、快速響應，多樣性、差異性也比較顯著。如果用傳統(tǒng)實現(xiàn)方式做敏態(tài)業(yè)務，需要大量定制開發(fā)。但AI出現(xiàn)后，對于敏態(tài)需求，如果接口是支持的，流程性的知識和資源完備，有業(yè)務規(guī)范文件和業(yè)務邏輯需求描述的話，AI可以處理這部分工作。

我們可能看到的終局，會是什么狀態(tài)呢？敏態(tài)業(yè)務都歸Agent負責，穩(wěn)態(tài)業(yè)務轉(zhuǎn)變?yōu)楹笈_的工具、資源或物料。系統(tǒng)被切分為兩部分，中間由AI中臺或Agent開發(fā)平臺負責連接。但這絕對不是通用的Agent開發(fā)平臺，必須與垂域資源配套，否則只是一個空架子，沒有價值。

雷峰網(wǎng)：現(xiàn)在Agent還是屬于早期比較荒蕪的階段？

白碩：對，現(xiàn)在大家有一種錯覺，就是覺得通用智能體開發(fā)編排平臺會有很大需求。實際上，真正的需求是在接口體系足夠豐富、足夠深厚之后才會出現(xiàn)。

接口體系怎么積累？應該看機構或企業(yè)內(nèi)部的知識，包括數(shù)據(jù)和流程等方面。知識分為兩個層面：一是硬件層面，即確保所有必要的接口都已具備；二是軟件層面，即對流程和接口進行詳細描述。這些描述構成了知識庫，硬件層面是接口體系的逐步積累。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏