谷歌發(fā)布TensorFlow Lattice：得益于先驗(yàn)知識(shí)，提升模型泛化能力

本文作者：汪思穎

編輯：郭奕欣

2017-10-12 15:05

導(dǎo)語(yǔ)：得益于先驗(yàn)知識(shí)，提升模型泛化能力

雷鋒網(wǎng) AI科技評(píng)論消息，近日，谷歌科學(xué)家發(fā)布TensorFlow Lattice，這是一套預(yù)建的TensorFlow Estimators，易于使用，它相當(dāng)于是TensorFlow運(yùn)算符，用來(lái)構(gòu)建點(diǎn)陣模型（lattice model）。點(diǎn)陣是多維插值查找表（look-up table），與幾何教材背面近似于正弦函數(shù)的查找表類(lèi)似。

雷鋒網(wǎng) AI科技評(píng)論編譯整理如下：

我們利用查找表的結(jié)構(gòu)（它可以通過(guò)多個(gè)輸入進(jìn)行鍵控），來(lái)估計(jì)比較隨意及靈活的關(guān)系，并滿(mǎn)足于指定的單調(diào)關(guān)系，以便更好地泛化。也就是說(shuō)，訓(xùn)練查找表值使得訓(xùn)練樣例的損失最小化。另外，查找表中的相鄰值被約束為在輸入空間的給定方向上增長(zhǎng)，因此模型的輸出值也是在這些方向上增長(zhǎng)。重要的是，因?yàn)槭窃诓檎冶碇抵g進(jìn)行插入，所以點(diǎn)陣模型很平滑，預(yù)測(cè)也是有界的，這有助于避免測(cè)試階段出現(xiàn)有較大偏差的雜散預(yù)測(cè)。

點(diǎn)陣模型的作用

設(shè)想一下，你正在設(shè)計(jì)一個(gè)向用戶(hù)推薦附近咖啡店的系統(tǒng)，你需要讓模型學(xué)習(xí)：“如果兩家咖啡店是一樣的，那就選擇更近一點(diǎn)的?！?br/>

下圖中我們展示了一個(gè)靈活的模型(粉色曲線(xiàn))，它可以精確地與來(lái)自東京用戶(hù)的訓(xùn)練數(shù)據(jù)（紫色圓點(diǎn)）相匹配，在用戶(hù)附近有很多咖啡店。

由于訓(xùn)練樣例比較嘈雜，可以看到粉色曲線(xiàn)模型產(chǎn)生了過(guò)擬合，并且模型還忽略了總的趨勢(shì)——越近的咖啡店越好。如果用這條粉色曲線(xiàn)模型排列來(lái)自德克薩斯州(藍(lán)色)的測(cè)試樣本，在德克薩斯州咖啡店的分布更加分散，你會(huì)發(fā)現(xiàn)模型的表現(xiàn)變得很奇怪，有時(shí)甚至?xí)J(rèn)為更遠(yuǎn)的咖啡店更好！

谷歌發(fā)布TensorFlow Lattice：得益于先驗(yàn)知識(shí)，提升模型泛化能力

對(duì)比起來(lái)，運(yùn)用東京相同的樣本訓(xùn)練的點(diǎn)陣模型能被約束為滿(mǎn)足單調(diào)關(guān)系，最終得到一個(gè)靈活的單調(diào)函數(shù)（綠色曲線(xiàn)）。這個(gè)函數(shù)能與東京的訓(xùn)練樣例精準(zhǔn)匹配，但是也能泛化到德克薩斯州的樣例上，不會(huì)出現(xiàn)更遠(yuǎn)的咖啡店更好的情況。

一般說(shuō)來(lái)，輸入會(huì)有每個(gè)咖啡店的咖啡質(zhì)量、價(jià)格等等。靈活模型很難捕捉到這種形式的整體關(guān)系，特別是在一些特征空間中，訓(xùn)練數(shù)據(jù)非常稀疏和雜亂?！叭绻渌休斎胝嫉臋?quán)重一樣，那么更近就更好?！蹦懿蹲降较闰?yàn)知識(shí)（例如輸入是怎么對(duì)預(yù)測(cè)值產(chǎn)生影響的）的機(jī)器學(xué)習(xí)模型在實(shí)際中取得的效果更好，更易于調(diào)試并更具有解釋性。

預(yù)建 Estimators

我們提供一系列點(diǎn)陣模型架構(gòu)作為T(mén)ensorFlow Estimators。我們提供的最簡(jiǎn)單的estimator是校準(zhǔn)線(xiàn)性模型（calibrated linear model），它能利用1-d點(diǎn)陣，學(xué)習(xí)到每個(gè)特征的最佳1-d轉(zhuǎn)化，然后線(xiàn)性地將所有校準(zhǔn)特征結(jié)合起來(lái)。如果訓(xùn)練數(shù)據(jù)集很小或沒(méi)有復(fù)雜的非線(xiàn)性輸入交互，模型將非常有效。

另外一個(gè)estimator是校準(zhǔn)點(diǎn)陣模型（calibrated lattice model），這個(gè)模型能利用兩層單一點(diǎn)陣模型非線(xiàn)性地將校準(zhǔn)特征結(jié)合起來(lái)，能在數(shù)據(jù)集中表示復(fù)雜的非線(xiàn)性交互。如果有2-10個(gè)特征，那么校準(zhǔn)點(diǎn)陣模型會(huì)是很好的選擇，但對(duì)于10個(gè)或10個(gè)以上的特征，我們認(rèn)為利用一組校準(zhǔn)點(diǎn)陣將會(huì)得到最佳結(jié)果，這時(shí)候你能利用預(yù)建的一組架構(gòu)來(lái)進(jìn)行訓(xùn)練。比起隨機(jī)森林，單調(diào)點(diǎn)陣集合（Monotonic lattice ensembles）能增加0.3% -- 0.5%的準(zhǔn)確度。另外，比起之前頂尖的單調(diào)性學(xué)習(xí)模型，這些新的TensorFlow點(diǎn)陣estimator 能增加0.1% -- 0.4%的準(zhǔn)確度。

動(dòng)手建立模型

你或許想要用更深的點(diǎn)陣網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)，或者利用部分單調(diào)函數(shù)（作為深度神經(jīng)網(wǎng)絡(luò)或其他TensorFlow架構(gòu)的一部分）來(lái)進(jìn)行研究。我們提供構(gòu)件：TensorFlow校準(zhǔn)運(yùn)算符、點(diǎn)陣插入和單調(diào)性投影（monotonicity projections）。下圖是一個(gè)9層深度點(diǎn)陣網(wǎng)絡(luò)：

谷歌發(fā)布TensorFlow Lattice：得益于先驗(yàn)知識(shí)，提升模型泛化能力

在TensorFlow Lattice中，除了模型的靈活選擇以及標(biāo)準(zhǔn)的L1、L2正則化，我們還提供新的正則化矩陣：

如上面描述的那樣，在輸入上進(jìn)行單調(diào)性約束。
在點(diǎn)陣上進(jìn)行拉普拉斯正則化，以便讓學(xué)習(xí)到的函數(shù)更平滑。
對(duì)扭曲進(jìn)行正則化（Torsion regularization），來(lái)抑止不必要的非線(xiàn)性特征交互。

大家可以在如下地址看到詳細(xì)信息并開(kāi)始進(jìn)行實(shí)驗(yàn)：

GitHub地址：https://github.com/tensorflow/lattice

tutorials地址：https://github.com/tensorflow/lattice/blob/master/g3doc/tutorial/index.md

參考文獻(xiàn)：

[1] Lattice Regression, Eric Garcia, Maya Gupta, Advances in Neural Information Processing Systems (NIPS), 2009

[2] Optimized Regression for Efficient Function Evaluation, Eric Garcia, Raman Arora, Maya R. Gupta, IEEE Transactions on Image Processing, 2012

[3] Monotonic Calibrated Interpolated Look-Up Tables, Maya Gupta, Andrew Cotter, Jan Pfeifer, Konstantin Voevodski, Kevin Canini, Alexander Mangylov, Wojciech Moczydlowski, Alexander van Esbroeck, Journal of Machine Learning Research (JMLR), 2016

[4] Fast and Flexible Monotonic Functions with Ensembles of Lattices, Mahdi Milani Fard, Kevin Canini, Andrew Cotter, Jan Pfeifer, Maya Gupta, Advances in Neural Information Processing Systems (NIPS), 2016

[5] Deep Lattice Networks and Partial Monotonic Functions, Seungil You, David Ding, Kevin Canini, Jan Pfeifer, Maya R. Gupta, Advances in Neural Information Processing Systems (NIPS), 2017

via：Google Research Blog

雷鋒網(wǎng) AI科技評(píng)論編譯整理。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。