響片訓(xùn)練是一種訓(xùn)練動(dòng)物的方式,它使用制約增強(qiáng)的方法來“表示”(標(biāo)記)動(dòng)物當(dāng)下正在做的行為是正確的。響片訓(xùn)練原本用在不適合傳統(tǒng)服從訓(xùn)練的動(dòng)物身上,如海豚和鴿子。由于動(dòng)物訓(xùn)練者使用這個(gè)小型會(huì)發(fā)出聲音被稱作“響片”的東西來做訓(xùn)練,所以盡管它使用的是操作制約的方式,但人們還是使用“響片訓(xùn)練”這個(gè)名詞,響片訓(xùn)練也成功的運(yùn)用在馬只訓(xùn)練和綿羊身上。
歷史
B·F·斯金納是第一位定義和描述操作制約原理的學(xué)者,而斯金納的兩位學(xué)生瑪蕊安·卜利廉同凱勒·卜利廉夫婦兩人觀察出將之應(yīng)用在動(dòng)物訓(xùn)練的可能性,并發(fā)展出如今為人們所熟知的正增強(qiáng)方式和塑型法。
其發(fā)展開始于二次大戰(zhàn)的鴿子計(jì)劃,卜利廉夫婦開辦了一間公司名為“動(dòng)物行為企業(yè)”。他們?cè)诤\姾凸_展覽中舉辦了第一次海上哺乳動(dòng)物訓(xùn)練計(jì)劃,并首創(chuàng)鳥兒自由飛翔秀,舉辦商業(yè)動(dòng)物展覽,其內(nèi)容包括乳豬競(jìng)賽和雞只玩圈叉游戲等,可說是一整個(gè)“IQ動(dòng)物園”。
1965年凱勒過世后,瑪蕊安嫁給首位參予研究海軍海豚科學(xué)專家貝里·鮑伯。在海洋中,海豚可以找到離訓(xùn)練者好幾哩以外的目標(biāo)物。帶著相機(jī)的貓可以沿著城市行走進(jìn)入建筑物,載著相機(jī)借由雷射光導(dǎo)向的渡鴉或其他鳥類可以飛到某座某摩天樓的特定窗戶并且照攝里面的人。普通海鷗——大自然的海洋搜尋專家,可以找到并且回報(bào)救生艇和遠(yuǎn)離岸邊的游泳者。
優(yōu)點(diǎn)
響片訓(xùn)練動(dòng)物的挑戰(zhàn)之一,就是要跟動(dòng)物溝通如何讓它們準(zhǔn)確地知道所發(fā)生的行為正是訓(xùn)練者嘗試要去加強(qiáng)的。舉一個(gè)簡(jiǎn)單的例子,訓(xùn)練狗兒退后,正當(dāng)狗兒要往后移動(dòng)的同時(shí)訓(xùn)練者馬上就要讓狗兒知道它目前所做的事是正確的。然而,以往傳統(tǒng)的口頭鼓勵(lì)方式“乖狗兒!”會(huì)花掉太多時(shí)間,在稱贊的同時(shí)狗兒可能已經(jīng)繼續(xù)其他的行為了。而當(dāng)狗兒了解它正在被獎(jiǎng)勵(lì)時(shí),這行為可能又重復(fù)了一次或甚至是坐下和搔癢。另外,不精準(zhǔn)的時(shí)間點(diǎn)和訓(xùn)練者音調(diào)所傳達(dá)的訊息也會(huì)讓實(shí)際接受的信號(hào)意思因而有所不同。在同一段訓(xùn)練時(shí)間當(dāng)中,訓(xùn)練者的聲音、發(fā)音、音調(diào)、音量和重音可能都會(huì)有所改變,這會(huì)使訓(xùn)練進(jìn)度減慢,因?yàn)閯?dòng)物必須要去理解某些變化(例如訓(xùn)練者的音量或是熱忱)是不重要的,而某些變化卻是需要去注意的(例如“好乖”或“不對(duì)”)。制約加強(qiáng)法可以解決這些問題,它使用的可以是任何一種動(dòng)物可以察覺的信號(hào),只要這信號(hào)是簡(jiǎn)短(避免不準(zhǔn)確的時(shí)間點(diǎn))而且是一致的(避免動(dòng)物對(duì)信號(hào)的變換產(chǎn)生混淆)。通常都是用響片或是信號(hào)器這種壓下和放掉時(shí)會(huì)發(fā)出“喀喀”的小型金屬片來訓(xùn)練狗或馬,至于海豚,在制約加強(qiáng)法當(dāng)中通常是使用口哨。然而并非都是使用聲音來操作制約加強(qiáng)法,我們使用手電筒快速閃光來取代響片訓(xùn)練金魚,使用會(huì)震動(dòng)的項(xiàng)圈來訓(xùn)練耳聾的狗兒。
響片訓(xùn)練當(dāng)中有幾點(diǎn)常見的問題,依賴使用響片給狗兒信號(hào)便是其中之一,響片主要是使用在教導(dǎo)新的行為,或是給予穩(wěn)定的音調(diào)獎(jiǎng)勵(lì),等過了這個(gè)階段以后響片便不需要了(或是不用依賴)。有時(shí)候狗兒發(fā)生期望中的行為時(shí)響片正好不在手邊,這時(shí)候仍然可以用其他的“喀喀”聲來代替,盡管獎(jiǎng)勵(lì)效果不如響片,但當(dāng)下發(fā)生的行為仍然還是需要被標(biāo)記。
另一個(gè)會(huì)遇到的問題是,當(dāng)團(tuán)體上課時(shí)狗兒會(huì)無法辨別哪一個(gè)響片發(fā)出來的聲音是屬于它的,然而每年有上百個(gè)響片團(tuán)體課程在舉辦,這證明了此憂慮是多余的。在某些情況當(dāng)中響片音量可能不夠大聲,例如狗兒離開操作者去做狩獵或拾回動(dòng)作,也有些狗兒對(duì)于聲音敏感或是害怕響片。針對(duì)這類狀況可以轉(zhuǎn)換標(biāo)記工具來解決問題,像是操作者在做遠(yuǎn)距離訓(xùn)練時(shí)可以使用口哨來代替,對(duì)聲音敏感的狗兒可以使用圓珠筆蓋或是訂書機(jī)取代。同樣地,當(dāng)響片訓(xùn)練已經(jīng)進(jìn)行后,也可以使用這技巧來解決很多上述提到的問題。
使用
響片訓(xùn)練第一步是讓狗兒知道響片聲音代表它們將會(huì)得到獎(jiǎng)勵(lì)。為了這么做,訓(xùn)練者會(huì)先將響片“充電”或是“裝滿料”。當(dāng)訓(xùn)練者按下響片后,立即地或同時(shí)地給予動(dòng)物獎(jiǎng)勵(lì),這獎(jiǎng)勵(lì)通常是少見的、美味的零食,大小必須是可以小到可以一口立即吃掉。(有些訓(xùn)練者會(huì)用動(dòng)物最喜愛的玩具來代替零食,然而這個(gè)作法會(huì)干擾要對(duì)動(dòng)物這加強(qiáng)物保持高度興趣的主要目的。)在每段訓(xùn)練時(shí)間內(nèi)最多重復(fù)二十次。有些動(dòng)物比較快知道這個(gè)聯(lián)結(jié),例如狗兒,通常在可以在一段訓(xùn)練時(shí)間內(nèi)約五到十次的重復(fù)就會(huì)知道響片和獎(jiǎng)勵(lì)的聯(lián)結(jié)。在訓(xùn)練進(jìn)行當(dāng)中,可以借由測(cè)試等待狗兒的注意力在其他地方時(shí)按下響片得知它們是否將響片和獎(jiǎng)勵(lì)做連結(jié),若狗兒立即看訓(xùn)練者并期待獎(jiǎng)勵(lì)代表狗兒已經(jīng)知道。之后便可以使用響片來標(biāo)記訓(xùn)練者期望發(fā)生的行為。在動(dòng)物發(fā)生期望中的行為同時(shí)訓(xùn)練者按下響片并立即給予獎(jiǎng)勵(lì)。響片訓(xùn)練重點(diǎn)在于訓(xùn)練者時(shí)間點(diǎn)的掌握,若按下響片的時(shí)間稍微太早或太遲都可能會(huì)加強(qiáng)到按下當(dāng)時(shí)正在發(fā)生的行為。另一重點(diǎn)是如何制造機(jī)會(huì)讓動(dòng)物可以頻繁地贏得獎(jiǎng)勵(lì),通常專業(yè)的狗兒訓(xùn)練者按下響片和給予獎(jiǎng)勵(lì)的頻率為兩到三秒一次。最后就算是要完成的目標(biāo)很簡(jiǎn)單也必須要把它切割成更小范圍,或是從最容易達(dá)到標(biāo)準(zhǔn)開始慢慢往前推進(jìn)。
當(dāng)狗兒要學(xué)習(xí)如何去碰觸特定目標(biāo)物時(shí),大部分一開始期望的行為都是從鼻子碰觸開始,像是用鼻子碰觸一小片塑膠,而這訓(xùn)練可以轉(zhuǎn)換成實(shí)用的任務(wù)或是有趣的把戲,像是開關(guān)燈或是想到戶外的時(shí)候搖鈴當(dāng)。
訓(xùn)練鼻子碰觸的方法從讓狗兒用鼻子去碰觸目標(biāo)物開始,有些訓(xùn)練者使用引導(dǎo)法,例如將花生奶油醬輕涂在小碟子或是塑膠目標(biāo)物上,而有的訓(xùn)練者偏愛使用雕塑法,也就是將目標(biāo)物放在容易碰觸的地方,像是手握著放在訓(xùn)練者和狗兒中間,當(dāng)狗兒一往目標(biāo)物靠近或真正碰觸就給予獎(jiǎng)勵(lì)。
當(dāng)狗兒可以不斷地碰觸目標(biāo)物后,訓(xùn)練者就可以將獎(jiǎng)勵(lì)食物去除并變換目標(biāo)物位置。最后訓(xùn)練者可以將此行為轉(zhuǎn)換成搖鈴當(dāng),舉例來說,把鈴鐺放在目標(biāo)物前面,每次狗兒都必須要先碰觸鈴鐺才會(huì)碰觸到目標(biāo)物,這時(shí)候獎(jiǎng)勵(lì)每次碰觸到鈴鐺的行為。當(dāng)狗兒可以確實(shí)碰觸鈴當(dāng)后,訓(xùn)練者加入開門的動(dòng)作來當(dāng)作獎(jiǎng)勵(lì)狗兒每次碰觸鈴當(dāng)?shù)男袨椤?/p>
訓(xùn)練馬兒的標(biāo)的物法:對(duì)馬兒來說,通常不用先將響片“充電”或是“裝滿料”,因?yàn)閷?duì)馬兒來說最好的方法就是清楚的標(biāo)記讓馬兒不要期待“尚未獲得”的零食。
訓(xùn)練方法
響片訓(xùn)練法有三種方式:一種是誘導(dǎo)法(Magnet),一種是捕捉法(Capture),另一種是塑造法(Shaping)。誘導(dǎo)法較為快速但是并不精確,常常會(huì)導(dǎo)致混淆或困惑的情況發(fā)生,捕捉法較自然而精確,但是初期訓(xùn)練時(shí)間較長。塑造法其實(shí)是將欲訓(xùn)練的行為或動(dòng)作分解成許多相近的步驟再一一以捕捉法訓(xùn)練并連貫相近的步驟來連成我們欲訓(xùn)練的行為或動(dòng)作。
誘導(dǎo)法(Magnet):利用零食誘導(dǎo)狗狗產(chǎn)生訓(xùn)練者期望的行為或動(dòng)作一但狗狗做對(duì)了,按下響片,并隨之給予零食獎(jiǎng)勵(lì)。
捕捉法(Capture):完全不使用零食、手勢(shì)或聲音…等提示,細(xì)微地觀察狗狗的行為或動(dòng)作,一但狗狗發(fā)生訓(xùn)練者期望的行為或動(dòng)作時(shí),立刻按下響片并隨之給予零食獎(jiǎng)勵(lì)。
塑造法(Shaping):訓(xùn)練過程中完全不使用零食或手勢(shì)等提示,細(xì)微地觀察狗狗的行為或動(dòng)作,一旦狗狗開始「朝向」訓(xùn)練者期望的行為或動(dòng)作反應(yīng)時(shí),立刻按下響片并隨之給予零食獎(jiǎng)勵(lì)。也可以說是將訓(xùn)練者期望的行為或動(dòng)作分解步驟,各步驟都以捕捉法來訓(xùn)練,逐漸連成訓(xùn)練者期望的行為或動(dòng)作。
相關(guān)獎(jiǎng)勵(lì)
為了區(qū)分出響片訓(xùn)練,以下描述四處通常會(huì)發(fā)生誤解的地方:
獲得行為和獎(jiǎng)\勵(lì)時(shí)機(jī)的差異,兩項(xiàng)重大差異則是給予零食的方式及狗兒不出現(xiàn)行為時(shí)的訓(xùn)練者反應(yīng)
零食給予的方式
利用行為標(biāo)定訊號(hào)(例如響片)的一大好處就是能夠改變零食給予的方式,它比其他訓(xùn)練方法更能有效增進(jìn)訓(xùn)練成效及加快進(jìn)展。
利用誘導(dǎo)法時(shí),狗兒在達(dá)成誘導(dǎo)姿勢(shì)或依訊號(hào)出現(xiàn)姿勢(shì)時(shí)獲得零食,例如誘導(dǎo)狗兒趴下就以趴姿獲賞。訓(xùn)練等待不動(dòng)時(shí),狗兒必須留在原地才能獲賞,如果它在獲賞前移動(dòng)了就不給賞。
響片訓(xùn)練時(shí),既然響片已標(biāo)定成功的當(dāng)下,使行為終結(jié),狗兒不必保持姿勢(shì)或位置也會(huì)獲賞,響片訓(xùn)練者可針對(duì)每個(gè)行為選擇最有效率的零食給予方式,藉以加速學(xué)習(xí),下列一些例子顯示行為標(biāo)定訊號(hào)出現(xiàn)之后如何運(yùn)\用零食增進(jìn)并加速訓(xùn)練:
使行為回到起點(diǎn):例如訓(xùn)練趴下時(shí),當(dāng)狗兒趴下,訓(xùn)練者按下響片,接著把零食遞到它得站起來才吃得到的地方或丟到不遠(yuǎn)處,讓它起身去取,狗兒吃下零食后即可再度趴下,如果喂到狗兒嘴里讓它保持不動(dòng)姿勢(shì),你將多出一個(gè)必須讓它改變姿勢(shì)才能再度出現(xiàn)行為的步驟;誘導(dǎo)獎(jiǎng)\勵(lì)法通常會(huì)利用來回誘導(dǎo)兩個(gè)姿勢(shì)解決這個(gè)問題,例如誘導(dǎo)站起來再誘導(dǎo)趴下去。
定位獎(jiǎng)\勵(lì):響片訓(xùn)練者當(dāng)然也會(huì)在原地獎(jiǎng)\勵(lì),例如訓(xùn)練長時(shí)間行為(例如等待不動(dòng)或休息)時(shí),響片聲標(biāo)定時(shí)間已結(jié)束,訓(xùn)練者可能就地獎(jiǎng)\勵(lì)狗兒,減少重新調(diào)整姿勢(shì)的必要性。訓(xùn)練位置相關(guān)的行為(例如:腳側(cè)隨行)時(shí),直接在定位給予獎(jiǎng)勵(lì)很有效,但并不是非這樣做不可。如果狗兒在響片聲后離開位置,它仍然可獲賞,因?yàn)轫懫緛砭痛斫K結(jié)行為。
影響整體反應(yīng):給予零食的方式有助提高活潑度或使過於激動(dòng)的狗兒冷靜下來,例如,按響片后定位喂食或減少多馀的喂食動(dòng)作可導(dǎo)致較冷靜的反應(yīng),從另一方面來看,把零食滾到地上讓狗兒追著它跑可能會(huì)提高興奮度。.
要的是動(dòng)態(tài)行為:當(dāng)想訓(xùn)練的行為是退后或遠(yuǎn)離的動(dòng)作,給予零食的方式可以讓狗兒回到起點(diǎn),這時(shí)不同於定位予賞的是,訓(xùn)練者在狗兒尚在動(dòng)作進(jìn)行當(dāng)中即按下響片,不會(huì)等到它完成整個(gè)動(dòng)作,例如當(dāng)它往后退,響片告訴它動(dòng)作沒有錯(cuò),在它回到訓(xùn)練者面前領(lǐng)賞后即能夠再度出現(xiàn)動(dòng)作,增強(qiáng)動(dòng)態(tài)動(dòng)作時(shí)若不利用標(biāo)定訊號(hào)將狠困難。
增加距離:響片訓(xùn)練者狠快便能遠(yuǎn)離狗兒,例如訓(xùn)練狗兒走向標(biāo)的物或訓(xùn)練遠(yuǎn)距離訊號(hào)反應(yīng),由於狗兒成功出現(xiàn)行為時(shí)零食不必即時(shí)出現(xiàn)眼前,訓(xùn)練者也不必在它眼前。誘導(dǎo)式訓(xùn)練時(shí),零食必須刻意放在標(biāo)的物上某處(通常設(shè)計(jì)起來不容易),或者訓(xùn)練者只能一點(diǎn)一點(diǎn)地,慢慢拉長離開的距離。
時(shí)間:若使用行為標(biāo)定訊號(hào),增強(qiáng)物不必立刻在行為發(fā)生后出現(xiàn),舉例來說,如果獎(jiǎng)\勵(lì)是到屋外玩耍,在響片標(biāo)定行為之后,人走到門口、打開門再讓狗兒出門時(shí)可能已經(jīng)過一段時(shí)間。有了這個(gè)行為標(biāo)定訊號(hào)的好處,響片訓(xùn)練者可利用狠多活動(dòng)作為獎(jiǎng)\勵(lì),但誘導(dǎo)式訓(xùn)練者多半無法這麼做。
不出現(xiàn)動(dòng)作
講座示范上,第一次看見從未受訓(xùn)的狗兒或幼犬接受響片訓(xùn)練的人總是不可思議地發(fā)出驚嘆,目睹從未受訓(xùn)的狗兒沒有聽過響片,在幾分鐘之內(nèi)即能開心沖到被子上趴下,看來真是神奇,它迅速使狗兒出現(xiàn)一連串看似復(fù)雜的行為,首次見識(shí)的人不得不對(duì)這種魔力印象深刻,他們是看到了,也相信它有可能──只要訓(xùn)練者經(jīng)驗(yàn)老道,但是要他們產(chǎn)生信任,相信這種不作任何指引、不用暴力或肢體、也不作任何控制的作法對(duì)自家的狗真會(huì)有用?這對(duì)任何初入門的響片訓(xùn)練者都是狠大的問號(hào),對(duì)於來看誘導(dǎo)背景、習(xí)慣狗兒出現(xiàn)機(jī)械化自動(dòng)反應(yīng)的人尤其困難,雖然自動(dòng)反應(yīng)并非「學(xué)習(xí)」,即時(shí)的成就感對(duì)於誘導(dǎo)者具有高度增強(qiáng)作用。
剛開始時(shí),很不容易相信響片這一套會(huì)管用──人們必須有耐性,讓響片進(jìn)行溝通。人類的天生傾向是減輕學(xué)習(xí)壓力──減少狗兒當(dāng)下的混淆或可能出現(xiàn)的混淆,急著幫忙狗兒是人們最隱而不見的習(xí)性,尤其是誘導(dǎo)式跨域訓(xùn)練者──狗兒看來困惑時(shí)就幫它,狗兒挫折時(shí)也幫它,狗兒無助也拯救它。當(dāng)訓(xùn)練者喪失對(duì)於訓(xùn)練方法的自信時(shí),誘導(dǎo)法可以填補(bǔ)空缺。
於是當(dāng)狗兒不提供某項(xiàng)行為(無論是何項(xiàng)行為),訓(xùn)練者拿出零食作誘導(dǎo),讓它知道該做什麼,然后再試看看,情況又一樣,狗兒沒法出現(xiàn)行為;零食再度出現(xiàn),再度誘導(dǎo)它出現(xiàn)行為。訓(xùn)練者誤以為這麼做就能讓它懂,它是懂得某件事,但是并不是訓(xùn)練者希望的那件事:狗兒學(xué)習(xí)到什麼都不要做,直到訓(xùn)練者拿出零食,然后跟著零食動(dòng)就能得賞,結(jié)果『沒反應(yīng)的行為受到增強(qiáng)』(或可稱為習(xí)得無助)。
狗兒不動(dòng)的反應(yīng)并不是意識(shí)下的抉擇,它沒有坐在那兒想著:「我知道該做什麼,但是我不會(huì)這麼做。」其實(shí)是因?yàn)樗鼪]有反應(yīng)的等待行為帶來了好的后果。
更糟的是,訓(xùn)練者誤以為問題是狗兒只是需要多幾次示范,誘導(dǎo)幾次之后就決心試圖塑形行為或等待它行為出現(xiàn),所以他試著和狗兒比耐心──看看是否能等到它出現(xiàn)行為,可是狗兒不會(huì)這麼做,畢竟它已學(xué)會(huì)沒反應(yīng)才會(huì)獲賞──只要等著跟隨誘導(dǎo)就好。當(dāng)訓(xùn)練者等得久一些,但終究仍掏出零食誘導(dǎo),這麼做只會(huì)拉長狗兒等待零食出現(xiàn)的時(shí)間,不但增強(qiáng)等待行為,而且也使這個(gè)等待的行為受到隨機(jī)增強(qiáng),變得更不易消失。
無論是否給予訊號(hào),如果狗兒不出現(xiàn)動(dòng)作之后人們無法克制想誘導(dǎo)的沖動(dòng),可能會(huì)一路每況愈下,最后到了訓(xùn)練者所謂的『頑固』地步:「我家狗拒絕服從我,他知道我要什麼,但是它就是不干。」如果狗兒知道我們要什麼,也知道它照做會(huì)獲得狠高報(bào)酬,但它仍拒絕這麼做?誘導(dǎo)時(shí)它完全會(huì)樂意配合,所以既然它不愿出現(xiàn)行為,它一定是『故意上』訓(xùn)練者?我們真能相信狗會(huì)這麼做?當(dāng)然不是,答案是訓(xùn)練者訓(xùn)練了這種持之以恒的等待行為。
我十分同情落入這種陷阱的訓(xùn)練者──畢竟,我們都只是想幫幫狗兒,但是暫緩的作法是錯(cuò)的,這種幫助它的作法會(huì)消除讓它自己去發(fā)現(xiàn)、去學(xué)習(xí)的能力,而這種能力對(duì)狗兒或訓(xùn)練者有太大的好處了!
好消息是,只要訓(xùn)練者意識(shí)到自己無意的行為,并且去除自己想去幫它的沖動(dòng)──花些時(shí)間比耐性,撐得比它久,訓(xùn)練就會(huì)往前邁一大步,而且看見狗兒腦子燈泡亮了的頓悟時(shí)刻,這種刺激和興奮也值得耐心等待。
參考資料 >
寵物界都這么卷了!北大女博士做寵物健身師:帶寵物來健身的主人99%都是女生.今日頭條.2023-12-20
千億級(jí)寵物市場(chǎng)興起 擴(kuò)大新職業(yè)“蓄水池”-新聞?lì)l道-淮南新聞網(wǎng).淮南新聞網(wǎng).2023-12-20