MENU

スキナーボックスでトレーニングを自動化しよう!

こんにちは、直人です!

今回は私が研究所で動物の行動研究(マウスのオペラント行動課題の考案)をしていたときの内容を一部改変して紹介します。

下記の記事でスキナーボックスの作り方を紹介しました。

あわせて読みたい
ネズミがスイッチを押す!? こんにちは、直人です! 今回のタイトル「ネズミがスイッチを押す!?」を見て、「本当?」と思った方いるのではないでしょうか? たまに町中でもドブネズミが食べ物を...

本記事では、スキナーボックスの「オペラント条件付けの行動課題」の作り方についてです。

マウスがレバーを押している様子

私はマウスに対して、「ある刺激が提示され、その刺激が正しければレバーを押す。間違っていればレバーを押さない」ということを学習させる行動課題を作ることをスキナーボックスを用いて行っていました。

この行動課題で「認知」「記憶」を調べることができます。

マウスは結構手が器用で、「レバーを押すたびに報酬が出る」ようにしておくと、割とすぐにレバーを押すようになります。

報酬はマウスのエサ(固形ペレット)、おやつ(コンデンスミルク)などです。

私が研究していたときは摂水制限をして、水を報酬に使っていました。

強化スケジュール

報酬(エサ)を与える「頻度」を調整することで、学習を早く成立させる、学習を定着させる(忘れにくくする)ことができるようになります!

  • 連続強化:レバーを押す度に毎回報酬(エサ)を与える ※学習を早く成立させる
  • 間欠強化:レバーを押して報酬(エサ)が出る頻度を低くしていく(ランダムに報酬を与える) 
    ※学習を定着させる(忘れにくくする)
    (例えば、レバー押しを3回に1回、5回に1回、10回に1回報酬を与える)

学習のはじめのうちは毎回報酬を与え、慣れてきたら報酬を与える頻度を下げていく(たまに嬉しいことが起こる)ことで学習が定着します!

「ギャンブル」は間欠強化の一種で、稀にすごいリターンがあるため、なかなかその快感が忘れられない

ずっと連続強化(毎回報酬を与える)だと、途中から「どうせこうすれば報酬もらえるんでしょ!」と言わんばかりに怠けるようになります(^^;)

ここで、間欠強化(慣れてきたら報酬を与える頻度を下げていく、ランダムに報酬を与える)のステップを入れることで、おそらく「今までと違う!?」「どうすれば報酬がもらえる??」と考えるようになるようで、学習が定着すると考えられます。

ここで注意なのが、間欠強化で極端に頻度を下げる(例えば、100回レバーを押したら1回報酬がもらえる)と「こんなにやっているのに、これっぽっちの報酬か、、、」となり、やる気を失ってやらなくなります。

なんか人間みたいですねwww

これは学習心理学の「オペラント条件付け」に基づいているので、マウスだけでなく人間や他の動物でも大体当てはまります。

連続強化と間欠強化を使い分けよう!

このように「レバーを押す」ということを学習させることは比較的簡単です。

次のステップで、「この刺激にはレバーを押す」「あの刺激ではレバーを押さない」ということを学習させることで、マウスの「認知」について調べることができるようになります。

つまり、マウスが”状況を読み取って、正しい行動を選ぶ力”を調べることができます!

イヌを飼っている方は実感があるかと思いますが、エサを与えるときに「おすわり」「お手」「伏せ」など一回覚えてしまえば、すぐにやると思います。ただ早くエサが食べたい欲求が強いため「待て」が苦手なのではないでしょうか?

「待て」の間、キャンキャン鳴いたり、ソワソワしたり、エサを見ないようにしたり、、、

マウスでも「待て」を教えることがとても大変でした。

マウスに反応させることは簡単だが、反応してはいけない刺激が提示されたときに「反応しない(待て)」ようにすることがとても難しい!

弁別学習

弁別学習とは、「刺激を見分けて、正しい行動を選ぶ」ことです。

この弁別学習をどのように学習させるかを紹介していきます。

上のフローチャートの用語についてです。

<刺激>

例)「LEDの色」や「LEDが点灯する位置」など

CS+:反応してほしい刺激、CS-:反応してはいけない刺激

100トライアル(全トライアル数)のうち”CS+”と”CS-“が50:50で提示されるように調整する

<遅延時間>

「刺激の提示」から「反応可能時間」の間の待ち時間

<反応可能時間の”反応の分類”>

  • Miss:CS+に対して反応しなかった(待った)=失敗
  • Hit:CS+に対して反応した(レバーを押した)=正解
  • Correct rejection:CS-に対して反応しなかった(待った)=正解
  • False alarm:CS-に対して反応してしまった(レバーを押した)=失敗

正解率(%)=”Hit”+”Correct rejection”/全トライアル数 ×100

<ブザー(4kHz,70dB)>

False alarm(=失敗)を知らせる合図

<タイムアウト>

何をしても10秒間何も起こらない時間帯

タイムアウトは反応を「無視」するマイルドな嫌悪刺激

反応してはいけない刺激が提示されたときに「反応しない(待て)」ようにすることがとても難しいと書きましたが、

「反応しない(待て)」=「レバーを押す」反応を減らす方法は、レバーを押した後に「嫌悪刺激」を与えることです。

これはオペラント条件付けの「正の罰」に当たります。

あわせて読みたい
オペラント条件付けってなに? こんにちは、直人です! 今回は「オペラント条件付け」について紹介します。 オペラント条件付けは学習心理の領域で、子どもや部下などの教育や動物のトレーニングにも...

一昔前は嫌悪刺激に「電気ショック」を与えていたようですが、動物倫理の問題で使ってはいけないとされています。

「マイルドな嫌悪刺激」(地味に嫌な刺激)の例は、

  • タイムアウト(無視する)
  • ブラックアウト(真っ暗にする)
  • エアパフ(顔に風を吹きかける)
  • ミスト(顔に霧を吹きかける)  など

いろいろ試してみましたが、「タイムアウト」が一番上手くいきました!

これを何日も続けていくと、個体差はありますが正解率が上がっていきます。

学習成立=”3日連続”で”正解率70%以上”と定義した

片方の刺激で学習が成立したら、CS+とCS-は入れ替えてトレーニングをやり直します。

例)「CS+:LED赤色、CS-:LED緑色」 → 「CS+:LED緑色、CS-:LED赤色」

入れ替えてすぐは正解率が低いですが、コツを掴んでいるためか、すぐに正解率が上がっていきました!

これは「こういうタイプの問題は、こうやって解けばいいんだな」という”学び方のコツ”を身につけることで、

これを「学習セット」といいます。

作業記憶(ワーキングメモリー)

弁別学習ができたら、さらにステップアップした課題を行いました。

それはワーキングメモリー課題です。

ワーキングメモリーとは、「今この瞬間に必要な情報を、短い間だけ頭の中で覚えておく力」のことで、

マウスが、刺激(CS+/CS-)を短い間覚えておいて、レバーを押すか押さないか判断するものです。

この赤枠の「遅延時間」を長くしていけばワーキングメモリーを調べることができます。

私がやった研究では、マウスは遅延時間「10秒間」までは正解率70%以上を維持できました。

(遅延時間を10秒より長くしていくと正解率は下がっていく)

私はワーキングメモリーが弱い方だと自覚があるので、「マウスの方がすごいかも、、、」と焦りました(^^;)

今回の記事はマウスをはじめ、動物の「学習」を調べる行動研究の1つです。

他にも動物の”「好奇心/不安」を調べる行動研究””迷路を使った「学習」を調べる行動研究”などもあります。

研究というと「難しい」という印象があるかと思いますが、行動研究は見ていてとても面白く、

動物が成長(学習)していく様子や能力を垣間見ることができます!

他の行動研究も紹介していきますので、またお付き合いください♪

それでは、また!

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

コメント

コメントする

目次