スキナーボックスでトレーニングを自動化しよう！

2026年3月12日

こんにちは、直人です！

今回は私が研究所で動物の行動研究（マウスのオペラント行動課題の考案）をしていたときの内容を一部改変して紹介します。

下記の記事でスキナーボックスの作り方を紹介しました。

本記事では、スキナーボックスの「オペラント条件付けの行動課題」の作り方についてです。

私はマウスに対して、「ある刺激が提示され、その刺激が正しければレバーを押す。間違っていればレバーを押さない」ということを学習させる行動課題を作ることをスキナーボックスを用いて行っていました。

この行動課題で「認知」「記憶」を調べることができます。

マウスは結構手が器用で、「レバーを押すたびに報酬が出る」ようにしておくと、割とすぐにレバーを押すようになります。

報酬はマウスのエサ（固形ペレット）、おやつ（コンデンスミルク）などです。

私が研究していたときは摂水制限をして、水を報酬に使っていました。

強化スケジュール

報酬（エサ）を与える「頻度」を調整することで、学習を早く成立させる、学習を定着させる（忘れにくくする）ことができるようになります！

連続強化：レバーを押す度に毎回報酬（エサ）を与える　※学習を早く成立させる
間欠強化：レバーを押して報酬（エサ）が出る頻度を低くしていく（ランダムに報酬を与える）　
※学習を定着させる（忘れにくくする）
（例えば、レバー押しを3回に1回、5回に1回、10回に1回報酬を与える）

学習のはじめのうちは毎回報酬を与え、慣れてきたら報酬を与える頻度を下げていく（たまに嬉しいことが起こる）ことで学習が定着します！

「ギャンブル」は間欠強化の一種で、稀にすごいリターンがあるため、なかなかその快感が忘れられない

ずっと連続強化（毎回報酬を与える）だと、途中から「どうせこうすれば報酬もらえるんでしょ！」と言わんばかりに怠けるようになります(^^;)

ここで、間欠強化（慣れてきたら報酬を与える頻度を下げていく、ランダムに報酬を与える）のステップを入れることで、おそらく「今までと違う！？」「どうすれば報酬がもらえる？？」と考えるようになるようで、学習が定着すると考えられます。

ここで注意なのが、間欠強化で極端に頻度を下げる（例えば、100回レバーを押したら1回報酬がもらえる）と「こんなにやっているのに、これっぽっちの報酬か、、、」となり、やる気を失ってやらなくなります。

なんか人間みたいですねwww

これは学習心理学の「オペラント条件付け」に基づいているので、マウスだけでなく人間や他の動物でも大体当てはまります。

連続強化と間欠強化を使い分けよう！

このように「レバーを押す」ということを学習させることは比較的簡単です。

次のステップで、「この刺激にはレバーを押す」「あの刺激ではレバーを押さない」ということを学習させることで、マウスの「認知」について調べることができるようになります。

つまり、マウスが”状況を読み取って、正しい行動を選ぶ力”を調べることができます！

イヌを飼っている方は実感があるかと思いますが、エサを与えるときに「おすわり」「お手」「伏せ」など一回覚えてしまえば、すぐにやると思います。ただ早くエサが食べたい欲求が強いため「待て」が苦手なのではないでしょうか？

「待て」の間、キャンキャン鳴いたり、ソワソワしたり、エサを見ないようにしたり、、、

マウスでも「待て」を教えることがとても大変でした。

マウスに反応させることは簡単だが、反応してはいけない刺激が提示されたときに「反応しない（待て）」ようにすることがとても難しい！

弁別学習

弁別学習とは、「刺激を見分けて、正しい行動を選ぶ」ことです。

この弁別学習をどのように学習させるかを紹介していきます。

上のフローチャートの用語についてです。

＜刺激＞

例）「LEDの色」や「LEDが点灯する位置」など

CS+：反応してほしい刺激、CS-：反応してはいけない刺激

100トライアル（全トライアル数）のうち”CS+”と”CS-“が50：50で提示されるように調整する

＜遅延時間＞

「刺激の提示」から「反応可能時間」の間の待ち時間

＜反応可能時間の”反応の分類”＞

Miss：CS+に対して反応しなかった（待った）＝失敗
Hit：CS+に対して反応した（レバーを押した）=正解
Correct rejection：CS-に対して反応しなかった（待った）=正解
False alarm：CS-に対して反応してしまった（レバーを押した）=失敗

正解率（％）＝”Hit”+”Correct rejection”/全トライアル数　×100

＜ブザー（4kHz,70dB）＞

False alarm（＝失敗）を知らせる合図

＜タイムアウト＞

何をしても10秒間何も起こらない時間帯

タイムアウトは反応を「無視」するマイルドな嫌悪刺激

反応してはいけない刺激が提示されたときに「反応しない（待て）」ようにすることがとても難しいと書きましたが、

「反応しない（待て）」＝「レバーを押す」反応を減らす方法は、レバーを押した後に「嫌悪刺激」を与えることです。

これはオペラント条件付けの「正の罰」に当たります。

一昔前は嫌悪刺激に「電気ショック」を与えていたようですが、動物倫理の問題で使ってはいけないとされています。

「マイルドな嫌悪刺激」（地味に嫌な刺激）の例は、

タイムアウト（無視する）
ブラックアウト（真っ暗にする）
エアパフ（顔に風を吹きかける）
ミスト（顔に霧を吹きかける）　　など

いろいろ試してみましたが、「タイムアウト」が一番上手くいきました！

これを何日も続けていくと、個体差はありますが正解率が上がっていきます。

学習成立＝”3日連続”で”正解率70％以上”と定義した

片方の刺激で学習が成立したら、CS+とCS-は入れ替えてトレーニングをやり直します。

例）「CS+：LED赤色、CS-：LED緑色」　→　「CS+：LED緑色、CS-：LED赤色」

入れ替えてすぐは正解率が低いですが、コツを掴んでいるためか、すぐに正解率が上がっていきました！

これは「こういうタイプの問題は、こうやって解けばいいんだな」という”学び方のコツ”を身につけることで、

これを「学習セット」といいます。

作業記憶（ワーキングメモリー）

弁別学習ができたら、さらにステップアップした課題を行いました。

それはワーキングメモリー課題です。

ワーキングメモリーとは、「今この瞬間に必要な情報を、短い間だけ頭の中で覚えておく力」のことで、

マウスが、刺激（CS+/CS-）を短い間覚えておいて、レバーを押すか押さないか判断するものです。

この赤枠の「遅延時間」を長くしていけばワーキングメモリーを調べることができます。

私がやった研究では、マウスは遅延時間「10秒間」までは正解率70％以上を維持できました。

（遅延時間を10秒より長くしていくと正解率は下がっていく）

私はワーキングメモリーが弱い方だと自覚があるので、「マウスの方がすごいかも、、、」と焦りました(^^;)

今回の記事はマウスをはじめ、動物の「学習」を調べる行動研究の1つです。

他にも動物の”「好奇心/不安」を調べる行動研究”や”迷路を使った「学習」を調べる行動研究”などもあります。

研究というと「難しい」という印象があるかと思いますが、行動研究は見ていてとても面白く、

動物が成長（学習）していく様子や能力を垣間見ることができます！

他の行動研究も紹介していきますので、またお付き合いください♪

それでは、また！

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

この記事を書いた人

naoto_admin

スキナーボックスでトレーニングを自動化しよう！

この記事を書いた人

コメント

コメントするコメントをキャンセル

スキナーボックスでトレーニングを自動化しよう！

この記事を書いた人

関連記事

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル