すごく大雑把に考えて、Attention機構がトークンが持つベクトルのうちの一つの次元を強調するものなら、assocリストの一つの要素を選択するのとあまり変わらないのではないか。
一つのassocリストの処理だけを考えると非常に離散的だけど、同じようなassocリストが集団となって処理される場合、大域的に見ると連続的な操作・学習のためのバックプロパゲーションも可能なのではないか。
もしそれがうまく行くなら、学習・推論のための電力消費を減らせるかもしれない。
例えば、SSD上に多数のリストを保管し、処理過程ではそのうちの一部のリストがメモリに載るだけとなる。その「一部」の選択はある程度ランダムなものである。(大脳の神経系も記憶集団のうち一部の神経しか発火していないのではないかとも思っている。)
投稿者: 宮地 敏明
Chat with RTX で Mistral 7B int4
nVIDIA が提供している Chat with RTX は Windows11 で動く。
メモリは2.5GB程度消費してて、ディスクは30GBを越えた程度諸費。
試したのはRTX3060をつけた自作機だけど結構速い応答をする。
![](https://www.taifu.jp/shokai/wp-content/uploads/2024/04/2024-04-24-002908-1024x518.png)
Ollama で Gemma
すでに日本語が使えるモデルが公開されていました。
https://ollama.com/library/gemma
LLM(大規模言語モデル)が皮肉にも量子化技術によりどんどん小型化しているようです。
とりあえず Gemma の 7b(70億パラメータ)版を動かしてみました。
![](https://www.taifu.jp/shokai/wp-content/uploads/2024/04/Screenshot-from-2024-04-16-05-24-54-1024x578.png)