Transformer の Encoder 部分を利用した LLM. 正解文からある程度の語句をマスク処理した穴埋め問題と、文章の関連性判定問題を同時に事前学習することが特徴。
これにより、個別タスクへファインチューニングした後の性能が向上した、とのこと。
LLM
大規模言語モデル。 サービスとして展開されている場合、入力と出力の合計のトークン分だけを、良い感じに処理できるように学習したモデルのこと。
Transformer
Multi-Head Attention + FFNN (3層パーセプトロン) を基本として、それを積み重ねた形をしているニューラルネットワークのモデル
2021 A Survey of Transformers
これまでに、 Transformer にどのようなアプリケーションがあったのか、それらの性質はどんなんだったのかをまとめた論文。
2023/05/17 -- CyberAgent が LLM をリリースした
以下、ソース:
Claude
100k トークンな LLM Anthropic 社がリリース?
FlexGen
家の PC でも LLM を動くようにしたツール。 PyTorch の上に構築される。
GPT
Decoder のみで構築される Transformer であって、 web 上のデータに対して大規模自己学習したもの。
Jupyter AI
例えば ChatGPT は、 LLM をバックエンドとして持つような、 web integration のプロダクトであって、その integration を Jupyter の文脈で行ったもの。
LangChain Agent
LangChain の機能の一つ。 LLM に「作業手順書」を出力させ、その手順をプログラム(アプリ)側で実行していくプロンプトエンジニアリングの手法の実装。
LangChain
LLM をシステムに integration していくための機能たちをまとめたライブラリ。
LLM のコピー容易性
LLM は、ある意味どのようにファインチューニングするかが本質であり、入力と出力が観測できれば、それを再現するのは容易いのではないか、という話。
LLaMa
Meta 社が開発した、 GPT-3 相当の LLM. ひとまずは研究者のみに公開。