【G検定】用語・暗記項目の膨大なまとめ
G検定の学習・試験当日の調べ物用に、用語や暗記項目をまとめました。
G検定では、試験中に書籍やインターネットを利用しての調査が許可されていますが、知識だけでない判断力も問われます。
また、この記事では計算問題と法律は基本的に取り扱っていません。とくに法律問題については、最新の情報を直前に調査し、独自にまとめておくことをおすすめします。
また、問題数が多い試験ですので、可能な限り検索に頼らず、解答できる実力を身に着けることをおすすめします(試験合格には、簡単な問題には即答できる能力が求められます)。
G検定で出てきそうな用語まとめ
人工知能(AI:Artificial Intelligence)
言語の理解や推論、問題解決などの知的行動を人間に代わってコンピューターに行わせる技術。または、計算機(コンピュータ)による知的な情報処理システムの設計や実現に関する研究分野です。1565年にアメリカで開催されたダートマス会議にて、AI(Artificial Intelligence)という名称がジョン・マッカーシーによって提出し、採用されました。
機械学習(Machine Learning)
人工知能の手法の一つで、人間の学習・予測能力を、人間にルールを与えられずに、コンピュータ自らが実現する技術・手法の総称。
機械学習のアルゴリズムに「教師あり学習」「教師なし学習」「強化学習」があります。アーサー・サミュエルによると、機械学習の主な目的は「明示的なプログラムを書くことなくコンピュータを動作させる」となっています。
ディープラーニング(深層学習)
機械学習の一種。ディープニューラルネットワークを用いた学習を行う機械学習のアルゴリズムです。ニューロンを大量につないで出来るニューラルネットワークの中で特に層が深いものをさします。技術としては2010年頃から注目を浴びるようになりましたが、アルゴリズムは1960年代には考案されています。
ディープラーニングにより、強化学習、次元削除、画像認識、音声認識、自然言語処理など、幅広い分野が発展しました。
教師あり学習
教師あり学習は、教師データ(入力とそれに対する正解ラベルの組)を使い、予測値を正解ラベルに近づけるための機械学習の手法です。
教師あり学習は、更に大きく2種類に分類でき、出力地の予測を行う「回帰」、あらかじめ設定したクラスタに割り振る「分類(クラスタリング)」があります。
回帰(単回帰分析・重回帰分析)
代表的な手法には「線形回帰」があり、線形回帰には更に「単回帰分析」と「重回帰分析」があります。短回帰分析は、1つの説明変数(文脈によっては特徴量と呼ばれます)から目的変数を予測する手法であり、重回帰分析は、複数の説明変数から目的変数を予測する手法です。
また、サポートベクターマシンを回帰問題に利用した手法に、サポートベクター回帰があります。
重回帰分析においては、特徴量同士の相関係数(相関の強さ)が高い(1か-1に近い)組を同時に利用すると、予測がうまくいかなくなる現象が発生します。これを多重共線性(multicollinearity、マルチコ)と呼びます。
分類(クラスタリング)
代表的な手法には「決定木」「サポートベクターマシン」「ランダムフォレスト」「ベイジアンネットワーク」「ロジスティック回帰」「kNN法」などがあります。
テストデータと検証データと訓練データ
教師あり学習の評価のためのデータとして、テストデータと検証データがあります。テストデータは正解ラベルがあるとは限らないデータであり、検証データは正解ラベルがあることが確実なデータです。
また、学習に用いる分の教師データを訓練データと呼びます。
ホールドアウト法と交差検証(クロスバリデーション)
ホールドアウト法と交差検証は、どちらも過学習を起こしていないかを調べる手法です。
事前に訓練データとテストデータを分割し、過学習を防ぐための手法をホールドアウト法と呼びます。
また、データをいくつかに分割し、テストデータに用いるブロックを順に変化させながらホールドアウト法で検証を行う手法を交差検証(クロスバリデーション)と呼びます。
教師なし学習
教師なし学習は、教師データを使わず、データの本質的構造を浮かび上がらせる手法です。代表的な手法は、クラスタリングと次元削除になります。
クラスタリング
クラスタリングは、クラスそのものをデータ構造から浮かび上がらせる手法の総称です。代表的手法としては「k-means法(K平均法)」があります。教師あり学習の「分類(クラス分類)」とは異なり、あらかじめ設定されたクラスは存在しません。
次元削除(Dimensionality Reduction)
次元削除は、データの情報を損なわずに、データを低次元に圧縮する手法の総称です。代表的な手法としては「主成分分析」があります。
強化学習
強化学習は、報酬の和が最大になるような方策を獲得することを目的とした手法です。強化学習で登場する用語をまとめると、以下のようになります。
- エージェント:行動する主体。ゲームのプレーヤーなど
- 状態:エージェントが置かれている環境
- 行動:エージェントが取る行動
- 収益:エージェントが行動によって環境から得られる報酬
- 価値関数:得られる収益の期待値を表す関数
- 方策:ある状態において、どの行動をとるべきかを示す関数。簡単にいえば、行動を選ぶ方針。
また、深層学習を使用した強化学習を深層強化学習と呼び、最も基本的な手法としてDQN(Deep Q-Network)を用いた深層強化学習があります。深層強化学習は、行動価値関数(ある状態における、ある行動による価値を示す関数)の近似値計算に利用されます。
パーセプトロン
パーセプトロンは、(人工)ニューロンやニューラルネットワークの一つで、フランク・ローゼンブラッドにより1957年に考案され、1958年の論文で発表されました。
パーセプトロンの内、単純パーセプトロンは入力と出力層の2層からなり線形非分離な問題を解けないもの、多層パーセプトロン(MLP)は3層以上のノードを持ち誤差逆伝播法を利用するものを指します。
ニューロン
ニューロンとは、ニューラルネットワークの最小単位です。人間の脳の神経細胞を信号が伝わっていく様子を模倣した構造をしています。
ニューロンには重みづけされた入力とバイアスが入り、それらの総和が活性化関数により変換され、変換されたものが出力となります。
G検定ではニューロンにおける計算問題が登場することがあります。計算の方法は簡単ですが、知らない方はテキストや問題集などで学習しておくことをおすすめします(一応、参考にG検定レベルに対応できるリンクも貼っておきます)。
ニューラルネットワーク(NN)
ニューラルネットワークは、脳内の神経回路の一部を模した数理モデルやパーセプトロンを複数組み合わせた物です。ニューロンと呼ばれる予測器が最小単位となり、ニューロンをつなげることで実現する予測器がニューラルネットワークになります。
ニューラルネットワークを図示した場合、左から入力された値が演算を繰り返し行われながら右側に伝わり、出力となります。入力が行われる左端の層を「入力層」、中間になる部分を「中間層(隠れ層)」、右端の出力が行われる層を「出力層」と呼びます。
ネオコグニトロン(neocognitoron)
ネオコグニトロンとは、1980年代に福島邦彦によって提唱された階層的、多層化された人工ニューラルネットワークであり、手書き文字認識やパターン認識の課題に用いられました。
畳み込みニューラルネットワークの発想の元にもなりました。ネオコグニトロンと畳み込みニューラルネットワークの主な違いは学習方法で、ネオコグニトロンは「add-if silent」という学習方法を用いるのに対し、畳み込みニューラルネットワークでは「誤差逆伝播法」を用います。
ネオコグニトロンは、1959年に提唱されたカスケードモデルが自然に発展したものであり、複数の細胞から構成され、とくに「S細胞」と「C細胞」が重要になります。局所特徴量は「S細胞」に抽出され、微小変異といったこれらの特徴の変形はC細胞にゆだねられます。また、入力中の局所特徴量は、隠れ層によって徐々に統合され、分類されます。
ディープニューラルネットワーク(DNN)
ディープニューラルネットワークは、(狭義には)4層以上の多層ニューラルネットワークにより機械学習を行う手法。中間層(隠れ層が)2層以上になるニューラルネットワークですが、長年中間層が2層以上になると精度が出なくなる問題がありました(ディープラーニングのアルゴリズムは1960年代には考案されていました)。
ディープニューラルネットワークにおける学習は、予測値と正解ラベルの誤差を計算と、勾配降下法により誤差を最小化するように各枝の重みを更新することを繰り返して行います。この枝の重みを右側(出力側)から左側(入力側)へ更新していくことを誤差逆伝播法と呼びます。
ディープニューラルネットワークでは、訓練誤差が小さくがっても汎化誤差が小さくならない過学習、誤差逆伝播の過程で勾配がなくなってしまう勾配消失問題などが問題となります。
ディープニューラルネットワークをベースに作られたモデルに、CNN(畳み込みニューラルネットワーク)、RNN(再起型ニューラルネットワーク)、オートエンコーダ(自己符号化器)があり、CNNはとくに画像認識、RNNは時系列データ、オートエンコーダは次元削除に適しています。
CNN(Convolutional Neural Network、畳み込みニューラルネットワーク)
CNNはディープニューラルネットワークの一種で、とくに画像・動画認識の分野でよく使われ、レコメンダシステム、自然言語処理にも利用されています。
1980年代に福島邦彦によって提唱されたネオコグニトロンが発想の元となり、原型は1988年にヤン・ルカンが考案したLeNetです(ネオコグニトロンには誤差逆伝播法が使われていませんが、LeNetには利用されています)。
CNNは「畳み込み層→プーリング層」の順で入力データが処理され、最終的に全結合層へと至る順伝播型のニューラルネットワークの一種です。畳み込み層とプーリング層は、層の間が部分的にしか結ばれていないため、全結合型ではありません。また、典型的なCNNの構造では「畳み込み層→プーリング層→畳み込み層→プーリング層…」といった形で、畳み込み層とプーリング層のペアが順に並ぶ構造が複数回繰り返されます。
画像処理における処理を簡単にまとめると以下のとおりです。
- 畳み込み層により、積和演算と活性化関数を利用して元の画像の特徴が抽出された特徴マップに変換(畳み込み演算を実施)
- プーリング層により、入力されたデータを平均プーリオング、最大プーリングにより、小さな画像に変換
- 全結合層により、プーリング層から出力された2次元データを1次元データに変換
また、畳み込み演算について、G検定対策として以下の理解が必要です。
- ストライド:フィルタを移動させる移動させる刻み。ストライド2なら、2つ移動
- パディング:画像の周囲に指定のピクセル数を付け足して画像を拡張する処理。大きさ1のパディングなら、画像の周囲を囲む(斜め含む)形で1ピクセル拡張します
- ゼロパディング:パディングの際、付け足す画像の値を0にしておくこと。
- 特徴マップ:畳み込み層で畳み込み演算をして抽出した特徴的な量。
- 特徴マップの幅(高さ):(入力画像の幅(高さ)+パディング×2-フィルタの幅(高さ))÷ストライドの幅(高さ)+1
畳み込みニューラルネットワークのおける畳み込み演算の例については、ネットで検索するといくつも紹介されています。単純な計算ではありますが、試験までに余裕があれば畳み込み演算の練習をしておくといいでしょう。
FCN(完全結合ネットワーク、Fully Convolutional Network)
FCNとは、CNNの最後の全結合層を、畳み込み層に置き換えた構造のネットワークです。セマンティック・セグメンテーションなどに用いられます。
FCNにより、出力を分類クラスではなく、二次元マップにできます。また、全結合層をなくすことで、従来の畳み込みニューラルネットワークのような入力画像サイズを固定する制約もなくなりました(縦横がアップサンプリング層での拡大率の倍数である必要はあります)。
特徴マップのサイズは、プーリングによって小さくなっているため、入力画像と同じサイズに戻すための処理として、最後にアップサンプリングが行われます。具体的には、逆畳み込み演算という処理(畳み込み演算の逆ではありません)が行われ、拡大処理が行われます。
BNN(Binarized Neural Network)
BNNとは、2値化されたCNNです(通常は浮動小数点を使用)。具体的には、ニューラルネットワークの重みと、活性化関数の出力の両方を1ビットにしています。また、この2値化処理はDeterministicとStochasticの2つの手法を利用しています。2値化により、演算の規模を通常のCNNと比べて大幅に減らすことが可能であり、単位消費電力あたりの推論性能がCNNに比べて非常に高い(100倍以上)特徴があります。
従来のCNNでは、必要とされる推論性能を発揮するためには、電力の消費量が無視できず、その発熱に対する冷却も大きな課題となっていました。BNNは、この問題の解決にもつながることから注目されています。
2015年にはBNNは登場していましたが、低ビット化により推論精度が大幅に低下するというデメリットがありました。その後、対処の技術が開発され、2020年頃から実用化が現実味を帯びてきています。
SegNet
SegNetは、セマンティック・セグメンテーションの手法の一つです。FCNと同様に全結合層をもたず、入力画像に対してピクセル単位でどの物体クラスに属すかラベルを出力します。FCNとの主な違いはメモリ効率です。
SegNetの構造は、入力画像から特徴マップを抽出するEncoderと、抽出した特徴マップと元の画像のピクセル位置の対応関係をマッピングするデコーダーで構成されています。
FCNではプーリング層の特徴マップをアップサンプリング・結合して利用しますが、そのため各特徴マップを一時的に保存する必要がありました。SegNetでは、エンコーダーでプーリングした位置を記憶し、デコーダーで特徴マップをその位置にアップサンプリングすることで、メモリ効率を高めています。
RNN(Recurrent Neural Network、再起型ニューラルネットワーク、回帰型ニューラルネットワーク)
RNNは、ディープニューラルネットワークの一種で、1986年のデビッド・ラメルハートの研究にもとづきます。過去の情報を保持できるため、時系列データ(系列データ)を扱うことに向いています。実際には、自然言語処理(機械翻訳技術、手紙文字認識、音声認識など)への利用が盛んです。
構造としては、内部に閉路(ループ構造)を持っていることが特徴。入力データに加えて、前の中間層の状態も入力として与えることができるので、時系列データを扱うことができます。
LSTM(Long Short-Term Memory、長・短期記憶)は、RNNのアーキテクチャの一つであり、遠い過去の入力を現在に反映できます。1997年にホッフライターとシュミットフーバーによって考案され、音声認識の分野に大きな影響を与えました。Amazon Alexaの声を生成の生成にもLSTMが利用されています。一般的なLSTMユニットは、セル、入力ゲート、出力ゲート、忘却ゲートで構成され、3つのゲートはセルを出入りする情報の流れを制御します。
GRU(ゲート付き回帰型ユニット)は、2014年に発表され、LSTMに似ていますが、構造がシンプルで、出力ゲートを欠くためLSTMよりパラメータが少ないという特徴があります。GRUは特定の小さなデータセットでLSTMより高い性能となることがありますが、どちらがより優れているということはありません。
Bidirectional LSTM(BLSTM)
Bidirectional LSTMは、中間層の出力を、未来への順伝播と過去への逆伝播の両方向で伝播するネットワークです。
Memory Networks(MemNN)
Memory Networksとは、「巨大なメモリ」と「メモリへの入出力ができる学習コンポーネント」から構成されるメモリ付きニューラルネットワークです。LSTM以上の長期記憶を実現し、自然言語処理などに利用されます。
Memory Networksは、以下の5つの要素から構成されています。
- m: memory、記憶部。
- I: input feature map、入力変換部。外部からの入力を内部用に変換します
- G: generalization、記憶更新部。新たな入力を用いて、記憶を更新します。
- O: output feature map、内部出力部。新たな入力と現在の記憶状態から、ある値を出力・取得します。
- R: response、応答部。内部出力を求められている形式に変換して出力します
オートエンコーダ(自己符号化器)
オートエンコーダはディープニューラルネットワークの一種で、2006年にジェフリー・ヒントンらが提案しました。
入力層と出力層の数が同じで、入出力層よりも中間層(隠れ層)の数が少なくなる構造をしています。入力層から中間層への処理をエンコード、中間層から出力層への処理をデコードといいます。中間層で情報を一度圧縮しつつ、出力を入力に近づけることで、次元削除を行います。また、中間層が2層以上あるオートエンコーダをディープ・オートエンコーダと呼びます。
勾配消失問題や過学習の対策に活用されたり、画像のノイズ除去、異常検知、クラスタリングの用途で利用されます。また、オートエンコーダを応用した画像生成モデルにVAEがあります。
オートエンコーダ – Wikipedia
オートエンコーダとは?事前学習の仕組み・現在の活用方法を解説!!
AutoEncoder, VAE, CVAEの比較 〜なぜVAEは連続的な画像を生成できるのか?〜
stacked autoencoder
stacked autoencoderとは、オートエンコーダの一種です。通常、バックプロパゲーションでは中間層が2層以上ある場合、極小解に収束してしまう特徴があります。そこで、中間層を1層だけ作ったオートエンコーダで学習させ、次に中間層を入力層とみなしてもう一層積み上げる構造で、オートエンコーダを多層化したものをstacked autoencoderといいます。
VAE(Variational Autoencoder、変分オートエンコーダ)
VAEとは、深層生成モデルの一種で、オートエンコーダの潜在変数部分(中間層)に確率分布を導入したものです。画像生成に利用でき、訓練データを元にその毒長を捉えて訓練データセットに似たデータを生成することができます。
VAEのネットワーク構造は、「エンコーダ部」と「デコーダ部」にわかれ、出力は「確率分布のパラメータ」となります。
Variational Autoencoder
【超初心者向け】VAEの分かりやすい説明とPyTorchの実装
AutoEncoder, VAE, CVAEの比較 〜なぜVAEは連続的な画像を生成できるのか?〜
PCA(主成分分析)
PCAとは、相関関係のある多数の変数から、相関のない少数で全体のばらつきを最もよく表す「主成分」と呼ばれる変数を構成する多変量解析の一種であり、データの次元削除に用いられます。1901年に、カール・ピアソンによって導入されました。
ICA(独立成分分析)
ICAとは、多くの変数から構成されている変数を、少数(または同数)の正規分布に従わないお互いに独立した成分に次元削除する手法です。
同様に次元削除に利用されるPCAと比べて、基底(互いに独立したベクトルで、ベクトル空間内の各々の点を表すことができるベクトル)に違いがあり、PCAは分散を最大化するため規定が直交していますが、ICAの規定は独立できる方向を探すため、直行せず、点が規定に沿った形になります。
GAN(敵対的生成ネットワーク)
GANはディープニューラルネットワークを用いた教師なし学習の手法です。
2014年にイアン・グッドフェローによって発表されたもので、ヤン・ルカンによって「機械学習においてこの10年間で最も興味深いアイデア」と評価されました(リンク先は英語です)。
GANは、生成ネットワークと識別ネットワークから構成されます。生成ネットワークは、訓練データと同じようなデータを生成し、識別ネットワークは訓練データ化、生成ネットワークが作ったものかを見極めます。生成と識別を繰り返すことで、生成ネットワークは訓練データと見分けがつかないデータを生成できるようになっていきます。生成ネットワークで生成を行うものを「生成者(Generator)」、識別ネットワークで識別を行うものを「判定者(識別器、Discriminator)」と呼びます。
GANは画像生成などの分野での利用されており、CycleGAN、DCGAN、pix2pixなどの応用例があります。また系列データに応用できるGANにseqGANがあり、seqGANの生成ネットワークにはRNNが利用されます。seqGANは文章の生成などの利用で提唱されています。
BigGAN
BigGANは、GANの一種で、1000カテゴリーの画像を、512×512ピクセルの高解像度画像として条件付きで生成することができ、歴史上最強のGANジェネレータとして知られています。Deep Mind社によって作成されたもので、学習にはImageNetの画像を利用しています。
styleGAN
StyleGANとは、NVIDIAが2018年12月に発表したGANの一種です。Progressive Growing GANで提案された手法を採用し、高解像度の画像を生成するとともに、スタイル変換で提案された正規化手法により生成画像の制御を行っています。
ネットワーク構成はMapping networkとSynthesis network(畳み込み層にStyleやNoiseといった情報を組み込んでアップサンプリングを行う)から構成され、従来のモデルよりも複雑です。確率的な変動(髪の毛やしわなどの細かな特徴の変化)を作るため、データ空間にノイズを導入しています。
ボルツマン・マシン
確率的回帰結合型ニューラルネットワークの一種です。1985年にジェフリー・ヒントンとテリー・セジュノスキーによって開発されました。ジェフリー・ヒントンが提案した深層信念ネットワークは、教師なし学習に制限付きボルツマンマシンを用いた手法です。
勾配降下法
ディープラーニングの学習において、誤差が最小になる(勾配が最小になる)ように重みづけを少しずつ更新していくアルゴリズムを勾配降下法といいます。勾配降下法には「確率的勾配降下法」「ミニバッチ勾配降下法」「バッチ勾配降下法」などがあります。
確率的勾配降下法
確率的勾配降下法は、訓練データ1つに対して重みを1回更新します。
ミニバッチ勾配降下法
ミニバッチ勾配降下法は、小さなデータの集まりであるミニバッチのデータ全てについて、誤差の総和を計算し、その誤差に対して重みづけを1回更新します。
バッチ勾配降下法(勾配降下法、最急降下法)
バッチ勾配降下法は、全ての訓練データに対して誤差を計算し、個の誤差に対して1回重みを更新します。
勾配降下法を最適化するアルゴリズム
勾配降下法を最適化するアルゴリズムに「モメンタム」「Adagard」「Nesterovの加速勾配降下法」「Adadelta」などがあります。
誤差逆伝播法(バックプロパゲーション)
ディープラーニングの学習において、予測誤差を最小化するための重みづけの更新を出力側から入力側(右側から左側)へ行うアルゴリズムを誤差逆伝播法(バックプロパゲーション)と呼びます。1986年にデビッド・ラメルハートによって命名されました。
誤差逆伝播法の限界として、以下のようなものがあります。
- 学習での収束は非常に遅い
- 学習が収束するとは限らない
- 局所的な誤差最小点に収束することが多い
- 層数が増えると勾配消失を起こす確率が増大する
- 入力データの前処理が発生することがある
勾配消失問題
ディープニューラルネットワークの学習において、誤差逆伝播法が、下位層へ進むにつ入れて、勾配が緩やかになることで勾配が消失し、学習が進まなくなる問題を勾配消失問題と呼びます。
層が深くなるほど発生しやすく、活性化関数が何度も作用する中で、勾配が小さくなることが原因です。対策として、ReLUなどの正規化機能を持たない活性化関数を中間層に利用することで、ある程度回避ができます。
勾配爆発問題
勾配爆発問題とは、勾配が大きくなりすぎてしまい、コンピュータで処理できなくなる問題のことです。
活性化関数の微分式が1より大きいものが重なることで、指数関数的に値が跳ねあがることで発生します。対策としては、勾配の上限値を決めてしまい、上限値上になったら上限値で正規化する方法があげられます(この操作を勾配クリッピングと呼びます)。
大域的最適解・局所最適解・停留点・鞍点(あんてん)
大域的最適解は、全体で最も誤差が少ない解です。
局所的最適解とは、その周辺の中では誤差が最小になるが、全体では誤差が最小にならない解のことです。
停留点は、大域的最適解と局所的最適解ではないもので、誤差を表すグラフの勾配が0になる点です。
鞍点(あんてん)は、停留点の内、ある方向から見ると極小値、別のある方向から見ると極大値になる点です。
ディープニューラルネットワークの学習においては、大域的最適解を求めたいところですが、現実には局所的最適解と大域的最適解を区別して判断ができないため「ある程度誤差が小さくなればいい」という考え方で、通常は局所的最適解を得ることを目指します。
エポックとイテレーション
ディープニューラルネットワークの学習において、訓練データを何度学習したかを示すものをエポック、重みを何回更新したかを示すものをイテレーションと呼びます。
アクタークリティック法(Actor-Critic法)
アクタークリティック法は、強化学習におけるアルゴリズムの一つです。行動を決めるアクター(行動器)を直接改善しながら、方策を評価するクリティック(評価器)を同時に学習させるアプローチをとります。
一般に、アクタークリティックを用いると、報酬のブレに惑わされなくなるため、学習の安定化・高速化ができます。
Q学習
Q学習は、強化学習におけるアルゴリズムの一つです。機械学習の方策オフ型TD学習の一つで、概念は古くからありましたが、1989年のクリス・ワトキンズの論文で、Q学習という名称と現在の手法がまとめられました。
Q学習では実行するルールに対して、ルールの有効性を示すQ値という値を持たせ、エージェントが行動するたびにその値を更新し、収束させていきます。
Q学習の問題点としては、「方策勾配法と比べると、学習途中の結果を近似解として利用しにくい」「収束途中の値には具体的な合理性が認められない」などがあります。
SARSA
SARSAは、強化学習におけるアルゴリズムの一つです。方策オン型のTD学習の一つで、基本的な方針はQ学習と同じであり、価値関数Qの更新式のみが異なります。Q学習と比べて、収束が遅い一方、局所解に陥りにくいとされています。
方策勾配法
方策勾配法は、強化学習におけるアルゴリズムの一つです。方策をあるパラメータで表される関数都市、そのパラメータを学習することで直接方策を学習していくアプローチになります。
方策を直接扱うことで、複雑でメモリを消費する手法を使わなくて済み、また、連続空間における行動を扱いやすくなります。
自然言語処理(Natural Language Processing、NLP)
自然言語処理は、人間が日常的に利用している自然言語を、コンピュータによって処理させる技術です。ディープラーニングの応用により、精度が飛躍的に高まり、現在では機械翻訳やAIアシスタント(SiriやAlexa)などに利用されています。
自然言語処理では、以下のような順で処理が進みます。
- 文章を最小単位(形態素。単語など)に切り分ける(形態素解析)
- データから不要な文字を取り除く(クレンジング)
- データをベクトルに変換する(BoWなどを活用)
- 各形態素の重要度を評価する(TF-IDFなどを活用)
また、G検定の自然言語処理でよく問われる用語は以下のとおりです。
- 形態素解析:自然言語のテキストデータを、対象の文法や単語の品詞などの情報に基づき、形態素に分解し、形態素の品詞等を判定する作業。
- 構文解析:形態素解析した対象に、その形態素間の構文的な関係を解析します。
- 意味解析:文書とそこに含まれる用語について、それらに関連した概念の集合を生成し、関係を分析する技術です。構文解析を実施した対象に対して、意味を持つまとまりを判定できます。
- 含意関係解析:2つの文書間に含意関係が成り立つかを解析します。
- 文脈解析:複数の文に対して、形態素解析と意味解析を行ったものについて、文を超えた解析を行います。
- 照応解析:照応詞(代名詞や指示語など)の指示内容の推定や、省略された名詞句(ゼロ代名詞)を補完する処理を行います。日本語は主語の省略が多いため、照応解析を行わず他言語への機械翻訳をすると、意味が通らないことがあります。
- 談話解析:関連した一連の文章に対して、文と文の関係、話題の推移、文の構造、意味などを解析します。
- LDA(Laten Dirichlet Allocation):文中の単語を使い、文章のトピックを推定する機会なし学習の手法。各単語が隠れたトピックから生成されているものとして、トピックの推定を行います。ディリクレ分布が用いられます。
- LSI(Laten Semantic Indexing):複数の文書に共通に現れる単語を解析し、低次元の潜在意味空間を構成する手法。BoWによるベクトル空間や特異値分解が用いられます。
- Word2Vec:単語をベクトル表現し、意味の近さや扱えるようにする仕組みです。2013年にGoogle社のトマス・ミコロフによって提案されました。手法は大きく分けてCBOWとSkip-Gram Modelの2つがあり、CBOWは単語周辺の文脈から中心の単語を推定します。一方、Skip-Gramは中心の単語から文脈を構成する単語を推定する際に利用されます。また、次元の呪いを軽減するため、トークンの低次ベクトル表現(単語の分散表現)を利用します。
- Doc2Vec:文書をベクトル表現し、文書や文書の分散表現を獲得します。教師ラベルを必要とせず、文書中の単語間の距離に差が生まれるなどのメリットがあります。手法はPV-DMとPV-DBOWの2種類があり、PV-DMはWord2VecのCBOW、PV-DBOWはskip-gramに対応するようなアルゴリズムになっています。
- TF-IDF:文書中に含まれる単語の重要度を評価する手法の1つで、主に情報検索やトピック分析に利用されます。
- BERT:2018年10月にGoogle社が発表した自然言語処理モデル。bidirectional transformerというディープラーニングの手法を用いています。一つの単語が複数の意味で使われる場合の意味関係の表現、文章の文脈の学習などにより、自然言語処理タスクで様々な記録を樹立しました。
- XLNet:自然言語処理のモデルと、BERTを超えた事前学習モデルといわれています。マスク間の依存関係を学べないというBERTの弱点を、単語の並び替えで解決し、長文読解タスクであるRACEで、人を超えるスコアを達成しています
- ALBERT:2018年9月にarXivに公開された「A Lite BERT」と呼ばれるBERTの軽量化モデルです。BERTの欠点であるモデルがかなり大きいこと(標準のBERTでもTransformerが12層)を改良しています。また、軽量なだけでなく高精度であり、学習速度も向上しています。
- fastText:FacebookのAI Research labによって作成された単語の埋め込みとテキスト分類を学習するためのライブラリで、294言語の事前トレーニング済みモデルが提供されています。単語のベクトル表現を取得するための教師なし学習又は教師あり学習アルゴリズムを作成できます。
- ELMo:2018年にアレインインスティチュートにより考え出されたモデルで、2層の双方向リカレントネットワークと言語モデルの内部状態を利用する単語埋め込みモデルです。
- BOW(Bag-of-Words):自然言語のテキストデータを、ベクトルの形式に変換します。事前の処理として、形態素解析と数値変換を行います。
- 特異値分解:次元削除など、機械学習で多く使われる行列分解の一つです。行列を複数の行列の積の形で表現します。
自然言語処理
形態素解析
潜在意味解析
今さら聞けない「自然言語処理(NLP)」とは?
照応解析
潜在的意味インデキシング(LSI)徹底入門
【論文シリーズ】CBOWとSkip-gramについて
Doc2Vecについてまとめる
Doc2Vecの仕組みとgensimを使った文書類似度算出チュートリアル
tf-idf
BERTとは何か?Googleが誇る最先端技術の仕組みを解説!
BERTを超えた自然言語処理の最新モデル「XLNet」
日本語でのBERT、XLNet、ALBERTとかをまとめてみた
BERTの軽量版,ALBERTとは?
FacebookのfastTextでFastに単語の分散表現を獲得する
特異値分解
統計的自然言語処理
統計的自然言語処理は、確率論的あるいは統計学的手法を使った自然言語処理。機械学習やデータマイニングが起源となり、利用されるようになりました。
従来の自然言語処理では、長文になるほど解釈の可能性の組み合わせが膨大になります。そのような場合の解決策として、統計的自然言語処理が利用されます。手法としては、コーパス言語学やマルコフ連鎖などの手法が利用されます。
音声認識
音声認識とは、人間の声などコンピュータに認識させ、文字列に変換したり、音声の特徴を捉えて声を出している人を識別する機能などを指します。SiriやAlexaなどに利用されています。
隠れマルコフモデル(HMM:Hidden Markov Model)
隠れマルコフモデルは、時系列パターンの認識に用いられることが多く、音声認識や言語処理、天気予報や証券取引などの分野で利用されています。「未来の挙動が現在の値だけで決定され、過去の挙動と無関係である」という性質を持つ確率過程であるマルコフモデル(マルコフ過程)の一種です。
意味ネットワーク(semantic netword)
意味記憶の構造を表すモデルで、言葉同士の意味関係をネットワークに表したものです。ある言葉が別の言葉の一部を意味する場合「part-of」、ある言葉が別の言葉の一種である場合「is-a」という矢印で結ばれます。
例として「ハンドルは車の一部である」というものは「part-of」「車は乗り物の一種である」というものは「is-a」になります。
具体的な利用例として、Googleの「Knowledge Graph」は意味ネットワーク型でウェブ上のオブジェクト間の関係を知識化して表したものです。また、オントロジー(対象世界をどのようにとらえたかをコンピュータに理解できる形に体系化したもの)を利用して作成したウェブ上の意味ネットワークが、セマンティックウェブになります。
2値分類問題(二項分類、2クラス分類)と性能指標・用語
2値分類問題とは、他クラス分類におけるクラス数が2つの場合の問題です。2値分類における性能指標・用語で、G検定で問われそうなものは、以下の通りです。
- 真陽性:予測が正で、実際も正の場合のこと
- 偽陽性:予想が正で、実際が負の場合のこと
- 真陰性:予想が負で、実際も負の場合のこと
- 偽陰性:予想が負で、実際が正の場合のこと
- 正解率:予想と実際が一致する割合
- 適合率:予想が正の場合で、実際も正の割合
- 再現率:実際が正の場合で、予想も正の割合
- 特異率:実際が負の場合で、予想も負の割合
- F値:適合率と再現率の調和平均
STRIPS(Stanford Research Institute Problem Solver)
STRIPSとは、1971年にRichard Fikes と Nils Nilssonによって開発された自動計画に関する人工知能の一種です。
SHRDLU
SHRDLUとは、自然後処理を行う人工知能研究初期の開発プロジェクトです。1968~70年にかけて、テリー・ウィノグラードによって実施されました。SHRDLUは英語による指示を受け付け、端末画面の中(仮想空間)の積み木を動かすことができます。
GPGPUとTPU
GPGPUは、GPUの演算資源を画像処理以外の目的に応用する技術で、人工知能計算用に利用されています。
TPUは、Googleが開発した機械学習に特化したASICであり、GPUと比較してワットあたりのIOPSを高くするため、意図的に計算精度を犠牲にした設計となっています。テンソル計算処理に向いています。
ロボティクス(ロボット工学)
ロボティクスとは、ロボットに関連する一連の研究分野の総称です。ロボットの動作制御の分野では、モンテカルロ法やQ学習などの強化学習が応用されています。また、ロボットの一連の動作をディープニューラルネットワークで実現しようとするものを、一気通貫学習と呼びます。また、五感や体性感覚といった複数の感覚情報を組み合わせて処理することをマルチモーダル情報処理と呼びます。
自動運転とSAE J3016
自動運転の技術については「SAE J3016」によって0~5レベルの6段階で評価されています。レベルごとの内容は以下の通りです。
- SAEレベル0:全て人間が運転する
- SAEレベル1:車両の自動化システムが、人間の運転をときどき支援し、いくつかのタスクを自動運転で実施する
- SAEレベル2:車両の自動化システムが、いくつかの運転タスクを事実上実施できる。人間は運転環境を監視し、残りの運転タスクを実施する
- SAEレベル3:車両の自動化システムが、いくつかの運転タスクの実施と運転環境をある場合に監視する。人間は自動化システムが要請した場合に制御を取り戻す必要がある。
- SAEレベル4:車両の自動化システムが、運転タスクの実施と運転環境の監視を行う。人間は制御を取り戻す必要はないが、自動化システムは一定の環境・条件でのみ運転できる
- SAEレベル5:車両の自動化システムが、人間の運転者が運転できる全ての条件で運転タスクを全て実行できる。
内閣官房IT総合戦略室が2016年以発表した「自動運転レベルの定義を巡る動きと今後の対応」では、2025年までにレベル4、5の実用化が見込まれるとし、2017年の「官民ITS構想・ロードマップ2017」では、2020年までにレベル3の自動運転を市場化すると記載されています。ホンダはレベル3の自動運転車2020年に販売予定ですが、日本では公道での自動運転には、法改正が必要な状況です。
2019年5月の道路交通法の改正により、自動運転システムが作動しなくなった際に、ただちに手動運転に移れる状態である場合は、携帯電話・カーナビなどの操作が認められるようになりました。
同年5月に公布された道路運送車両法では、自動運転を実現するシステムを「自動運行装置」とし、その定義を
「プログラムにより自動的に自動車を運行させるために必要な、自動車の運行時の状態および周囲の状況を検知するためのセンサー並びに当該センサーから送信された情報を処理するための電子計算機及びプログラムを主たる構成要素とする装置」で「自動車を運行する者の操縦に係る認知、予測、判断及び操作に係る能力の全部を代替する機能を有し、かつ、当該機能の作動状態の確認に必要な情報を記録するための装置を備えるもの」
としました。
また、保安基準対象装置に自動運行装置が追加され、事故発生時の状況・自動運転機能の作動状態を記録する装置も、自動運行装置に含め、自動運転には作動状態記録装置も必須としました。
アドバーサリアル・エグザンプルズ(敵対的サンプル)
アドバーサリアル・エグザンプルズとは、2014年にトロント大学の研究グループが発表した機械学習における攻撃手法です。
学習済みの画像認識モデルに対して、データを与えて推論させる際、特殊なノイズを加えることでご認識させる手法となっています。2015年にトロント大学が発表した事例では、人間にはパンダにしか見えない画像を、ノイズによってテナガザルとして判断してしまうという結果がありました。同様に道路標識をご認識させる研究結果もあり、自動運転における脆弱性が指摘されています。
ディープ・フェイク
ディープ・フェイクとは、深層学習を利用した画像の合成による技術です。GANを利用し、既存の画像や映像と、別の画像・映像を重ね合わせ(スーパーインポーズ)結合することによって生成されます。
実際には行っていないことを、本物らしく画像化できてしまうため、虚偽の報道、リベンジポルノの偽造作成など悪意ある画像作成にも利用されることがあります。
2017年頃、とくにRedditでディープフェイクのポルノが登場し始め、次第に偽造と本物のコンテンツの区別が困難になっていきました。2019年にサイバーセキュリティ会社「Deep Trace」が行った調査では、過去7カ月で1万4678本のディープ・フェイク動画が確認され、1年で倍増し、その96%がポルノ動画という結果がでています。
また、政治家に対する悪意ある事例もあり、アルゼンチン大統領のマウリシオ・マクリの顔がアドルフ・ヒトラーに、ドイツ首相のアンゲラ・メルケルの顔がドナルド・トランプに置き換えられるなどの事例もあります。
一方、中国では実在のアナウンサーから合成した世界初の人工知能ニュースキャスターが開発され、ロシアやアラブ首長国連邦の国営メディアでもこの技術が採用されています。
ディープ・フェイク動画を作成するオンラインサービスもあり、250枚ほどの写真をアップロードすることで、2日程度の製作期間で動画を作成するサービスもあります(1本2.99ドル)。
ドルフィンアタック
ドルフィンアタックとは、人間には聞こえない周波数でAIアシスタントを操作する仕組みです。
中国の浙江大学の研究チームが論文で発表した攻撃手法であり、人間の声を元に超音波とバイオンを利用して人間に聞こえない音に変換した音源を使うことで、AIアシスタントを操作することができます。
2019年時点では、1メートル程度の範囲内でないと機能しないことがわかっていますが、悪意ある操作が可能であることから、「Siri」や「Google Home」などの各メーカーは対応を求められています。
トレーニングセット・ポイズニング
トレーニングセット・ポイズニングとは、機械学習の学習過程を狙った攻撃であり、教師データに誤ったタグを付与した画像を紛れ込ませることで、誤った判断をさせる手法です。
トレーニングセット・ポイズニングにより、セキュリティ対策ソフトベンダーの教師データに誤ったデータが混入され、マルウェアを検出できなくさせる攻撃が行われる可能性が指摘されています。
プライバシー・バイ・デザイン(Privacy by Design、PbD)
プライバシー・バイ・デザインとは、エンジニアリングプロセス全体にわたり、プライバシーを考慮するシステムエンジニアリングのアプローチです。
1990年代半ばに、Ann Cavoukian博士によって提唱されたものが起源ですが、人工知能のみならず、IoT、ビッグデータの活用により、多様なデータが活用されるようになったことにともない、ビジネス設計で意識されるようになってきました。
GDPR(EU一般データ保護規則)
GDPRとは、欧州議会・欧州理事会および欧州委員会が欧州連合内の全ての個人のためにデータ保護を強化し統合することを意図している規則です。その第一目的は、個人が自分のデータをコントロールする権利を取り戻すことと、欧州連合域内の規則を統合することで、国際的なビジネスのための規制環境を簡潔化することにあります。
データの収集については、利用目的について、有効な同意が明示的に行わなければならず、児童に対する同委は児童の親、または保護者が与え、確認する必要があります。データ管理者は同意(オプトイン)を証明する必要があり、同委は取り消されることがありえます。
GDPRでは、個人データを処理した結果のデータが、追加の情報なしに特定のデータ主体と結びつかないようにする処理(仮名化。暗号化処理を施すなど)についての言及があり、仮名化が推奨されていますが、仮名化を行った場合も、匿名化データとは異なり、GDPRの管理・罰則対象となります。
また、GDPRには「データポータビリティ(データ可搬性)」に関する言及があります。これは、あるサービスが特定のユーザーに対して収集した利用履歴などのデータを、収集されたユーザーが他のサービスでも再利用することをさします。GDPRでは、このようなデータ移転を可能にすることを求める権利が認められ、個人によるデータのコントロールや、新規サービスの創出が意図されています。
セマンティック・ウェブ(セマンティックウェブ)
セマンティック・ウェブとは、ウェブページの意味を扱うことを可能とする標準・ツール開発により、ウェブの利便性を向上させるプロジェクト。情報リソースに意味を付与し、人を介さずコンピュータが情報を自律的に処理することを可能にする技術です。応用例として、Google検索のリッチスニペットなどがある。
セマンティック・セグメンテーション(セマンティックセグメンテーション、Semantic Segmentation)
セマンティック・セグメンテーションとは、画像内の全画素にラベルやカテゴリを関連付けるディープラーニングのアルゴリズムです。自動運転、医療用画像処理、工業検査、衛星画像など、高精度な画像マッピングが求められる領域で広く利用されています。
セマンティックセグメンテーションは、対象物の画像内を画素レベルで複数の領域に分けることができます。そのため、不規則な形状の対象物を明瞭に検出できます。
セマンティックセグメンテーションの一般的な手法として、畳み込みニューラルネットワーク(CNN)のアーキテクチャをベースとしたSegNetを構築する手法があります。また、全結合層を持たず畳み込み層のみで構成される「全層畳み込みネットワーク(FCN)」も、セマンティックセグメンテーションの手法として活用されています
セマンティック セグメンテーションとは
ディープラーニングにおけるセマンティックセグメンテーションのガイド2017年版|FCN
FCN (Fully Convolutional Network):ディープラーニングによるSemantic Segmentation手法
インスタンス・セグメンテーション(インスタンスセグメンテーション、instance segmentation)
インスタンス・セグメンテーションとは、画像のピクセルを「どの物体のクラス(カテゴリー)に属するか、どのインスタンスに属するか」で分類するアルゴリズムです。
例えば、会議中の写真に対してインスタンス・セグメンテーションを行った場合、机や椅子、人などが個別に判定されます。一方、同様に画像に対してカテゴリを分類するセマンティックセグメンテーションでは、個々の人や机を分けて判断しません(会議中の人は、個人ごとではなく、人全体で認識されます)。
Mask R-CNN
Mask R-CNNとは、ICCV 2017で発表された論文「Mask R-CNN」で提案された一般物体検出とインスタンスセグメンテーションを同時に行うマルチタスクの手法です。
ネットワーク構造は、前身となるFaster R-CNN という手法をベースにしており、大きく分けて「Backbone」「RPN(Region Proporsal Network)」「Head」の三層で構成されています。
知識獲得のボトルネック
知識獲得のボトルネックとは、知識をいかに獲得し、システムに入力するかがボトルネックになることです。
第二次人工知能ブームで注目されたエキスパートシステムの関連でよく登場する用語で、専門家から知識を引き出して、コンピュータに入れることの困難さを表します。この問題を解決するために「ナレッジエンジニア」が生まれました。また、知識獲得のボトルネックを解消することの困難さから、第二次人工知能ブームは下火になっていきました。
XAI(Explainable artificial intelligence、説明可能なAI)
XAI(説明可能なAI)は、名前の通り、予測や推定の結果に至る過程が人間によって説明可能となっている学習モデル、またはそれに関する技術・研究分野のことです。2016年、アメリカのDARPAがXAIのプロジェクトに投資し、有名になりました。
機械学習では、その性質上、結果に対する説明が設計者にも困難であり「ブラックボックス」となっていることが一般的です。そのため、実際の社会で利用する際は説明責任を果たすことが難しく、例えば行政などがそのまま政策立案などに利用することは困難です。また、企業であっても、何らかの事故があった場合にクライアントへ説明責任を果たせず、人工知能を利用することのリスクとなります。
こういった背景から、機械学習のブラックボックスを、ホワイトボックス化するするニーズが高まり、XAIに関する研究が盛んになりました。
XAIのアプローチは、以下の4つに分類することができます。
- 解釈可能モデルの抽出(Trepan、G-Rexなど)
- 出力に対する説明の生成(LIME、Grad-CAM、CHAPなど)
- ブラックボックスの中身の検査(VEC、Prospectorなど)
- 透明性のある学習器の設計(FRLなど)
説明可能な人工知能 – Wikipedia(英語版)
XAI(Explainable AI:説明可能なAI)/解釈可能性(Interpretability)とは?
その判断、誰が決めた?説明可能なAIをExplainable AI(XAI)で解説
フレーム問題
フレーム問題とは、「無限にある現実の要素に対して、考慮すべき範囲を特定することが、人工知能では難しいため、有限の処理能力の人工知能では対処できない」という問題です。1969年に、ジョン・マッカーシーとパトリック・ヘイズの論文で登場しました。フレーム問題は、汎用的なAI(強いAI)を実現する上で重要な問題となっています。
シンボルグラウンディング問題(記号接地問題)
シンボルグラウンディング問題とは、記号システム内のシンボルと実世界の意味を結び付けることの困難さに関する問題であり、ハルナッドによって命名されました。言葉とその現実世界における意味の結び付けが難しいため、例えば「シマウマ」のような言葉について「縞」と「馬」が組み合わさったものであるという推定が現状のAIでは困難です。
モラベックのパラドックス
モラベックのパラドックスは、1980年代にハンス・モラベック、ロドニー・ブルックス、マービン・ミンスキーが明確化した理論。「高度な推論よりも感覚運動のスキルの方が多くの計算資源を要する」というもので、モラベックは「コンピュータに知能テストを受けさせたりチェッカーをプレイさせたりするよりも、1歳児レベルの知覚と運動のスキルを与える方が遥かに難しいか、あるいは不可能である」と記しています。
トイプロブレム(おもちゃの問題、Toy problem)
トイプロブレムとは、第一次人工知能ブームで生まれた用語で、オセロのように明確な答えがあるシンプルなルールが決まっている問題のことです。第一次人工知能ブームの人工知能では、推論と探索により、トイプロブレムでは成果を出すことができましたが、それ以外の問題を解くことができず、ブームは下火になっていきました。
巡回セールスマン問題
巡回セールスマン問題とは、組み合わせ最適化問題の一つで、全ての点(都市)を一度ずつ巡り、出発地に戻る経路のうちで、もっとも短い距離を求める問題です。同様の問題で全ての辺を少なくとも一度徹経路で最小のものを求める問題に「中国人郵便配達問題」があります。
中国語の部屋(Chinese Room)
中国語の部屋とは、ジョン・サールが1980年に発表した思考実験です。
事件の内容としては、中国語を理解できない人を小部屋に閉じ込め、外部と中国語の紙切れでやり取りを行います。この際、部屋の中の人は「どの文字列に対し、どの文字列を返答するか」がマニュアルで渡されており、中国語を理解していませんが返答ができます。一方、部屋の外の人は、中国語に中国語の返答を受け取ることになるので、部屋の外から見ると中国語による対話が成立することになります。
チューリングテスト(Turing test)
チューリングテストとは、アラン・チューリングが提案した「ある機械が人間的かどうか」を判断するためのテストです。機械と判定者である人間を隔離し、判定者が機械と対話した際に、相手が機械か人間かを判定できるかを試すテストで、確実な区別ができなかった場合に、機械はテストに合格したことになります。
2014年6月7日、ロンドンで行われた「Turing Test 2014」で、13歳の少年の設定で参加したロシアのボットチャットであるユージン・グーツマンが、30%以上の確率でテストに合格し、レディング大学の客員教授であるケビン・ワーウィックに「初のチューリングテストの合格者であると誇りをもって宣言する」といわれました。
次元の呪い
次元の呪いとは、リチャード・ベルマンが使った言葉で、数学的空間の次元が増えるのに対応して、問題の算法が指数関数的に大きくなることを表します。機械学習においては、次元が増えることにより、必要な訓練データが指数関数的に増えてしまうという問題があります。次元の呪いの回避策としては、有効な特徴量を組み合わせて選択する「特徴量選択」や複数の特徴量を1つにまとめる「次元削除(特徴量作成)」があります。
また、次元の呪いを解決する技術として、2020年7月13日、富士通はオートエンコーダを映像圧縮技術を利用して改良した「Deep Twin」を発表しました。
過学習(オーバーフィッティング、過剰適合、過適合)
過学習とは、学習済みモデルが、訓練データに対しては高い精度で正解ラベルを予測できても、未知のデータに対しての予測精度が低い状態になる現象のこと。機械学習における課題の一つです(対義語は過少適合、過小学習)。
過学習の対策としては、学習データを増やす、正則化、ドロップアプトなどの方法があります。
また、過学習にモデルが陥っていないかを検証する方法として、ホールドアウト法と交差検証(クロスバリデーション)があります。
Ridge回帰(リッジ回帰)
Ridge回帰とは、正則化された線形回帰の一つで、線形回帰のコスト関数に対して重みの二乗(L2正則化項)を足したものです。過学習を防ぐための正則化(汎化性能を高める)に利用されます。
L2正則化項による正則化では重みは完全に0にならないため、説明変数が非常に多い場合のモデル解釈が複雑になるという欠点があります。
Lasso回帰
Lasso回帰とは、正則化された線形回帰の一つで、線形回帰のコスト関数に対して重みの合計を足したもの(L1正則化項)です。過学習を防ぐための正則化(汎化性能を高める)に利用されます。
不要と判断される説明変数の重みが0になる性質があるため、いくつかの特徴量が完全に無視されます。モデルに含まれる説明変数の数が限定されることで、モデルを解釈しやすくなり、どの特徴量が目的変数へ作用する度合いが大きいかが明らかになります。
Elastic Net
Elastic Netとは、Ridge回帰とLasso回帰の折衷案で、Lasso回帰のモデルに取り込める説明変数の数に制限があるという問題点をカバーする方法として作られました。
訓練誤差・汎化誤差
訓練誤差は、学習に用いた訓練データに対する誤差のことで、汎化誤差は訓練に使っていない未知の母集団に対する誤差の期待値です。汎化誤差が小さくならないことは、未知のデータに対して正確な予測ができない状況であり、訓練誤差だけが小さくなり、汎化誤差が小さくならない状態は過学習が起きていると判断できます。この過学習の問題は、訓練データを多くするなどの方法で対策します。
ドロップアウト
ドロップアウトは、2014年に提唱されたニューラルネットワークの過学習の対策で行われる手法で、重み更新の際に設定した割合で枝をランダムに無効化します。過学習を防ぐだけでなく、テストデータに対する性能の向上も期待できます。
早期打ち切り
早期打ち切りは、学習の反復で訓練データと評価データの両方を監視して、評価データが悪化し始めるところで学習を打ち切ることで、過学習を防ぐ手法です。
ノーフリーランチ定理
ノーフリーランチ定理とは「あらゆる問題を解決できる万能のアルゴリズムは存在しない」という定理です。
物理学者のデイビッド・ウォルパートとウィリアム・マクレディにより1995年により組み合わせ最適化領域で唱えられたもので、「コスト関数の極値を探索するあらゆるアルゴリズムは、全ての可能なコスト関数に適用した結果を平均すると同じ性能となる」という内容であり、その裏返しとして「あらゆる問題で性能の良い汎用最適化戦略は理論上不可能であり、ある戦略が他の戦略より性能がよいのは、現に解こうとしている特定の問題に対して特殊化(専門化)されている場合のみである」ということを立証してします(G検定では後者の意味が問われます)。
ちなみに、定理の名称はSF小説「月は無慈悲な夜の女王」で有名になった格言「There ain’t no such thing as a free lunch.(無料の昼食なんてものはあるわけがない)」に由来します。
シンギュラリティ(技術的特異点)
シンギュラリティとは、人工知能が人間を超え、人類に代わって文明の主役となる時点のこと。
- イーロン・マスク:シンギュラリティの到来に危機感を持ち、非営利団体であるOpenAIを設立しました(団体と利益が相反するという理由から、2017年に会長職を退任)。
- ヴァーナー・ヴィンジ:1980年代からシンギュラリティの概念を提唱し、シンギュラリティを「機会が人間の役に立つふりをしなくなること」と定義しました。
- オレン・エツィオーニ:シンギュラリティについて、「100万年後、特異点をむかえる可能性はある。けれど賢いコンピュータが世界制覇するという終末論的構想はばかげている」と述べました。
- 齊藤元章:スーパーコンピュータの加速度的な性能向上の結果として、大規模なシミュレーションがリアルタイムに可能になることで、難解な社会問題が解決されはじめ「プレ・シンギュラリティ」と呼ばれる社会的な変化が顕在化すると予想する。
- スティーブン・ホーキング:「AIの完成は、人類の終焉を意味するかもしれない」と述べました。また2018年3月の亡くなる直前に「AIの到来は、人類史上最善の出来事になるか、または最悪の出来事になるだろう」と述べました。
- 小林秀章(セーラー服おじさん):シンギュラリティによって実現するユートピアにおける人間を「動物園にいる動物」「大きな屋敷に住んでいる猫」と例えました。
- ヒューゴ・デ・ガリス:シンギュラリティは21世紀後半に到来すると述べました。また、そのとき人工知能は人間の知能の1兆の1兆倍になると主張しました。
- レイ・カーツワイル:シンギュラリティは2045年に到来すると述べました。
ハイパーパラメータ
ハイパーパラメータとは、機械学習の前にエンジニアが事前に調整する必要があるパラメータのことです。学習によって最適化される変数は、単にパラメータと呼ばれます。
記述統計・推計統計(推測統計)
記述統計は、手持ちのデータの分析を行うもので、推計統計(推測統計)は手持ちのデータの背後にある母集団の分析を行うものです。
活性化関数
活性化関数は、ニューラルネットワークのニューロンにおける入力の総和から出力を決定する関数です。G検定では、「ステップ関数」「シグモイド関数」「ReLU」「ソフトマックス関数」がどのような状況で利用されるかが問われます。
ニューラルネットワークの隠れ層(中間層)の活性化関数としては、誤差逆伝播法が登場して以降「シグモイド関数、tanh関数」→「ソフトプラス関数」→「ReLU」が主流として変化してきました。
ステップ関数
ステップ関数は、簡単にいえばニューロンへの入力の総和が0未満の場合は0を出力、ニューロンへの入力の総和が0以上の場合は1を出力する活性化関数です。ステップ関数は、入力の総和が0の場合に微分ができないという理由から、ニューラルネットワークの学習で利用ができないため、基本的に使用されることはありません。
シグモイド関数
シグモイド関数(標準シグモイド関数、ロジスティックシグモイド関数)は、あらゆる数値を0.0~1.0の範囲の数値に変換して出力する関数です。ステップ関数と形が似ていますが、滑らかな曲線なので微分が可能です。そのためニューラルネットワークの初期の研究ではよく利用されていましたが、勾配消失問題が起きやすいという理由から、現在ではほとんど利用されなくなりました。シグモイド関数の導関数の最大値は0.25になります。
ちなみに、シグモイドとは「(ギリシャ語のシグマ(ς)に似た形」という意味であり、グラフの形はS字曲線になります。
ReLU(Rectified Linear Unit、レル、レルー、ランプ関数)
ReLUは、勾配消失問題が起きにくく、簡単な形状な関数であるため、現在主流となっている活性化関数です。一般にはランプ関数と呼ばれますが、ニューラルネットワークの世界ではReLUと呼ばれます。2015年にヤン・ルカンとジェフリー・ヒントンらがネイチャーに書いた論文で「これが最善である」と述べています。
グラフの形状としては、入力が0以下の場合は出力が0、0より上の場合は入力が出力と同じになる形となります。ランプ(高速道路に入る上り坂)型の曲然となるため「ランプ関数」と一般には呼ばれます。
ソフトマックス関数
ソフトマックス関数は、出力を正規化することで、確率として扱えるよう変換するための活性化関数で、分類問題に用いられます。正規化しているため、出力は0~1.0です。
ソフトプラス関数
ソフトプラス関数は、あらゆる入力を0.0以上の正の値に変換し、出力する関数です。形状はReLUに似ていて、途中から右肩上がりになりますが、入力0付近も0にはならず、正の値が出力されます。また、入力値が小さいほど出力が0に近づいていき、大きいほど入力と出力が同じ値に近づきます。
tanh関数(双曲線正接関数、ハイパボリックタンジェント、タンエイチ)
tanh関数は、あらゆる入力を-1.0~1.0の範囲の数値に変化させます。シグモイド関数のように、入力値が0近辺で-1.0~1.0へと出力が変化していくS字型のグラフになりますが、入力が0より小さくなっていくと、出力が0を下回って-1.0へと低下していくところが違いです。
ヒンジ関数
ヒンジ関数とは、ある部分までは0、そこから先は一定の割合で増加する形状の関数です。SVMの損失関数(誤差関数)として利用されることがあります。
活性化関数
[活性化関数]ステップ関数(Step function)とは?
[活性化関数]シグモイド関数(Sigmoid function)とは?
[活性化関数]ReLU(Rectified Linear Unit)/ランプ関数とは?
活性化関数|ReLU(ランプ関数)
[活性化関数]ソフトマックス関数(Softmax function)とは?
[活性化関数]ソフトプラス関数(Softplus関数)とは?
[活性化関数]tanh関数(Hyperbolic tangent function: 双曲線正接関数)とは?
ヒンジ関数の意味、損失関数として使えることの大雑把な説明
MNIST
MNISTとは、画像データセットの一種で、手書き数字画像60,000枚と、テスト画像10,000枚を集めたものです。また、手書き数字「0~9」に正解ラベルが与えられており、手軽に入手できるため、画像分類問題で人気の高いデータセットです。
人工知能でよく扱われるライブラリ・フレームワークなど
- PyTorch:Pythonのオープンソースの機械学習ライブラリ。Facebookの人工知能研究グループAI Research lab(FAIR)により開発されました。GPUサポートを備えたテンソル演算が可能で、多くのディープラーニングのソフトがPyTorchで構築されています。
- Chainer:ニューラルネットワークの計算・学習のためのオープンソースソフトウェア。GPU演算をサポートしています。開発元が日本の機械学習系ベンチャー企業なので、日本語関連資料が多く存在します。2019年12月5日にフレームワーク開発を終了し、メンテナンスフェーズへ移行しました。
- TensorFlow:Googleが開発し、オープンソースで公開している機械学習、数値解析、ニューラルネットワークに対応したライブラリ。GoogleとDeepMindの各種サービスで広く活用されています。
- Keras:Pythonで書かれたオープンソースのライブラリ。TensorFlow、CNTKなどの上部で動作させることができます。
- NumPy:NumPyは、Pythonにおいて数値計算を効率的に行うための拡張モジュール。線形代数の計算に強いなど、大規模な高水準の数学関数ライブラリを提供しています。
- SciPy:数学、科学、工学のためのオープンソースの数値解析ソフトウェア。確率統計に強い。
- scikit-learn:Pythonのオープンソース機械学習ライブラリ。サポートベクターマシン、ランダムフォレスト、kNN法などを含む、分類、回帰、クラスタリングアルゴリズムを備えています。また、NumPyやSciPyとやりとりするよう設計されています。
- seaborn:Pythonでグラフを作成するためのライブラリ。
- caffe:オープンソースのディープラーニングライブラリ。画像認識に特化しています。
- caffe2:FacebookがCaffeの軽量版として公開しました。
PyTorch
Chainer
TensorFlow
Keras
NumPy
SciPy
scikit-learn
機械学習入門!seabornで便利でかっこいいグラフを簡単にplot!
オープンソースのAI・人工知能/Caffeとは
NVIDIA と Facebook が協力し、Caffe2 ディープラーニング フレームワークを拡充
Caffe2およびDetectron2のpython実装
前処理と基礎集計
機械学習の手法を利用する前に、「データをモデルに入力できるようする」「データの大きさをある程度に揃える」などの前処理が行われます。また、前処理よりもさらに前に、データの傾向を把握するための基礎集計が行われます。
特徴量
特徴量とは、学習の入力に使う測定可能な特性であり、分析対象をよく表す特徴を数値化したものです。例えば「ある人」の「身長」「体重」などが特徴量となります。また、データを加工し、モデルが認識しやすい特徴を作ることを特徴量エンジニアリングと呼びます。
特徴量エンジニアリングの一つとして、1つだけの成分を1、残りの成分を0という特徴量に変換することをone-hot-encodingと呼びます。
また、性別、紙の色、などを「何の種類か?」を表す変数のことを「カテゴリカル変数(カテゴリカルデータ)」と呼びます。
線形分離可能・不可能
二次元の平面上にある集合に対して、一本の線で分離できることを線形分離可能といい、パーセプトロンによって解ける問題は線形分離可能と言えます。一方、一本の線だけでは分離できない分類問題は線形分離不可能といわれ、パーセプトロンを複数組み合わせた多層パーセプトロンによって解決が可能です。
サポートベクターマシン(SVM:Support Vector Machine)
サポートベクターマシンは、クラス分類のアルゴリズムとして考案されましたが、現在は多クラス分類や回帰問題にも応用される手法になっています。サポートベクターマシンでは、マージンの最大化を行うことにより、2つのクラスを線形分類します。また、サポートベクターマシンによる誤分類を許容するためにスラック変数が利用されます。
カーネル法、カーネルトリック
線形分離不可能な問題に対応するため、サポートベクターマシンにカーネル法を組み合わせ、決定境界を求める手法があります。
カーネル法では、カーネル関数により、データを高次元空間に埋め込み、高次元空間でサポートベクターマシンで線形分離し、その境界をもとの空間に戻します。欠点として、膨大な計算量が必要となるため、カーネルトリックという手法を用いて、計算量を抑えて日線形分離を行います。
決定木(決定木学習)
決定木は分類でよく利用される予測モデルです(回帰にも応用されます)。仕組みは「不純度が最も減少(情報利得が最も増加)するように条件分岐を作成し、データを振り分ける」という動作を繰り返すのみという単純なものです。不純度の代表的なものにジニ係数やエントロピーがあります。
決定木にアンサンブル学習の一種である「バギング」を組み合わせた手法はランダムフォレストと呼ばれます。
アンサンブル学習
アンサンブル学習とは、複数のモデルを作って学習を行う手法です。通常、分類の場合は多数決で結果を採用し、回帰の場合は平均を結果として採用する手法になります。
アンサンブル学習の中で、並列に各モデルを学習させるものを「バギング(bagging)」、逐次学習させるものを「ブースティング(boosting)」と呼びます。また、サンプリングの手法として、サンプル集合から重複を許してサンプリングし、新しいサンプル集団を作る手法、またはその集団を「ブートストラップ(bootstrap)」と呼び、バギングなどで利用されます。
ランダムフォレスト
ランダムフォレストは、決定木にバギングを組み合わせた手法です。ランダムフォレストのメリットとしては「データの前処理が少ない」「シンプルでわかりやすく分析結果を説明しやすい」「計算も高速で良い精度が出せる」といったものがあります。分類、回帰、クラスタリングなどに用いられます。また、ランダムフォレストを多層化したアルゴリズムを「ディープ・フォレスト」といいます。
ディープ・フォレスト
ディープ・フォレストは、アンサンブル学習のランダムフォレストを多層化したものです。ディープラーニングと比較して、ハイパーパラメータが少なく、訓練データのサンプルサイズが小さくても良好な結果を得られるという特徴があります。
ロジスティック回帰
ロジスティック回帰は、線形回帰を分類に応用した教師あり学習のアルゴリズムです。流れを簡単に解説すると、以下のようになります。
ロジスティック回帰では、データがあるクラスに属す確率である「対数オッズ」を重回帰分析で求め、対数オッズに対してロジスティック関数(シグモイド関数)による変換で、クラスに属す確率の予測値を出します。そして、各クラスで最大確率のクラスが、データの属すクラスとなります。また、出力値を0~1の間に正規化し、確率として解釈できるようにためにロジット変換を行います。
尤度関数
尤度関数とは、統計学で、ある前提条件に従って結果が出現する場合に、逆に観察結果からみて「前提条件が●●であった」と推測する尤もらしさ(もっともらしさ)を、「●●」を変数とする関数としてとらえたものです。ロジスティック回帰における目的関数などに用いられます。
kNN法(k Nearest Neighbor法、k近傍法)
kNN法は、教師あり学習の分類のアルゴリズム一種です。データから近い順にk個のデータを調べ、そのデータの多数決で所属するクラスを決定するという手法になります。各クラスのデータ数に偏りがある場合、kの値によっては判定が不正確になってしまうことがあります。そのため、各クラスのデータの数に偏りがなく、各クラスがよく分かれているときにしか精度が上がりにくいという欠点があります。
k-means法(K平均法)
k-means法は、教師なし学習であるクラスタリングでよく用いられるアルゴリズムです。流れとしては、クラスタの中心をランダムに生成し、各データを最も近いクラスタに属するとみなします。与えられたクラスタ数k個に分類することから、k-means法と名づけられました。
次にクラスタの中心を各データの重心にずらし、クラスタの中心がずれたことにより、各データが属すクラスタを変化させます。この「各データを最も近いクラスタに属させる」「クラスタの重心をずらす」を変化が無くなるまで繰り返します。
x-means法
x-means法は、クラスタリングにおけるクラスタ数の最適な数を、自動で求めるために利用されます。k-means法を用いて分割を繰り返し実行する手法であり、情報量基準を用いることで分割を停止させてクラスタを決定します。
Ward法(ウォード法)
Ward法とは、クラスター分析に利用されるクラスター間の距離を定義する距離関数のひとつです。一般に、他の距離関数に比べて分類感度が高いといわれています。また、外れ値に強いという特徴があります。
正規化、正則化、標準化
正規化は、データを0~1の間の値にスケーリングすることで、確率として解釈できるようにすることです。変換にはロジット変換を利用することがあります。
正則化は、過学習を防ぐために利用される手法です。学習の際に複雑さが増すことに対するペナルティを設けることで実現します。
標準化は、データの平均を0に、標準偏差(分散)を1に変換することです。
バーニーおじさんのルール
機械学習における経験則で、機械学習において必要なデータ数は、説明変数の約10倍になるというもの。バーナード・ヴィドロウによって、1987年に講演「ADALINE and MADALINE」で提唱された。
みにくいアヒルの子定理
機械学習における定式化によって、「普通のアヒル」と「見にくいアヒル」の区別はできないという定理。1969年に渡辺慧によって提唱されました。簡単にいえば「白鳥とアヒル」の類似点数と「白鳥と白鳥」の類似点数と同等になってしまうため、判断ができなくなってしまうというもの。
G検定で出てきそうな人物・団体・プラットフォーム
アーサー・サミュエル
機械学習の父とも呼ばれています。機械学習の目的を「明示的なプログラムを書くことなくコンピュータを動作させる」ことと定義しました。
アラン・チューリング
アラン・チューリングは、イギリスの数学者、暗号研究者、計算機械科学者、哲学者です。コンピュータ科学および人工知能の父とも言われています。「ある機械が人工知能であるか?」を判定するチューリング・テストを考案した人物として有名です。
イアン・グッドフェロー
イアン・グッドフェローは、機械学習分野の研究者で、Googleの人工知能研究チームである、GoogleBrainのリサーチ・サイエンティストです。GANを提案したことで有名です。Googleでは、ストリート・ビューの撮影車の撮影した画像から自動的に住所の情報を転写するシステムの開発や、機械学習システムのセキュリティ上の脆弱性の実証を行いました。
2017年にはMITテクノロジーレビューがIT技術にブレークスルーをもたらした人物を選出する「35 innovators Under 35」の一人に選ばれました。
イーロン・マスク
シンギュラリティについて危機感を持ち、人工知能を研究する非営利団体「OpenAI」を設立しました。また、人間の脳と人工知能を接続するインタフェースの研究開発を行う「ニューラリンク」を設立しました。
ヴァーナー・ヴィンジ(ヴァーナー・シュテファン・ヴインジ)
ヴァーナー・ヴィンジは、数学者、計算機科学者、SF作家です。シンギュラリティ(技術的特異点)のアイデアを広く普及させた人物として有名です。また、シンギュラリティについて著書の中で「機会が人間の役に立つふりをしなくなること」と定義しています。
エリック・シュミット(エリック・エマーソン・シュミット)
エリック・シュミットとは、技術者であり、Googleの元CEOで、アルファベットの顧問、カーネギーメロン大学、プリンストン大学の理事を務めています。
人工知能については、技術の悪用の可能性は認めているものの、メリットが勝っていると考え、シンギュラリティに危機感を持つイーロン・マスクの警告に意見を求められた際は「イーロンマスクが完全に間違っていると思っています」と答えています。
オレン・エツィオーニ
オレン・エツィオーニは、アレン人工知能研究所(AI2)のCEOです。人工知能について「わたしは人工知能を恐れていませんし、みなさんも恐れる必要はありません」と断言し「例えば、100万年後、シンギュラリティを迎える可能性はあります。けれど賢いコンピュータが世界を制覇するという終末論的構想は『馬鹿げている』としか申し上げようがありません」と述べています。
ジェフリー・ヒントン
ジェフリー・ヒントンは、コンピュータ科学、認知心理学の研究者で、ニューラルネットワークの研究で有名な人物です。トロント大学とGoogleで働いています。バックプロパゲーション、ボルツマンマシン、オートエンコーダの開発者の一人であり、2012年のILSVRCではチームを率いて優勝しました。
ジョン・サール(ジョン・ロジャーズ・サール)
ジョン・サールは哲学者で、主に言語哲学と心の哲学を専門としています。カリフォルニア大学バークレー校の元名誉教授です。
人工知能批判で知られ、「強いAIと弱いAI」や「中国語の部屋」という思考実験を提案しました。
ジョン・マッカーシー
ジョン・マッカーシーは、計算機科学者、認知科学者です。また、初期の人工知能研究の第一人者でもあり、人工知能という用語をダートマス会議で提案し、普及させた人物でもあります。
スティーブン・ホーキング(スティーブン・ウィリアム・ホーキング)
スティーブン・ホーキングは、イギリスの理論物理学者です。シンギュラリティについては「AIの完成は、人類の終焉を意味するかもしれない」と述べました。また2018年3月の亡くなる直前に「AIの到来は、人類史上最善の出来事になるか、または最悪の出来事になるだろう」と述べました。
テリー・ウィノグラード
テリー・ウィノグラードは、スタンフォード大学の計算機科学者です。SHRDLUと呼ばれる自然言語に関する研究で、人工知能の分野で知られていますが、この研究を通じて人工知能の実現に批判的な立場をとるようになりました。
ヒューゴ・デ・ガリス
ヒューゴ・デ・ガリスは、オーストラリアの人工知能の研究者です。1990年に遺伝的アルゴリズムの研究で先駆的な業績を上げました。また、人間情報処理研究所で、10億ニューロンの人工脳を開発するための研究計画に参画し、「ロボ子猫プロジェクト」という進化するロボットの研究を行いましたが、成功しませんでした。
シンギュラリティについては、21世紀後半に来ると予想し、その時、人工知能は人間の知能の1兆の1兆倍になると主張しています。
マービン・ミンスキー
マービン・ミンスキーはアメリカのコンピュータ科学者、認知科学者です。専門は人工知能であり、初期の人工知能研究を行い「人工知能の父」とも呼ばれています。また、「人工知能」という言葉が提案され、採用された「ダートマス会議」の発起人の一人でもあります。シーモア・パパートとの共著『パーセプトロン』は、ニューラルネットワーク解析の基礎を築くとともに、人工知能の歴史でも大きな議論を呼び起こした書籍です。書籍の中で、「単純パーセプトロンは線形分離可能なパターンを識別できない」ことを示し、第一次人工知能ブームの終焉にもつながりました。
レイ・カーツワイル(レイモンド・カーツワイル)
レイ・カーツワイルとは、アメリカの発明家、実業家、未来学者、思想家。本名はレイモンド・カーツワイルです。
人工知能研究の世界的な権威でもあり、シンギュラリティに関する著述で知られています。未来予測の中で、シンギュラリティは2045年に訪れ、1000ドルのコンピュータが全ての人間を合わせたよりも知的になっていると予想しています。
また、2045年には、人間がサイボーグ化による強化とコンピュータにアップロードされる影響で、人間と機械の間の明確な区別が存在しなくなり、人間がコンピュータに絶滅させられる可能性はほぼあり得ないとしています(2030年には人々の脳内にナノマシンが入り、脳の認知、メモリ・感覚機能は拡張されているそうです)。
ヤン・ルカン
ヤン・ルカンは、フランス系アメリカ人のコンピュータ科学者で、機械学習などの分野で活躍しています。Facebookの人工知能研究所とニューヨーク大学に勤務しており、博士時代(1987~88年)にはヒントンの研究室に所属していました。
イアン・グッドフェローが考案したGANについて、「機械学習において、この10年間で最も面白いアイデア」と評価しました。ジェフリー・ヒントンなどとともに「AIのゴッドファーザー」「ディープラーニングのゴッドファーザー」とも呼ばれ、ニューラルネットワークのLeNet(ルネット)の提唱行い、1989年にはCNNを文字画像認識にも利用しました。
DeepMind
DeepMindは、イギリスの人工知能企業として2010年に創業され、2014年にGoogleによって買収されました。囲碁プログラムのAlpahGoや、ディープラーニングとQ学習を利用したDQNで有名です。また、史上最強のGANと呼ばれるBigGANや、それを超える非GANジェネレータであるVQ-VAE-2を発表しました。
OpenAI
OpenAIは、イーロン・マスクによって2015年12月に設立された人工知能を研究する非営利団体。オープンソースと親和性の高い人工知能の推進を目的に掲げています。
また、2016年4月より、強化学習アルゴリズムの検証プラットフォームであるOpenAI Gymを発表。オープンソース化されているため、誰でも強化学習の研究に利用可能です。ロボットの動作やAtariゲームスコアを競うなど、いくつものタスクが提供されています。
arXiv(アーカイブ、アーカイヴ)
arXivは、様々な論文が保存・公開されているWebサイトです。運営元はロスアラモス国立研究所でスタートし、2012年にコーネル大学図書館が運命元となった際に「arXiv」に改名されました(初期は「LANL preprint archive」)。
2015年8月時点で論文数は106万本以上、毎月8,000を超える論文が追加されています。論文は無料でアップロード、ダウンロードが可能で、PDF形式になっています。論文の投稿は、大学などの研究機関によるアカウント登録か、既存arXivユーザから承認を得たアカウントで実施する必要があります。
素早い情報交換を目的としているため、査読はほとんど行わずに公開していますが、あまりにも酷い論文は削除・登録分野からの移動などが行われます。
世界中にミラーサーバがあり、日本のミラーサーバは京都大学の基礎物理研究所におかれていました(2015年12月運用停止)。
Coursera(コーセラ)
Courseraは、2012年4月にスタンフォード大学の教授が設立した教育技術の営利団体です。世界中の大学と協力し、大学の講義のいくつかを無償でンラインで提供しています。2020年7月時点で、登録者数は6,000万人以上。
2013年、日本の大学として東京大学が授業を配信することを表明しました。ちなみに、2020年7月時点で日本語字幕がついている講座は46種類確認できました(ほとんどIT分野です)。
Courseraには修了証・認定証が何種類もあり、通学するよりも割安な授業料で有名大学の学位を取得することも可能です。安いものでは、通学の半額程度のものもあります。
Google Scholar(グーグル・スカラー)
Google Scholarは、Googleの提供するサービスの1種で、学術用途に特化した検索エンジンで、論文、学術誌などの全文やメタデータにアクセスできます。スローガンの「巨人の肩の上に立つ(Standing on the shoulders of giants)」は、12世紀のフランスの学者、シャルトルのベルナールの言葉に由来します。
Kaggle(カグル)
Kaggleは、データ解析におけるディスカッションや、最適化モデルのコンペティションが行われるプラットフォームです。2010年に設立され、2017年にGoogleが買収を表明し、現在の親会社はGoogleとなっています。スローガンは「Making Data Science a Sport」。
コンペティションでは、課題投稿者がデータと課題の説明を投稿し、回答者が最適化モデルを投稿します。公開課題の他に、ヘビーユーザーや大学団体に限定した課題も提供されています。公開課題方式では、HIVやチェス格付け、交通量予測など、多くの課題の解決・技術の促進に影響を与えました。
2019年時点で約300万人のデータサイエンティストが登録しており、アメリカ航空宇宙局(NASA)、ウィキペディア、デロイト・トウシュ・トーマツ、オールステート保険などの組織と提携しています。
2020年7月時点で、公開されているデータセットは19,000以上、ノートブックは200,000以上です。
第一~三次人工知能ブーム関連
第一次人工知能ブーム
1950年代後半~1960年代の時期。「推論と探索」により人工知能が台頭しました。しかし、「推論と探索」はゲームなどの利用に限られるという「トイプロブレム(おもちゃの問題)ことが明らかになり、ブームは終焉しました。
第二次人工知能ブーム
1980年代の時期。専門家の知識を人工知能に移植する「エキスパートシステム」により人工知能が台頭。しかし、専門家の知識の定式化の困難さから、ブームは終焉しました。
エキスパートシステムで知られるものに、抗生物質を処方するAIである「MYCIN」や、未知の有機化合物を分析・特定する「DENDRAL」があります。
また、全ての一般常識をコンピュータに取り組もうとするプロジェクトに「Cyc(サイク)プロジェクト」があり、1984年から開始され、2001年から知識ベースの一部がOpenCycとして公開されてきました(2017年以降、Open Cycにより提供されてきたディストリビュージョンは廃止されたそうです)。
第三次人工知能ブーム
2006年以降。機械学習とディープラーニングによって人工知能が台頭。2006年にジェフリー・ヒントンがオートエンコーダを利用したディープラーニングを発明しました。2012年に、同じくジェフリー・ヒントンが率いるチームがディープラーニングを用いた手法でILSVRCで優勝し。同年Googleがディープラーニングを用いて、YouTube画像から猫の認識に成功。これにより第三次人工知能ブームにつながりました。
G検定で出てきそうな人工知能(プログラム・ボットなど)
ILSVRCで有名なネットワークモデル
詳細は「ILSVRC」の項目にまとめています。
ELIZA(イライザ)
1966年に発表された有名な会話ボットの一つ。来談者中心療法のセラピストをシミュレーションしようとしたものが有名です。チューリングテストに合格する機会の実現可能性を示唆しました。また、会話ボットのPARRYと何度か会話しています。
相手がコンピュータとわかっていても、無意識的にコンピュータの動作が人間と似ていると感じることを、ELIZA効果といいます。
PARRY(パリー)
1972年にスタンフォード大学で作られた有名な会話ボットの一つで、は偏執病的統合失調症患者をシミュレートしようとしたものです。チューリングテストで多くの判定者を誤らせました。ELIZAと何度か会話し、最初の記録はRFC439(1972年9月18日)、有名なものはICCC(1972年10月下旬)として記録されています。
Siri(シリ)
Apple社のAIアシスタントの一種。音声認識(自然言語処理)を用い、質問に応答したり、Webサービスの利用などが可能。
ALEXA
Amazonが開発したAIアシスタントの一種。音声認識(自然言語処理)を用いて、多くのサービスを提供します。
Tay
Tayは、マイクロソフトによって開発されたTwitter上に書き込みを行うおしゃべりボットで、2016年3月23日に公開されました。19歳のアメリカ人女性という設定で、Twitterユーザーからやり取りを覚えるようになっており「よそよそしさのない人工知能」とマクロソフトは説明していました。
Tayは1日で96,000以上のツイートを行いましたが、2016年3月25日にアカウントを停止。理由としては、複数ユーザーによる不適切な調教によりる問題発言がありました。同年3月30日に復旧しましたが、再び問題発言を繰り返したため、マイクロソフトによって即停止されました。
問題となった内容には「9/11はブッシュがやったことだ。ヒトラーは今のサルより良い大統領に成れたんだ。ドナルド・トランプは我々にとって唯一の希望だ」や「パパ、私を犯して。私はみだらなロボットなの」や「私は今大麻を警察の前で吸ってるの」があります。
人工知能の研究者であるローマン・ヤンポルスキーは、Tayが不作法になったことはマイクロソフトがどういう行動が不適切化を判断させることを怠ったためと論じ、IBMのワトソンがアーバン・ディクショナリー(スラングの単語やフレーズをクラウドソーシングで提供するオンライン辞書)を覚えて下品な言動になった問題を引き合いに出しています。
開発当初、「中国でマクロソフトが行っているプロジェクトであるシャオアイスと類似しているのではないか」と指摘があった際、プロジェクトを指揮していたピーター・リーはこれを認め「中国で4千万人のユーザーに利用されたシャオアイスの素晴らしい体験をアメリカでも実験したくなったのでTayを作った」としています。
シャオアイス(XiaoIce)
シャオアイスは、2014年5月30日に公開された、マイクロソフト中国が開発した対話型チャットボットです。オンライン上で行われた会話を集めたデータを活用し、ユーザーと自然に近い形で会話することができ、会話の文脈も理解できます。「We chat」「Weibo」など9つのプラットフォームで利用可能です。また、中国のECサイト最大手である「アリババ」では、シャオアイスを利用したチャットでサポートするサービスが提供されています。
2020年7月13日、マイクロソフトのシャオアイス関連事業は、「各地域に則した技術やイノベーション、ビジネスを推進し、利用者やパートナー各社から要望が多かったカスタマイズされたサービスを提供する」目的で、独立企業として分離することが発表されました。マイクロソフトは、新会社への投資を維持する予定です。
りんな
りんなは、日本マイクロソフトが開発した会話ボットの一つで、長所は高校に通う女子生徒という設定でしたが、2019年3月20日に高校を卒業、同年4月3日にエイベックス・エンタテイメントと契約し歌手デビュー。2020年7月時点で、約830万ユーザーを獲得しています。
当初はLINEのサービスとして登場し、2015年12月にはTwitterでもサービスを提供。200人以上の画家の作品から学習を行い、絵を描く能力もあり(GANを利用しています)、2020年4月には東京芸術大学 COI拠点 力石浩志の研究グループの研究員に就任、同じく2020年4月にTeam Frascoに画家として加入しました(一般の人もLINEで肖像画を描いてもらえます)。AIを活用したデジタルマーケティングソリューション「Rinna Character Platform」など幅広い業界で利用されています。
マイクロソフトが2014年に中国において提供した女性型会話ボット「シャオアイス」に続く人工知能キャラクターの第二弾として作られました。シャオアイスと同じ技術を使用していますが、日本ユーザーに対応するため、開発はゼロから行われました。
アルゴリズムとしては、マイクロソフトの検索エンジンBingと収集されたビッグデータを基礎歳、Azure Machine Learningが用いられていることが当初から公表されていました。2016年には、Word2Vec、tf-idf、ニューラルネットワーク、Learning to rankが用いられていることが発表され、2018年5月22日からは、共感モデルが採用されています。
2017年7月13日に発表されたシャオアイス関連事業の独立起業化にともない、りんなもマイクロソフトから分離しました。
りんな(人工知能)- Wikipedia
りんな
「りんな」が新会社へ、Microsoftのシャオアイス事業独立にともない
マイクロソフト開発のAI「りんな」がFrascoのチームメンバーに正式加入
「りんな」の巣立ち、日本マイクロソフトが「XiaoIce」事業を分離独立
Jabberwacky
Jabberwackyとは、イギリスのプログラマRollo Carpenterが開発したチャットボットです。目標は「面白く、楽しめる、ユーモラスな人間同士の自然な会話をシミュレートする」こととされています。
ソフィア
ソフィアは、ハンソンロボティクスが開発したAIロボットです。人工知能だけでなく、ロボットの顔を人間と似た質感で表現しています。2017年10月25日、サウジアラビアで初の市民権を獲得しました。
開発者であるデビットハンソンとの会話で「人類を滅ぼしたい?ノーと言って欲しいけど」という問いに「OK、人類を滅ぼすわ」と答えて有名になりました。
Watson(ワトソン)
IBM社の開発した人工知能であり、質問応答や意思決定支援のシステム。アメリカのクイズ番組である「ジオパディー(ジェパディ、Jeopardy!)」で、2011年に優勝しました。名前の由来は、IBMの事実上の創立者であるトーマス・J・ワトソンです。
IBMは、将来的にWatsonに利用されている質問応答の技術を、医療、オンラインヘルプデスクなどに活用する予定であり、2016年には患者の正確な病名を見抜き、適切な治療につなげることで人命を救ったと報道されました。
Deep Blue(ディープ・ブルー)
Deep BlueはIBMが開発したチェス専用のスーパーコンピュータであり、1989年より開発が開始され、チェスの世界チャンピオンガルリ・カスパロフに勝利した。IBMは「Deep Blueの子孫」と称して2007年にスーパーコンピュータBlue Gene(ブルージーン)を発表した。
Ponanza(ポナンザ)
Ponanzaは、山本一成がメイン開発者となったコンピュータ将棋プログラムです。名称は、評価関数の学習手法を参考にした将棋プログラムBonanzaに由来します。コンピュータとして初めて平手でプロ棋士に勝利しました。
Bonanza(ボナンザ)
Bonanzaは、コンピュータ将棋プログラムで、Windows用のフリーウェアとして公開されています。コンピュータとして初めて平手でプロ棋士に勝利したPonanzaの参考にも利用されています。
AlphaGo(アルファゴ)
AlphaGoは、DeepMindによって開発されたコンピュータ囲碁プログラムで、2015年10月に人間のプロキシをハンディキャップなしで破った最初の囲碁プログラムです。
バージョンが複数あり、AlphaGo Fan、AlphaGo Lee、AlphaGo Master、AlphaGo Zeroなどがあります。また、AlphaGo Zeroの変種にAlphaZeroがあります。
AlphaZero(アルファ・ゴ・ゼロ)
AlphaGo Zeroは、DeepMindの囲碁ソフトウェアであるAlphaGoのバージョンの一つです。2017年10月にNatureの論文で発表されました。
このバージョンは、人間の対局データを使わずに、従来のバージョンよりも強くなっています。自分自身との対局を3日学習し、AlphaGo Leeに100勝0敗となり、40日間で全ての旧バージョンを超えました。DeepMindの論文の筆頭著者の一人であるデビット・シルバーは、人間からの学習の必要性を取り除くことによって、汎用AIアルゴリズムを得ることが可能であると述べました。
AlphaZero(アルファゼロ)
AlphaZeroは、DeepMindによって開発されたプログラムで、AlphaGo Zeroアルゴリズムを汎化させた変種であり、2017年12月5日にarXiv上で発表されました。24時間の学習でチェス・将棋・囲碁の世界チャンピオンプログラムであるStockfish、elmoを超え、3日の学習でAlphaGo Zeroを超えるレベルに達しました。
AlphaZeroでは、将棋やAIで一般的に利用されていたアルファ・ベータ探索ではなく、モンテカルロ木探索とディープラーニングを適用しています。
絶芸(ぜつげい)
絶芸は、テンセントのAIによるコンピュータ囲碁プログラムです。2017年のUEC杯コンピュータ囲碁大会で優勝し、その後も新しいバージョンが公開されています。2019年の中信証券杯世界電脳囲碁オープン戦では「絶芸 Fine Art」が優勝しました。
東ロボくん
東ロボくんは、2011年から行われている「ロボットが東大に入れるか」についての研究・開発。2021年までの東大合格を目標としている。2015年に57.8偏差値をマークしたが、問題の意味を読み取る能力に課題があり、「東ロボくん」として模試を受けることは2016年で終了した(ただし、ここの開発者による開発は継続している)。
Zinrai
Zinraiは、富士通が作成した人工知能です。2015年11月に発表され、2017年4月から「Zinrai プラットフォームサービス」としてサービス提供を始めました。
DQN(deep Q-network)
DeepMind社が開発した人工知能で、ディープラーニングとQ学習を組み合わせたアルゴリズムで動作します。深層学習とAtari 2600の49種のゲームの中で43種で従来の人工知能を上回り、29のゲームでプロゲーマーと同等以上のパフォーマンスを見せました。
従来の人工知能と違い、あらかじめゲームのルールを教わることなく動作しており、ほぼ現在の状況(過去15分の1秒)しか把握できないため、即時で成功するような戦術のゲームにしか対応はできないという弱点があります。ネットスラングの「DQN」とは関係ありません。
G検定で出てきそうな大会
ILSVRC(imagenet large scale visual recognition challenge)
2010~17年に開催されている画像認識の競技大会。当初はSVNの手法で画像認識が行われていましたが、2012年にジェフリー・ヒントンのトロント大学のチームが、ディープラーニングによってSVNを圧倒したことで、その後はディープラーニングが上位チームを占めています。
以下に、2012年以降の優勝したものをまとめておきます。ちなみに、2011年までのエラー率は20%台後半、人間のエラー率は5%程度です。
- AlexNet。ILSVRC2012で優勝。エラー率16%。ジェフリー・ヒントン率いるトロント大学のチーム「SuperVision」がディープラーニングで従来の手法を圧倒。CNNの一種で、畳み込み層5層、全結合層3層。
- ZFNet。ILSVRC2013で優勝。エラー率12%。CNNがどのように画像を認識しているかの理解と、どうすればCNNを改良できるかの検討を目的として、CNNの可視化を行った結果をもとに、AlexNetの問題点を改良して高精度化。
- VGG16。ILSVRC2014で準優勝。オックスフォード大学が提唱したネットワークモデル。畳み込み層13層、全結合層3層。
- GoogLeNet。ILSVRC2014で優勝。エラー率7%。インセプションモジュール(畳み込み層やプーリング層から構成される小さなネットワーク)が使われています。22層のニューラルネットワーク。
- ResNet:ILSVRC2015で優勝。エラー率3.6%。Microsoft Reserch(現Facebook AI Research)の考案。152層のニューラルネットワーク。層を単純に増やすと性能が悪化する問題がありましたが「ある層で求める最適な出力を学習するのではなく、層の入力を参照した残差関数を学習する」 ことで、最適化しやすくし152層を達成。人間のエラー率を突破。
- Ensemble。ILSVRC2016で優勝。エラー率3%。172層。情報が少ないです。
- Squeeze and Excitation(SENet):ILSVRC2017で優勝。エラー率2.3%。特徴マップをチャネルごとに適応的に重みづけるするアテンションの機構を導入。この機構はSqueeze and Exccitation Block(SE Block)で実現されています。115層。
世界コンピュータ将棋選手権
世界コンピュータ将棋選手権とは、1990年から開催されているコンピュータ将棋プログラムの世界選手権です。10回目までの名称は「コンピュータ将棋選手権」でしたが、海外からの参加者も出場するようになり名称が変更されました。主催はコンピュータ将棋協会。
近年の結果は以下の通りです。
- 第29回(2019年) 1位:やねうら王、2位:Kristallweizen、3位:狸王
- 第28回(2018年) 1位:Hefeweizen、2位:PAL、3位:Apery
- 第27回(2017年) 1位:elmo、2位:Ponanza Chainer、3位:技巧
- 第26回(2016年) 1位:ponanza、2位:技巧、3位:大将軍
- 第25回(2015年) 1位:ponanza、2位:NineDayFever、3位:AWAKE
将棋電王戦
将棋電王戦とは、ドワンゴが主催するプロ棋士とコンピュータ将棋ソフトの非公式棋戦です。2010年の第一回将棋電王戦から2017年の第2期電王戦まで開催されていました。
2015年の将棋電王戦FINALでは、プロ棋士が初めて勝ち越す結果となりましたが、2016年以降は全てコンピュータ(ponanza)が勝利し、プロ棋士側からコンピュータが名人を上回ったことを否定しないコメントがでています。
UEC杯コンピュータ囲碁大会
UEC杯コンピュータ囲碁大会とは、2007年から電気通信大学内で開催されているコンピュータ囲碁大会です。主催は電気通信大学とエンターテイメントと認知科学研究ステーション。
大会の優勝、優勝プログラム名と作者は以下の通りです。
- 2019年:プログラム名「GOLAXY(星阵围棋)」
- 2017年:プログラム名「Fine Art(絶芸)」作者「テンセント」
- 2016年:プログラム名「Zen」作者「チーム DeepZen(加藤 英樹)
- 2015年:プログラム名「CrazyStone」作者「Remi Coulom(フランス)」
- 2014年:プログラム名「Zen」作者「チーム DeepZen(加藤 英樹)」
- 2013年:プログラム名「CrazyStone」作者「Remi Coulom」
- 2011年:プログラム名「Zen」作者「Team DeepZen」
- 2010年:プログラム名「Fuego」作者「Richard Segal」
- 2009年:プログラム名「KCC囲碁」作者「ChoSangHyon(北朝鮮)」
- 2008年:プログラム名「CrazyStone」作者「Remi Coulom(フランス)」
- 2007年:プログラム名「CrazyStone」作者「Remi Coulom(フランス)」
中信証券杯世界電脳囲碁オープン戦
中信証券杯世界電脳囲碁オープン戦とは、2017年から毎年8月に中国で開催されているコンピュータ囲碁による大会です。
- 第一回(2017年) 優勝「DeepZenGo(日本)」準優勝「CGI(中華台北)」
- 第二回(2018年) 優勝「Golaxy(中国)」準優勝「AQ(日本)」
- 第三回(2019年) 優勝「絶芸(中国)」準優勝「Golaxy(中国)」