BERTによる自然言語処理入門を読みました

こんにちは。エルブズCTOの冨永です。開発者ブログをご覧いただきありがとうございます。

Googleの自然言語処理モデル

音声認識や意味理解など、人間が使っている言葉をコンピュータで扱う技術を自然言語処理といいます。最近、この自然言語処理の分野でBERTという手法が話題になっています。

BERTとは

自然言語処理の標準モデル、BERTを使いこなせるようになる!
BERTはGoogleが2018年末に発表した自然言語処理モデルです。「文脈」を考慮した処理が特徴的であり、言語理解を評価する11個のタスクについて最高精度を達成し、今や標準的なモデルとしての地位を確立しています。

BERTによる自然言語処理入門: Transformersを使った実践プログラミング

理論から実装まで俯瞰できる

先月末、このBERTに関する入門書が発売されました。

BERTによる自然言語処理入門: Transformersを使った実践プログラミング

とても人気のようで、私は発売日前から書籍を予約していたのですが、発送が追いついておらず、先にKindle版を購入しました。

内容は、BERTの前提となる知識から順に解説されており、入門書としてとてもわかりやすかったです。途中、数式などを用いてで解説されている部分は技術用語が出てくるので、特徴量抽出とかソフトマックス関数とか、それがどんなものかあらかじめ知っていると読みやすいと思います。

後半は、文書分類や固有表現抽出など、ライブラリの紹介と実装例が載っており、自分で試してみることができます。ソースコードもGitHubで公開されています。

自然言語処理の発展がすごい

近年の自然言語処理技術では2013年に登場したword2vecが大きな影響を与えたと思います。word2vecは、単語の意味を分散表現(多次元のベクトル)で表すことで、単語の意味を足したり引いたり、近い意味の単語を取得したりできるようになりました。

その後Deep Learning(深層学習)が広がり、自然言語処理ではLSTM、Encoder-decoderモデル、transformerなど、新しい技術が次々と出てきました。

特にBERTは、語弊を恐れずに言うと、最近の研究では「とりあえずBERT」というぐらいには、よく見かけるようになりした。

アプローチは変わらない

新しい技術が登場しても、自然言語処理の問題解決に対するアプローチは大きく変わっていないように思います。

入力された文章を形態素解析で単語に分け、学習データから類似の文章を参照し、カテゴリに分類したり応答を生成したりする流れはこれまで同様です。

BERTにも事前学習として大規模なコーパスから学習したデータが必要です。形態素解析辞書などと同様、こういった資源を整備してくれる方々には感謝しかありません。

当社AIにも取り入れていきます

当社では、モチベーションスコアの仕組みにAIを活用しています。また、オンラインプロマネ人材育成研修では、回答内容などのAI分析に自然言語処理の技術を活用しています。

今後も新しい技術を取り入れ、サービスを改善して参ります。ぜひご期待ください。