【用語解説】ロジスティック回帰とは？

AI_用語辞典

2023.12.092024.10.29

この記事は約4分で読めます。

ロジスティック回帰（Logistic Regression）は、AIや機械学習でよく使われる手法の一つで、特に分類問題に役立つアルゴリズムです。

与えられたデータから、ある事象が「発生するか、しないか」を予測することに特化しています。
たとえば、病気にかかるかどうか、メールがスパムかどうか、商品を購入するかどうか、天気が雨か晴れかなどの予測に使用されます。

目次

ロジスティック回帰の基本概念
ロジスティック回帰の仕組み
ロジスティック回帰の利用例
オッズとオッズ比
ロジスティック回帰の利点と限界
1. まとめ

ロジスティック回帰の基本概念

ロジスティック回帰は、線形回帰に似ていますが、予測するのは連続的な値ではなく、二つのカテゴリ（例: 0または1）です。

ある患者が病気にかかる確率を予測する場合、その結果は「病気にかかる（1）」または「かからない（0）」となります。

ロジスティック回帰では、以下のような流れで予測が行われます。

データの収集と整理
患者の年齢、体重、病歴などのデータを収集します。
　
確率の計算
各データポイントが病気にかかる確率を計算します。
　
しきい値の設定
確率が50%以上であれば「病気にかかる」と予測し、50%未満であれば「病気にかからない」と予測します。

ロジスティック回帰の仕組み

特徴量の重み付け
入力データ（特徴量）に対して重みを割り当てます。
これは、線形回帰と同様に、各特徴量が結果にどの程度影響するかを示します。
　
シグモイド関数の適用
重み付けした特徴量の総和に対して、シグモイド関数（ロジスティック関数）を適用します。
この関数は、出力を0から1の間に制限し、確率として解釈できるようにします。
　
確率に基づく分類
シグモイド関数から得られた確率が、一定のしきい値（たとえば0.5）を超えるかどうかで、データを0または1に分類します。

ロジスティック回帰の利用例

スパムフィルター
ロジスティック回帰は、メールがスパムかどうかを判断するために使われます。
メールの内容を特徴量として、スパムメールである確率を予測し、その結果に基づいて「スパム」または「スパムでない」に分類します。

病気の可能性の予測
医療分野では、ある患者が糖尿病になるかどうかを予測するために、年齢、体重、食生活などのデータを分析し、患者が糖尿病になる確率を計算します。
ロジスティック回帰モデルにより、医師は患者に適切なアドバイスや治療を提供することが可能です。

気象に関する予測
気象予測でもロジスティック回帰が使われます。
次の日に雨が降るかどうかを予測する際、温度、湿度、風速などのデータを基に、雨が降る確率を算出します。
この確率が一定のしきい値を超える場合、「雨」と予測されます。

オッズとオッズ比

ロジスティック回帰では、オッズ（Odds）という概念が使われます。
オッズとは、ある事象が起こる確率と起こらない確率の比率です。

ある地域で雨が降る確率が70%であれば、オッズは「0.7 / 0.3 = 2.33」となります。
このオッズが1より大きければ、事象が起こる可能性が高いことを意味します。

オッズ比（Odds Ratio）は、二つのグループ間でオッズを比較するために使用されます。
治療を受けたグループと受けていないグループで、病気の発生確率を比較することができます。

ロジスティック回帰の利点と限界

利点

解釈しやすさ
ロジスティック回帰は、モデルがどのように予測を行ったかを比較的簡単に解釈できます。
各特徴量の重みが、結果に対する影響を明確に示すためです。
　
計算効率
計算コストが低いため、大規模なデータセットにも適用しやすいです。

限界

非線形問題には不向き
ロジスティック回帰は、線形な分離が可能なデータに対しては有効ですが、複雑な非線形な関係があるデータには適していません。
　
データの準備が必要
ロジスティック回帰を効果的に利用するには、データのスケーリングや正規化などの前処理が重要です。

まとめ

ロジスティック回帰は、AIやデータサイエンスの基礎となる分類アルゴリズムで、医療や金融、マーケティング、日常生活における様々な予測問題で幅広く利用されています。

その解釈のしやすさと計算効率の良さから、AI初学者にも適した手法です。データサイエンスや機械学習に興味がある方は、このアルゴリズムを学んでみてください。