私たちの生きる現代は、データが至る所に溢れ、そのデータを理解し活用する能力が、あらゆる分野で成功の鍵を握る時代となりました。かつては専門的な知識を持つ一部の統計家やデータサイエンティストだけが足を踏み入れることのできた高度なデータ分析の世界が、今、大きな変革の時を迎えています。その中心にあるのが、人工知能(AI)技術の目覚ましい発展です。
特に、Gemini Code Assist、GitHub Copilot、ChatGPTといったAIコーディングアシスタントの登場は、データ分析の風景を一変させました 1。これらのツールは、私たちが自然な言葉で指示を出すだけで、複雑なプログラミングコードを瞬時に生成してくれます。これにより、これまでコーディングの壁に阻まれてきた多くの人々が、本格的なデータ分析の世界へと足を踏み入れることが可能になったのです。この現象は「データ分析の民主化」とも呼ばれ、ビジネスの現場から学術研究の最前線まで、幅広い領域で意思決定のあり方を根底から変えつつあります 3。例えば、小売業では顧客の購買データを分析して一人ひとりに合った商品を推薦したり、製造業では機械のセンサーデータから故障の兆候を予測したりと、AIを活用したデータ分析はすでに具体的な価値を生み出しています 5。
このようなAIアシスタントは、単なる作業の自動化ツールにとどまりません。これらは、私たちの思考を補助し、新たな発見へと導いてくれる「共同研究者」とも呼べる存在になりつつあります 7。分析のワークフローを自動化し、これまでデータの準備や整理に費やされていた膨大な時間を解放することで、私たち人間は、より本質的な問いを立て、分析結果の解釈や、そこから得られる洞察を戦略的な意思決定に結びつけるといった、より創造的な活動に集中できるようになるのです 8。
しかし、このAIによるデータ分析の民主化は、諸刃の剣でもあります。ボタン一つで、あるいは簡単な指示一つで高度な分析が実行できてしまう手軽さは、その分析手法が内包する統計的な仮定や、結果の解釈における注意点といった、本質的な部分への理解を伴わないまま分析が行われてしまう危険性をはらんでいます。AIが生成した美しいグラフや表が、誤った結論を導く「見せかけの正しさ」をまとってしまう可能性も否定できません。
したがって、これからの時代に求められるデータ分析の能力とは、単にAIツールを使いこなす技術だけではありません。むしろ、AIが生み出した結果を鵜呑みにせず、その背景にある統計的な原理を理解し、批判的な視点を持って結果を吟味し、正しく解釈する能力こそが、これまで以上に重要になるのです。AIの役割が拡大すればするほど、私たち人間の役割は、分析の「実行者」から、プロセスの「監督者」そして最終的な意味を紡ぎ出す「解釈者」へとシフトしていきます。
この記事は、まさにそのための道しるべとなることを目指しています。本記事では、臨床研究から社会科学まで、幅広い分野で利用される基本的な分析手法である「線形回帰分析」を題材とします。AIアシスタントに指示を出しながら分析を進めるという実践的な形式を取りつつも、各ステップで「なぜその操作が必要なのか」「そのコードが統計学的に何を意味するのか」「結果をどのように解釈すべきか」という問いを、深く掘り下げていきます。
Table of Contents
線形回帰分析の基礎を学ぶ
関係性を解き明かす回帰分析
まず「回帰分析」という非常に強力な考え方について学び直してみましょう。回帰分析とは、一言で言えば、物事の間の「関係性」を数理的なモデル、つまり数式のような形で表現し理解しようとする試みです 10。私たちの周りの世界は、様々な要素が複雑に絡み合って成り立っています。例えば、ある商品の売上は、広告費や季節、天候など、多くの要因によって変動するでしょう。また、人の健康状態は、年齢や食生活、運動習慣といった様々なライフスタイルと関連しているはずです。回帰分析は、このような変数間の関係を解き明かすための、いわば魔法の杖のような役割を果たしてくれるのです。
この回帰分析において、私たちが最も知りたい、予測したいと考えている中心的な変数のことを「目的変数」と呼びます 12。これは「従属変数」や「結果変数」と呼ばれることもあります。先ほどの例で言えば、「商品の売上」や「人の健康状態」がこれにあたります。一方で、この目的変数に影響を与えているのではないか、その変動の原因となっているのではないか、と私たちが考える変数のことを「説明変数」と呼びます 14。こちらは「独立変数」や「予測変数」とも呼ばれます。「広告費」「季節」「天候」や、「年齢」「食生活」「運動習慣」などが説明変数にあたります。つまり、回帰分析とは、「説明変数が、目的変数にどのような影響を与えているのか」という因果の構造を、データから明らかにしようとする分析手法なのです 16。
回帰分析には、用いる説明変数の数によって、大きく二つの種類があります。説明変数が一つだけの場合を「単回帰分析」、説明変数が複数ある場合を「重回帰分析」と呼びます 17。例えば、「母親の年齢」という一つの説明変数だけで「赤ちゃんの出生時体重」という目的変数を予測しようとするのが単回帰分析です。それに対して、「母親の年齢」に加えて「人種」や「喫煙習慣」といった複数の説明変数を使って、より総合的に「赤ちゃんの出生時体重」を予測しようとするのが重回帰分析です 19。現実世界の現象は、多くの場合、単一の原因ではなく複数の要因が絡み合って生じますから、重回帰分析は非常に実用的な手法であると言えるでしょう。
ここで一つ、非常に重要な点に立ち止まって考えてみる必要があります。それは、ある変数を「目的変数」とし、別の変数を「説明変数」と名付けた瞬間、私たちはデータに対して「説明変数が目的変数に影響を与える」という、ある種の方向性を持った仮説を立てている、ということです。これは、単に二つの変数が連動して動くことを示す「相関関係」とは根本的に異なります 21。相関関係は、例えば「気温が上がるとアイスクリームの売上も上がる」というように、二つの事象が関連していることを示すだけで、どちらが原因でどちらが結果かについては言及しません 23。しかし、回帰分析では、「母親の年齢(説明変数)が、出生時体重(目的変数)に影響を与える」という仮説を立てるのであり、その逆、つまり「出生時体重が母親の年齢に影響を与える」とは考えません。
このように、どの変数を目的変数とし、どれを説明変数とするかを決める行為は、分析者が持つ専門知識や、その分野における理論に基づいて行われる、人間による知的な判断なのです。AIは仮説を検証する手助けはしてくれますが、その分析の出発点となる意味のある仮説そのものを生み出すのは、依然として私たち人間の役割です。したがって、回帰分析は、単にデータの中から自動的にパターンを見つけ出す機械的な作業なのではなく、私たちが世界をどのように理解しているかという理論的な枠組みを、データを用いて検証するための、科学的な思考のプロセスそのものであると言えるのです。この点を心に留めておくことは、AI時代にデータ分析を行う上で極めて重要になります 24。
分析の第一歩:AIアシスタント
それでは、いよいよ具体的な分析を始めましょう。ここからは、AIアシスタントと対話しながら、実際のデータを扱っていきます。今回私たちが用いるのは、プログラミング言語Rに標準で付属している「birthwt」というデータセットです。これは、赤ちゃんの出生時体重と、それに関連する母親の様々な情報を含んだ、臨床研究でよく用いられる貴重なデータです。
分析の最初のステップは、このデータセットを私たちの作業環境に読み込むことです。AIアシスタントに対して、私たちは次のように、ごく自然な言葉で指示を出します。
「MASSパッケージのbirthwtデータセットをdfという名前の変数に格納してください」
するとAIは、この指示を解釈し、必要なRのコードを生成してくれます。このコードを実行することで、birthwtデータセットがdfという名前の作業台に載せられ、分析の準備が整います。
データが手元に来たら、次に行うべき非常に重要なステップは、その中身をよく観察し、理解することです。どのような情報(変数)が含まれているのか、そしてそれぞれの変数はどのような形式(データ型)で記録されているのかを確認します。これを怠ると、後々の分析で思わぬ誤解やエラーが生じる原因となります。ここでもAIアシスタントが活躍します。私たちは「sapply関数を使って、dfのデータ形式を示してください」と指示します。AIはこの指示に従い、各変数名とそのデータ型(例えば、数値型を意味する"integer"など)の一覧を出力するコードを生成します。
この出力結果を単に画面で確認するだけでなく、「データ形式.md」といった別のファイルに保存し、整理しておくことは、非常に賢明な習慣です。なぜなら、これはAIアシスタントと私たち分析者の間で、「このデータセットについては、このような共通認識で進めましょう」という約束事を交わすことに他ならないからです。このファイルをAIに参照させることで、AIは各変数の性質を正確に把握し、より的確なコードを生成できるようになります。これは、人間同士の共同作業で、プロジェクトの開始前に用語の定義を明確にしておくのと同じくらい重要なプロセスです 26。
ここで少し立ち止まって、この一連の作業が持つ深い意味を考えてみましょう。AIにデータ形式を認識させるために一覧表を作成するという行為は、一見するとAIのための作業のように思えます。しかし、実はこのプロセスは、私たち分析者自身の思考を整理し、分析の質を高める上で極めて重要な役割を果たしているのです。
この作業を通じて、私たちは一つ一つの変数と向き合い、「この'age'という変数は本当に連続した数値として扱ってよいのか?」「この'race'という変数は、1, 2, 3という数字で記録されているが、これは単なる分類(カテゴリ)ではないか?」といった問いを自らに投げかけることになります。この丁寧な確認作業は、線形回帰分析が持つ重要な前提条件、すなわち変数が適切な型で扱われていることを保証するための、不可欠なステップなのです 28。この段階を急いでしまうと、例えば人種を表す数字を大小関係のある数値として誤って分析してしまうなど、意味のない結果を導き出しかねません。
つまり、AIとの「対話」の準備として行うこのデータ確認作業は、結果的に私たち自身の分析に対する姿勢をより慎重で、より構造的なものへと導いてくれるのです。これは、AIと協働することが、単に作業を効率化するだけでなく、私たち人間の分析作法そのものを、より洗練されたものへと向上させてくれる可能性を示唆する、興味深い一例と言えるでしょう。
カテゴリーを正しく扱う:因子型への変換
データの中身を観察する中で、私たちは特に注意を払うべき変数に出会います。それは、性別、血液型、あるいは今回扱うデータセットに含まれる「人種(race)」のような、対象をいくつかのグループに分類するための変数です。このような変数は「カテゴリカル変数」と呼ばれます。
birthwtデータセットでは、「race」変数は「1が白人、2が黒人、3がその他」というように、数値で記録されています。もし私たちがこの数値をそのまま分析に使ってしまうと、統計モデルはこれを大小関係や順序を持つ「量的変数」として解釈してしまいます。つまり、モデルは「2(黒人)は1(白人)よりも大きく、3(その他)は2(黒人)よりも大きい」という、全く意味のない大小関係を前提に計算を進めてしまうのです 29。このような誤った解釈は、分析結果全体を歪め、無意味なものにしてしまいます。
この問題を解決するために、プログラミング言語Rでは「因子(factor)」という特別なデータ型が用意されています 30。因子型は、データが順序のない、独立したカテゴリーであることをコンピュータに明確に伝えるための仕組みです。私たちはAIアシスタントに「race変数に、1はWhite、2はBlack、3はOtherというラベルを付けて、因子型に変換してください」と指示します。この指示により、AIは
factor()という関数を使ったコードを生成します。この処理を行うことで、「race」変数は単なる数字の1, 2, 3から、「White」「Black」「Other」という具体的な意味を持つ、順序のないカテゴリーへと生まれ変わるのです 32。
統計学の世界では、このような処理は「ダミー変数化」という考え方と密接に関連しています 33。線形回帰分析のような手法は、基本的に数値を扱うように設計されています 35。そのため、カテゴリカル変数を分析に組み込む際には、それぞれのカテゴリーを「そのカテゴリーに属するか、属さないか」という、0か1で表現される一連の変数(ダミー変数)に変換する必要があるのです。Rで変数を因子型に変換すると、統計モデルを構築する際に、内部的にこのダミー変数化が自動的に行われます。これにより、モデルは各カテゴリーを独立したグループとして正しく認識し、それぞれのグループが目的変数に与える影響を個別に評価できるようになります。
この「因子型への変換」という一見地味なステップが、実は分析の妥当性を支える非常に重要な土台であることがお分かりいただけたでしょうか。これは、私たち分析者が持つ「人種のカテゴリー間には、優劣や順序といった量的関係は存在しない」という専門的な知識(ドメイン知識)を、数理的なモデルに正確に反映させるための、極めて重要な手続きなのです。この操作を通じて、私たちはコンピュータに、データをどのように解釈すべきかを教え込み、それによって初めて、モデルから得られる結果が現実世界を正しく反映した、意味のあるものとなるのです。AIに指示を出すという簡単な行為の裏側には、このような深い理論的な裏付けが存在していることを、常に意識しておくことが大切です。
線形回帰モデルの構築と解釈
最初のモデルを構築する:単純な線形回帰
データの準備が整いましたので、いよいよ本題である線形回帰モデルの構築に進みます。私たちの最初の問いは、「母親の年齢(age)と人種(race)は、赤ちゃんの出生時体重(bwt)にどのように関連しているか?」です。この問いを検証するため、AIアシスタントに次のように指示を出します。「bwtを目的変数、ageとraceを説明変数として線形回帰分析を行ってください」。
この指示を受け、AIはRのlm()という関数(linear modelの略)を用いたコードを生成します。具体的には、model <- lm(bwt ~ age + race, data = df)という形になるでしょう。この一行が、私たちの仮説を統計モデルという形に表現したものです。このモデルを実行し、summary(model)というコマンドで結果の要約を表示させると、分析の中核となる情報が示されます。ここでは、その主要な要素を一つずつ丁寧に解説していきましょう。
まず表示されるのが「係数(Coefficients)」です。これは、各説明変数が目的変数に与える影響の大きさを示す数値です。例えば、「age」の係数が「20」であったなら、それは「人種が同じであれば、母親の年齢が1歳上がると、赤ちゃんの出生時体重は約20グラム増加すると予測される」ということを意味します。
次に「p値(p-value)」です。これは、観測された説明変数の効果が、単なる偶然によって生じたものではないか、という可能性の度合いを示す指標です 36。統計学の世界では慣習的に、p値が0.05よりも小さい場合に「統計的に有意な差がある」と判断し、その変数の効果は偶然とは考えにくく、意味のあるものであると解釈します。
そして「R二乗値(R-squared)」も重要な指標です。これは、構築したモデルが、目的変数の変動(この場合は出生時体重の個人差)のうち、何パーセントを説明できているかを示す値です 17。値は0から1の間をとり、1に近いほどモデルの当てはまりが良いことを意味します。
さて、ここでカテゴリカル変数である「race」の係数の解釈について、特に注意が必要です。summary()の出力を見ると、「race」という項目そのものではなく、「raceBlack」や「raceOther」といった項目が表示されているはずです。これは、Rが因子型の変数を扱う際に、自動的に一つのカテゴリーを「基準(リファレンス)」として選び、他のカテゴリーの係数は、その基準との「差」として表現するためです。デフォルトでは、アルファベット順で最初のカテゴリー、この場合は「Black」でも「Other」でもない「White」が基準となります。したがって、「raceBlack」の係数が「-500」であったなら、それは「母親の年齢が同じであれば、黒人(Black)の母親から生まれた赤ちゃんは、白人(White)の母親から生まれた赤ちゃんに比べて、出生時体重が平均して約500グラム軽いと予測される」ということを意味します。
この重回帰分析の仕組みは、非常に巧妙です。それは、複数の説明変数の影響を、統計的に「切り分けて」評価することを可能にするからです。「age」の係数を解釈する際には「race」の影響が一定に保たれ、「race」の係数を解釈する際には「age」の影響が一定に保たれています。このように、他の条件を一定にした上で、ある一つの変数が持つ純粋な影響を評価できることこそが、重回帰分析の最大の強みなのです。
この分析は、単に未来を予測するツールであるだけでなく、一種の「統計的な思考実験」を行うための装置と考えることができます。私たちは、現実には不可能な「もし、人種が異なる二つのグループの母親たちの年齢構成が全く同じだったとしたら、出生時体重にはどれくらいの差が見込まれるだろうか?」という問いに、データを通じて答えることができるのです。このように、交絡因子(結果に影響を与える可能性のある、分析対象以外の因子)の影響を統計的に調整し、変数間の関係をより深く理解する能力は、科学的な探求において欠かせないものなのです。
結果を美しく伝える:サマリー表の作成と基準の変更
線形回帰モデルを構築し、その基本的な結果を得た後、次なるステップは、その結果を他者にも分かりやすく、そして論文やレポートにも掲載できるような美しい形式で提示することです。Rのsummary()関数による出力は、分析者にとっては詳細で有益ですが、情報量が多すぎて、そのままでは報告書に適しているとは言えません。
ここで、gtsummaryというパッケージのtbl_regression()関数が非常に役立ちます。AIアシスタントに「tbl_regression関数で解析結果のサマリーを作成してください」と指示するだけで、先ほどの複雑な出力が、まるで専門家が手作業で作成したかのような、洗練された表形式に整形されます。この表には、各変数の係数、その信頼区間、そしてp値などが、非常に見やすく整理されています。これにより、分析結果の要点を一目で把握し、他者と共有することが格段に容易になります。
さて、この整形された結果を眺めていると、あることに気づきます。それは、人種(race)の比較は「白人(White)」を基準(リファレンス)として行われている、ということです。結果は「黒人(Black)は白人と比べてどうか」「その他の人種(Other)は白人と比べてどうか」という形で示されています。しかし、研究の目的によっては、別の視点から結果を見たい場合もあるでしょう。例えば、研究の焦点が黒人コミュニティの健康状態にある場合、「白人やその他の人種は、黒人と比べてどうか」という問いの方が、より直接的で意味のある問いかけになるかもしれません。
このような視点の変更は、AIアシスタントへの簡単な指示で実現できます。「race変数のリファレンスを"Black"に変更してください」と伝えるのです。AIは、relevel()という関数を用いて、データセット内の因子型の基準レベルを変更するコードを生成します。この処理を行った後で、再度モデルを構築し、tbl_regression()で結果を表示させると、今度は「黒人(Black)」が基準となり、「White」と「Other」の係数が表示されるようになります。これらの新しい係数は、それぞれ白人とその他の人種が、黒人と比べて出生時体重にどのような差があるかを示しています。
ここで、少し立ち止まって、この「リファレンスの変更」という行為が持つ、単なる技術的な操作を超えた深い意味について考えてみましょう。どのカテゴリーを基準として選ぶかという決定は、実はその分析が語る「物語」の視点を決める、非常に重要な行為なのです。
「白人」を基準にすれば、分析の物語は「白人の経験を標準とし、他のグループがそこからどのように異なるか」という視点で語られます。これは、無意識のうちに基準となったグループを「標準」あるいは「正常」と位置づけ、他のグループを「逸脱」として描いてしまう可能性があります。一方で、「黒人」を基準にすれば、物語の焦点は変わり、「黒人の経験を基点として、他のグループはどのような状況にあるのか」という問いを立てることになります。これは、異なる経験を中心に据え、世界を別の角度から見つめ直す試みです。
特に、健康格差や社会的不平等といったテーマを扱う研究において、この基準の選択は決して些細な問題ではありません。それは、既存の社会構造や権力関係を無意識に反映してしまうこともあれば、意図的にそれに異議を唱えるための手段ともなり得ます。AIアシスタントは、リファレンスを変更する方法は教えてくれますが、なぜそのリファレンスを選ぶべきか、その選択が社会的にどのような意味合いを持つかまでは教えてくれません。
したがって、責任あるデータ分析者とは、自らが行う統計的な選択が持つ、このような物語的、あるいは倫理的な側面を自覚している人物です。なぜ特定のグループを基準に選んだのかを明確に説明できること、そして時には、複数の異なる視点からデータを理解するために、あえてリファレンスを変更して分析をやり直してみること。これらは、AIにはできない、人間ならではの深い洞察力と倫理観が求められる、極めて重要な実践なのです。
モデルを視覚で捉える:回帰直線のプロット
統計モデルから得られた数値的な結果は、正確ではありますが、直感的に理解するのが難しい場合があります。そこで、分析結果を視覚的に表現する「グラフ化」が非常に重要になります。特に、変数間の関係性を捉える回帰分析においては、データとモデルが描く直線を一枚の絵として見ることで、数値だけでは得られない深い理解が可能になります。
Rの世界では、ggplot2というパッケージが、美しく柔軟なグラフ作成のための標準的なツールとして広く使われています。私たちはAIアシスタントに「ggplotを用いて回帰直線のグラフを作成してください」と指示します。するとAIは、ggplot()関数を基盤としたコードを生成してくれるでしょう。
生成されたコードを実行すると、画面には次のようなグラフが現れるはずです。まず、背景には、データセットに含まれる一人ひとりの赤ちゃんを表す点が散らばっています。これが「散布図」です。横軸は母親の年齢、縦軸は出生時体重を表しており、それぞれの点がデータ全体の中でどのような位置にあるかを示しています。そして、これらの点の上には、人種(race)ごとに色分けされた3本の直線が引かれています。これが「回帰直線」であり、それぞれの人種グループにおける、母親の年齢と出生時体重の間の平均的な関係性を表しています。
しかし、ここで非常に注意深く観察する必要があります。ggplot2でごく一般的に使われるgeom_smooth(method = "lm")という命令は、私たちがこれまでに構築してきたモデルとは、実は少し異なるモデルを「勝手に」描画している可能性があるのです。私たちがlm(bwt ~ age + race)という式で構築したモデルは、「年齢が体重に与える影響(つまり直線の傾き)は、どの人種でも同じである」という仮定を置いていました。これを視覚的に表現するならば、3本の人種の線はすべて平行になるはずです。
ところが、AIが生成したであろう標準的なggplot2のコードは、人種ごとに色分け(color = race)を指定すると、親切にも人種ごとに「最適な」直線をそれぞれ計算して描画します。その結果、グラフ上の3本の直線は、それぞれ異なる傾きを持つ、平行ではない線として描かれます。この「傾きが異なる」状態を数式で表現すると、lm(bwt ~ age * race)となり、これは「交互作用モデル」と呼ばれるモデルに相当します。
この事実は、私たちに極めて重要な教訓を与えてくれます。それは、分析者が統計的に構築したモデルと、可視化ツールがデフォルトで表示するモデルとの間に、危険な「ずれ」が生じうるということです。もしこの「ずれ」に気づかなければ、私たちは、自分が立てた「平行な線」という仮説を検証しているつもりが、実際には「平行でない線」のグラフを眺めて、誤った解釈をしてしまうかもしれません。
この経験から私たちが学ぶべきことは、データの可視化とは、単に既存のモデルを中立的に描き出す作業ではない、ということです。可視化もまた、それ自体が一種の「モデリング行為」なのです。強力なツールの便利なデフォルト設定は、時として、私たち自身の分析を微妙に、しかし決定的に歪めてしまう可能性があります。熟練した分析者とは、ツールの単なる使い手ではなく、その挙動を熟知し、自らの仮説や統計モデルを正確に反映した視覚表現を意図的に作り出すことができる「主(あるじ)」でなければなりません。AIが生成したコードを鵜呑みにせず、その一行一行が何を行っているのかを理解し、必要であれば修正を加える。この批判的な視線こそが、人間による監督が不可欠であることの、何よりの証左と言えるでしょう。
また、グラフのタイトルや軸ラベルを日本語から英語に修正するという、一見些細な作業も行いました。これは、プログラミング環境における文字コードの問題(いわゆる「文字化け」)を回避するための実用的なテクニックですが、同時に、科学的な成果を国際的なコミュニティと共有する際の標準的な作法を学ぶ良い機会でもあります。
より現実に即したモデルへ
効果の相乗効果を探る:交互作用項の導入
私たちはデータの可視化を通じて、意図せずして「交互作用」という概念の入り口に立ちました。グラフに描かれた、人種ごとに傾きの異なる直線は、「母親の年齢が出生時体重に与える影響は、人種によって異なるのではないか?」という、より深く、より複雑な問いを私たちに投げかけます。ここでは、この「交互作用」という考え方を正式にモデルに組み込む方法を学びます。
交互作用とは、統計学的に言えば、「ある説明変数が目的変数に与える効果が、別の説明変数の水準(値)によって変化する」状況を指します 37。これは、物事の効果が単純な足し算では説明できない、一種の「相乗効果」や「条件付きの効果」と考えることができます。例えば、「ある新薬の効果が、男性と女性とで異なる」場合や 38、「広告の効果が、若者層と高齢者層とで違う」場合などが、交互作用の身近な例です。これらの状況では、「薬の効果」や「広告の効果」を単独で語ることはできず、「性別」や「年齢層」という条件とセットで語る必要があります。
この考え方を、私たちの出生時体重の分析に適用してみましょう。これまでのモデルlm(bwt ~ age + race)は、「年齢の効果は、どの人種でも同じである」という、かなり強い制約を課していました。しかし、現実には、人種に関連する様々な社会的・経済的要因(例えば、医療へのアクセスしやすさや栄養状態など)が、年齢と出生時体重の関係性に影響を与えている可能性は十分に考えられます。この可能性を探るために、私たちはAIアシスタントに「年齢と人種の交互作用項を追加してください」と指示します。
AIは、モデル式をlm(bwt ~ age * race)という形に変更するコードを生成します。このアスタリスク(*)記号が、Rにおいて交互作用項を含めることを意味する特別な記述です。この新しいモデルは、「年齢の効果」と「人種の効果」というそれぞれの主効果に加えて、「年齢と人種の組み合わせ効果」も考慮に入れます。
この交互作用モデルの結果の解釈は、少し注意が必要です。まず、ageの係数の意味が変わります。以前のモデルでは、これは全人種に共通の年齢の効果でしたが、交互作用モデルでは、これは「基準(リファレンス)カテゴリにおける年齢の効果」を指します。基準を「黒人(Black)」に変更した場合、ageの係数(例えば-41g)は、「黒人グループにおいて、母親の年齢が1歳増加するごとの出生時体重の変化量」を意味することになります。
では、他の人種グループにおける年齢の効果はどうなるのでしょうか。ここで「交互作用項」の係数が登場します。例えば、「age:raceWhite」という交互作用項の係数が「+63g」であったとします。これは、「白人(White)グループにおける年齢の効果は、基準である黒人グループの年齢の効果に比べて、63g大きい」ということを意味します。したがって、白人グループにおける年齢の効果は、二つの係数を足し合わせることで計算され、「-41g + 63g = +22g」となります。同様に、「age:raceOther」の係数が「+37g」であれば、その他の人種グループにおける年齢の効果は「-41g + 37g = -4g」と計算されます。
このように、交互作用モデルを導入することで、私たちは「母親の年齢と出生時体重の関係は、人種によって異なる」という、より現実に即した複雑な関係性をデータから読み取ることができるようになります。
交互作用項をモデルに加えるという決定は、単なる技術的な追加ではありません。それは、私たちが世界をどのように見ているかという、根本的な仮説の転換を意味します。単純な要素の足し算で世界が成り立っているという「主効果」の考え方から、要素間の関係性そのものが重要であるという、より複雑で相互依存的な「システム」としての考え方への移行です。グラフ上で線が平行でなくなることは 39、このより複雑で、そして多くの場合においてより真実に近い世界観を、視覚的に表現したものなのです。この一歩は、分析者が自らの専門知識に基づき、データに対してより深い問いを立てる、科学的探求の深化そのものであると言えるでしょう。
直線では描けない関係:非線形性のモデリング
これまで私たちは、交互作用という概念を導入することで、モデルをより現実に近づけてきました。しかし、私たちのモデルには、まだ一つ、非常に強い仮定が残されています。それは、「母親の年齢と出生時体重の関係は、直線で表せる」という「線形性」の仮定です 11。
この仮定は、本当に妥当なのでしょうか。例えば、母親の年齢と出生時体重の関係を考えてみると、年齢が非常に若い場合や、逆に高齢出産の場合には、出生時体重が伸び悩むかもしれません。一方で、20代から30代にかけては、年齢とともに体重が増加する傾向があるかもしれません。もしこのような「曲線的」な関係が存在する場合、それを無理やり一本の直線で表現しようとすると、モデルはデータのパターンを正確に捉えることができず、予測の精度が低下してしまいます。
統計モデルが持つ仮定が満たされているかどうかを確認する一つの方法は、「残差プロット」を調べることです。残差とは、モデルによる予測値と、実際の観測値との「ずれ」や「誤差」のことです。もしモデルがデータをうまく説明できていれば、この残差は特定のパターンを持たず、ランダムにばらついているはずです。しかし、もし線形モデルを非線形なデータに当てはめてしまった場合、残差プロットにはU字型のような明確なパターンが現れることがあります 40。これは、モデルがデータの特定の部分(例えば、年齢が低い領域と高い領域)で、系統的に予測を外していることを示す危険信号です。
このような状況に直面したとき、私たちは「線形」という制約を取り払い、「非線形」の関係をモデル化する手法に目を向ける必要があります 42。非線形モデリングは、直線では捉えきれない、より柔軟で複雑な変数間の関係性を表現するための強力なツールセットです 44。
ここで、分析プロセスにおける非常に重要な側面が浮かび上がってきます。それは、モデルの仮定を検証するという行為が、単なる技術的な確認作業ではないということです。それは、データが私たち分析者に「あなたの立てた仮説(モデル)は、現実を十分に説明できていませんよ」と語りかけてくる、対話のプロセスなのです。残差プロットに現れるパターンは、データからの「フィードバック」であり、それを受け取った私たちは、自らの仮説を修正し、より現実に即した、より洗練されたモデルへと発展させていく必要があります。
つまり、線形モデルから非線形モデルへと移行するという決定は、私たち分析者が、当初のシンプルな仮説が不十分であったことを認め、データが示す複雑さを受け入れる、知的な誠実さの表れです。これは、仮説を立て、データで検証し、得られた結果に基づいて仮説を修正するという、科学的探求の反復的なサイクルそのものなのです。次は、この非線形性を捉えるための、具体的で強力な手法の一つである「制限付き三次スプライン」について学んでいきます。
曲線で捉える:制限付き三次スプライン(RCS)
直線という制約が現実をうまく捉えきれないとき、私たちはより柔軟な「曲線」でデータ間の関係を表現する必要があります。しかし、単に複雑な曲線を当てはめようとすると、今度は「過剰適合(オーバーフィッティング)」という別の問題に直面します。これは、モデルがデータの細かなノイズにまで過剰に反応してしまい、そのデータセットに特化しすぎた、汎用性のないモデルになってしまう現象です。
このジレンマを解決するための洗練された手法の一つが、「制限付き三次スプライン(Restricted Cubic Spline, RCS)」です 46。この少し難しそうな名前の手法を、噛み砕いて説明しましょう。
スプラインとは、データ全体をいくつかの区間に分け、それぞれの区間を滑らかな多項式(この場合は三次関数、つまりグラフがS字カーブを描くような関数)でつないでいくことで、柔軟な一本の曲線を描く技術です。区間の区切り目となる点のことを「ノット(knot)」と呼びます 47。ノットの数を増やすほど、曲線はより複雑でしなやかになります。
そして、この手法の鍵となるのが「制限付き(Restricted)」という部分です。これは、データの両端、つまり年齢が最も低い領域と最も高い領域では、曲線を強制的に「直線」にするという制約を課すことを意味します 48。なぜこのような制約が必要なのでしょうか。それは、データの端の領域は、一般的にデータ点が少なく、情報が乏しいからです。そのような場所で無理に複雑な曲線を当てはめようとすると、モデルは非常に不安定になり、非現実的な予測をしてしまう危険性が高まります。両端を直線にすることで、この不安定さを抑え、より滑らかで解釈しやすい曲線を得ることができるのです。この特徴から、RCSは特に医療や疫学の分野で広く用いられています 46。
さて、この高度な分析を、私たちはAIアシスタントへの指示によって実行します。「線形回帰モデルの年齢に制限三次スプラインを当てはめてください」と伝えるだけで、AIは一連の複雑なコードを生成します。その内容は、大きく分けて次のようになっています。
まず、RCSを扱うための専門的なパッケージ(rms)や、結果をグラフにするためのパッケージ(ggeffects)を読み込みます。次に、モデル式の中で、ageという変数をrcs(age, 4)という形に書き換えます。この4という数字が、先ほど説明したノットの数を指定しています。そして、このモデルには、交互作用(* race)も含まれているため、最終的には「人種ごとに形が異なる、柔軟な非線形曲線」を当てはめる、非常に洗練されたモデルが構築されます。
モデルを構築しただけでは、その結果を理解するのは困難です。そこで、AIは次にggeffectsパッケージのggpredict()という関数を使い、構築したモデルから、各人種における年齢ごとの出生時体重の「予測値」とその「信頼区間」を計算します。最後に、この計算された予測値と信頼区間をggplot2を用いてグラフに描画します。
その結果として得られるグラフは、これまでの直線とは全く異なる、示唆に富んだものになるでしょう。人種ごとに色分けされた、滑らかな曲線が描かれ、年齢と出生時体重の間の非線形な関係性が一目瞭然となります。例えば、ある人種の曲線は20代後半でピークに達し、その後緩やかに下降する、といったパターンが見て取れるかもしれません。また、グラフの軸の範囲を調整するcoord_cartesian()という命令をAIに指示することで、データの最も密な部分に焦点を当て、曲線の変化をより詳細に観察することも可能です。
ここで、私たちはAI時代の研究者が直面する新たな課題に気づかされます。それは、統計手法における「ブラックボックス」の問題です。かつては専門家が数式を深く理解し、手計算に近い形で実装していたような高度な手法が、今や簡単な自然言語の指示一つで実行できてしまいます。これは驚異的な効率化ですが、同時に、その手法の内部的な仕組みや、ノットの数の選択といった重要なパラメータの意味を十分に理解しないまま、結果だけを利用してしまう危険性もはらんでいます。
AIは「4つのノットを持つスプライン」を提案してくれるかもしれませんが、それがこの生物学的な現象を捉える上でなぜ適切なのか、なぜ3つや5つではいけないのか、という科学的な妥当性までは判断してくれません。したがって、AIによって高度な手法へのアクセスが容易になればなるほど、私たち分析者の役割は、手法の「実装」から、その「妥当性の検証」と「選択の正当化」へとシフトしていくのです。この記事の目的は、単にRCSのグラフを描く方法を示すことだけではありません。その背後にある考え方を理解し、AIが生成した結果を賢明に評価し、自らの分析に責任を持つことができる、真に知的な使い手となるための知識を提供することにあるのです。
AI時代のデータサイエンティストとして
分析のその先へ:相関と因果、そしてモデルの選択
これまで、私たちはAIアシスタントの助けを借りながら、単純な線形モデルから、交互作用や非線形性を取り入れた複雑なモデルへと、分析を発展させてきました。しかし、洗練されたモデルを構築し、美しいグラフを描くだけでは、責任あるデータ分析は完結しません。ここでは、分析結果を正しく位置づけるために不可欠な、二つの重要な概念について考えます。
一つ目は、「相関関係は因果関係を意味しない」という、データ分析における黄金律です。私たちが構築したモデルが、母親の年齢や人種と出生時体重との間に強い統計的な関連性(相関)を示したとしても、それは直ちに「年齢や人種が、出生時体重の『原因』である」と結論づけることを許すものではありません 21。例えば、観察された関連性の背後には、私たちのモデルに含まれていない、第三の変数(交絡因子)が隠れている可能性があります。もしかしたら、教育水準や社会経済的地位といった要因が、母親の年齢と出生時体重の両方に影響を与えているのかもしれません。回帰分析は、あくまで変数間の「関連のパターン」を記述する強力なツールであり、因果関係を証明するためには、ランダム化比較試験のような、より厳密な研究デザインが必要になるのです 22。
二つ目は、「モデル選択」の問題です。私たちはこれまでに、いくつかの異なるモデルを構築しました。説明変数を単純に足し合わせたモデル、交互作用項を加えたモデル、そして非線形性を許容したスプラインモデル。これらの中で、どれが「最も良い」モデルなのでしょうか。
ここで陥りがちな罠が、手元のデータに対する「当てはまりの良さ」だけを追求してしまうことです。一般的に、モデルに説明変数を追加したり、複雑な曲線を使ったりすればするほど、そのモデルは今あるデータに対しては、より良く当てはまるようになります。しかし、これは必ずしも良いことではありません。モデルが複雑になりすぎると、「過学習(overfitting)」という状態に陥る危険性が高まります 50。過学習とは、モデルがデータの本質的な傾向だけでなく、そのデータに偶然含まれていた「ノイズ」にまで過剰に適合してしまった状態のことです 52。このようなモデルは、学習に使ったデータセットでは高い精度を示しますが、いざ新しい、未知のデータに対して予測を行おうとすると、全く役に立たない、という事態を引き起こします。
では、私たちはどのようにして、モデルの「当てはまりの良さ」と「複雑さ」のバランスを取ればよいのでしょうか。この難しい問題に対する一つの指針を与えてくれるのが、「赤池情報量規準(Akaike Information Criterion, AIC)」です 54。AICは、日本の統計学者である赤池弘次博士によって考案された指標で、モデルの性能を評価するために世界中で広く使われています 56。
AICの計算式そのものは少し複雑ですが、その考え方は非常に明快です。AICは、モデルの当てはまりが良いほど値が小さくなる一方で、モデルに含まれるパラメータ(説明変数)の数が増えるほど、罰則(ペナルティ)として値が大きくなるように設計されています 58。つまり、AICはモデルの「複雑さ」に対してペナルティを課すことで、単純さと当てはまりの良さの間の最適なバランス点を探し出そうとするのです 59。複数のモデルを比較する際には、このAICの値が最も小さいモデルが、一般的に「最も良い」モデルであると判断されます 60。
AICという指標を用いることは、私たちの分析の目的が何であるかを、改めて明確にしてくれます。私たちのゴールは、手元にある過去のデータを完璧に説明する、最も複雑なモデルを見つけ出すことではありません。私たちの真の目的は、将来得られるであろう未知のデータに対しても、うまく機能する(専門用語で言えば「汎化性能が高い」)モデル、つまり、物事の本質的な構造を捉えた、よりシンプルで普遍的なモデルを見つけ出すことなのです。AICは、私たち分析者に対して、不必要な複雑さを戒め、より倹約的(parsimonious)なモデルを志向するよう促す、統計的良心とも呼べる指標なのです。この考え方は、AIがどれだけ複雑なモデルを提案してきたとしても、その妥当性を判断する上で、人間が持つべき重要な指針となります。
AIのメリットとデメリット:効率化、再現性、そしてバイアス
いよいよ、終わりに近づいてきました。ここでは、これからの時代のデータサイエンティストに求められる姿勢について、深く考察したいと思います。
まず、AIがもたらす「光」の側面です。AIコーディングアシスタントは、私たちの生産性を劇的に向上させました 1。かつては何時間もかかっていたであろう複雑なコードの記述や、高度な分析手法の実装が、今や簡単な指示一つで瞬時に行えます。これにより、私たちは退屈な作業から解放され、問いを立て、結果を解釈し、洞察を生み出すという、より人間的な、創造的な活動に集中することができるようになりました 7。また、専門知識の壁が低くなったことで、より多くの人々がデータ分析に参加できるようになったことも、大きな進歩と言えるでしょう。
しかし、その輝かしい光の裏には、私たちが注意深く見つめなければならない「影」も存在します。
第一の影は、「再現性」の問題です。科学の進歩は、ある研究者が行った発見を、別の研究者が同じ手順で追試し、同じ結果が得られること、すなわち再現性によって支えられています 61。しかし、AI、特に大規模言語モデルは、その内部に確率的な振る舞いを含むため、同じ指示(プロンプト)を与えても、常に全く同じコードや結果を生成するとは限りません 26。また、AIツールのバージョンアップや、実行環境のわずかな違いが、結果に影響を与える可能性もあります。したがって、AIを用いた分析では、使用したツールのバージョン、与えたプロンプト、そして実行環境といった情報を、これまで以上に詳細に記録し、共有することが、科学的な厳密さを保つ上で不可欠となります 27。
第二の、そして最も深刻な影は、「バイアス」の問題です。AIは、魔法のように中立的な答えを導き出すわけではありません。AIは、学習したデータからパターンを学ぶ機械です 63。もし、その学習データに、私たちの社会が持つ偏見や不平等が反映されていたとしたら、AIはそのバイアスを忠実に学習し、時には増幅させてしまうことさえあるのです 64。
その事例は、枚挙にいとまがありません。Amazonが開発した採用AIは、過去のデータから「男性が採用されやすい」というパターンを学習した結果、履歴書に「女子大学」といった単語が含まれる女性候補者を不当に低く評価してしまいました 66。また、ある顔認証システムは、学習データに白人男性の画像が偏っていたため、肌の色の濃い女性を正しく認識する精度が著しく低いという問題を引き起こしました 63。
これらの事例は、私たちに重い問いを突きつけます。私たちが今回分析したbirthwtデータセットに含まれる「race」という変数も、決して単なる客観的なデータではありません。それは、複雑な社会的・歴史的背景を持つ分類であり、そのデータが収集される過程には、様々なバイアスが介在している可能性があります。AIは、データの中に存在する人種間の出生時体重の差を統計的なパターンとして示してくれますが、そのパターンが何を意味するのか、その背景にどのような社会構造があるのかまでは教えてくれません。
このことから導かれる結論は、極めて明確です。AIを科学的な分析に用いることは、私たち人間の責任を軽減するのではなく、むしろ、これまで以上に増大させるのです。これからの分析者に求められるのは、単なるツールの使い手であることではありません。自らが扱うデータの文脈を深く理解し、AIが生み出した結果を批判的に吟味し、その出力に潜むバイアスを敏感に察知し、そして分析結果が社会に与える影響にまで思いを巡らせる、「監査役」であり「倫理学者」としての役割です。
AIは、私たちに「何が(What)」データの中にあるかを教えてくれます。しかし、「なぜ(Why)」そのパターンが存在するのか、そして「だから何(So What)」をすべきなのかを問うのは、最終的には私たち人間の知性と倫理観に委ねられているのです。AI時代のデータサイエンティストにとって最も重要なスキルは、プロンプトエンジニアリングやコーディングの技術ではなく、この「なぜ?」と問い続ける、批判的思考力に他なりません。それこそが、AIには決して代替できない、私たち人間の最後の砦なのです。
おわりに
私たちは、GeminiやChatGPTといったツールが、データ分析の世界を根底から変革しつつある時代の目撃者です 2。これらのツールは、複雑な分析への扉を、かつてないほど多くの人々に開きました。対話形式でデータを探索し、瞬時に可視化し、高度なモデルを構築する 70。このような未来の光景は、もはやSFの世界の話ではなく、私たちの日常になりつつあります 73。
この記事を通じて、私たちはその変革の一端を実際に体験しました。データの読み込みから始まり、変数の型を整え、単純なモデルから交互作用や非線形性を含む洗練されたモデルへと、一歩ずつ分析の階段を上ってきました。そのすべてのステップで、AIは私たちの指示を忠実に実行し、強力なパートナーとして支えてくれました。
しかし、それと同時に、私たちはAIが決して万能ではないことも学びました。ツールのデフォルト設定に潜む罠、再現性の確保という課題、そして何よりも、データに埋め込まれたバイアスを無批判に学習してしまうという深刻な危険性。これらの「影」の側面は、AIというツールの力を借りれば借りるほど、私たち人間の側に、より深い洞察力と、より強い倫理観が求められることを教えてくれます。
未来のデータ分析は、間違いなく人間とAIの協働作業となるでしょう 74。AIが自動化された機械学習(AutoML)のトレンドを加速させ、データ準備からモデル構築までの多くを担うようになる一方で 76、私たち人間の役割は、より戦略的で、より創造的な領域へとシフトしていきます 7。それは、解くべき価値のある問いを発見する好奇心、データの背景にある文脈を理解する専門知識、そして、分析から得られた知見を社会のために正しく用いるという、科学への誠実な姿勢です。
引用文献
- おすすめのコーディングAI5選!AI選びのポイント、活用のコツも紹介 | 侍エンジニア, https://generative-ai.sejuku.net/blog/4749/
- AIコーディングツールの比較 - Zenn, https://zenn.dev/ippeisuzuki/articles/7771756563301b
- AIデータ分析の事例やChatGPTを使ったやり方に無料ツールなど解説, https://www.kiyono-co.jp/post/ai-data-analysis
- Data Analytics in 2025: How AI Will Revolutionize Decision-Making, https://datahubanalytics.com/data-analytics-in-2025-how-ai-will-revolutionize-decision-making/
- データサイエンス/AI活用事例 | TDSE株式会社, https://www.tdse.jp/case-study/
- AIによるデータ分析を使いこなすには?メリットや重要性、活用手法を徹底解説, https://www.nttdata-kansai.co.jp/media/089/
- How Does AI Impact the Future of Data Analysis? - Julius AI, https://julius.ai/articles/how-does-ai-impact-the-future-of-data-analysis
- AI for Data Analytics | Google Cloud, https://cloud.google.com/use-cases/ai-data-analytics
- Practical Guide to Using AI in Data Science Workflows - Plotly, https://plotly.com/blog/practical-guide-ai-in-data-science-workflows/
- ai365.jp, 線形回帰分析とは?活用例から使い方、単回帰分析と重回帰分析の違いまで解説 - AI365
- 読者の疑問に答える!線形回帰分析の「線形」はどういう意味? - GRI, https://gri.jp/media/entry/6979
- bellcurve.jp, 1-5. 説明変数と目的変数 | 統計学の時間 | 統計WEB
- 特徴量とは?目的変数・説明変数との違いや機械学習における重要性も - AIsmiley, https://aismiley.co.jp/ai_news/what-is-characteristic-ai/
- 説明変数と目的変数 | プログラミング学習サイト【侍テラコヤ】, https://terakoya.sejuku.net/question/detail/41500
- 【徹底解説】説明変数と目的変数 - Staat, https://corvus-window.com/explanatory-variable_and_response-variable/
- 機械学習 - 目的変数と説明変数の特徴量との違い - Qiita, https://qiita.com/idedede/items/cc95f47bd97a3a2a95ea
- 線形回帰とは? 10分でわかりやすく解説 - ネットアテスト, https://www.netattest.com/linear-regression-2024_mkt_tst
- 回帰分析とは?単回帰と重回帰に関して解説! - AI Academy Media, https://aiacademy.jp/media/?p=236
- 重回帰分析とは? ~目的から手順や注意点までわかりやすく解説 - NTTデータ イントラマート, https://www.intra-mart.jp/im-press/useful/multi-regression_analysis
- 回帰分析とその主な目的。単回帰分析・重回帰分析・ロジスティック回帰分析の違いについて - アタリマエ!, https://atarimae.biz/archives/18707
- r-portal.gmo-research.ai, 相関関係と因果関係の違いは?事例や区別方法をわかりやすく解説 | リサーチトレンドナビ by GMO
- 相関関係と因果関係の違いは?事例や区別方法をわかりやすく解説 - リサーチポータル, https://r-portal.gmo-research.ai/trendnavi/articles/causality-correlation/
- 相関関係と因果関係とは?データ分析や統計の基本概念とその違いを解説 - マクロミル, https://www.macromill.com/service/words/correlation-causation/
- Hypothesis generation project - Chicago Human+AI Lab (CHAI), https://chicagohai.github.io/hypogenic-demo/
- The Rise of Hypothesis-Driven Artificial Intelligence in Oncology - PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC10886811/
- Reproducible AI: Why it Matters & How to Improve it in 2025 - Research AIMultiple, https://research.aimultiple.com/reproducible-ai/
- jupyterlab/jupyter-ai: A generative AI extension for JupyterLab - GitHub, https://github.com/jupyterlab/jupyter-ai
- 線形回帰とは? - 線形回帰モデルの説明 - AWS, https://aws.amazon.com/jp/what-is/linear-regression/
- ダミー変数とは? - セイコンサルティンググループ, https://saycon.co.jp/archives/neta/%E3%83%80%E3%83%9F%E3%83%BC%E5%A4%89%E6%95%B0%E3%81%A8%E3%81%AF%EF%BC%9F
- 5 forcats: factor | R for data science: tidyverse and beyond - Bookdown, https://bookdown.org/Maxine/r4ds/forcats-factor.html
- 第18 章因子型变量| 数据科学中的R 语言 - Bookdown, https://bookdown.org/wangminjie/R4DS/tidyverse-forcats.html
- 10 R因子类型| R语言教程, http://www.math.pku.edu.cn/teachers/lidf/docs/Rbook/html/_Rbook/prog-type-fact.html
- 重回帰分析をわかりやすく解説 - AVILEN, https://avilen.co.jp/personal/knowledge-article/multiple-regression-analysis/
- ダミー変数を活用して、重回帰分析をもっと柔軟に使いこなそう! - サイカ, https://xica.net/xicaron/about-dummy-variables/
- 10-1-4 ダミー変数・単回帰係数の性質 ~ 初任給は何に使いましたか? - note, https://note.com/e_dao/n/nfa66e254ebd1
- 線形単回帰分析の仕組みをわかりやすく解説 - AVILEN, https://avilen.co.jp/personal/knowledge-article/simple_linear_reg/
- 交互作用項があるときの主効果の回帰係 - 粕谷英一, http://kasuya.ecology1.org/stats/GLMIntMain100311.pdf
- 「交互作用」とはなにか:介入効果が一様でないときの統計手法~その目的と分類、解釈, https://www.krsk-phs.com/entry/interaction
- 交互作用とは?主効果との関係や交互作用の有無を判定するやり方 ..., https://gmo-research.ai/research-column/interaction
- 【徹底解説】残差プロット - Staat, https://corvus-window.com/all_residual-plot/
- 3.7 残差の分析 | 2023年度:データサイエンス 第4回 - Bookdown, https://bookdown.org/masayukeeeee/jiyu-dslec-2023-04/residuals-analysis.html
- 非線形回帰分析入門 -生物実験データ解析の基礎, https://www.yukms.com/biostat/takahasi/rec/archive/semi16.pdf
- www.mdf-soft.com, 非線形回帰チュートリアル - GraphPad Prism
- 非線形回帰について理解する - Support - Minitab, https://support.minitab.com/ja-jp/minitab/help-and-how-to/statistical-modeling/regression/supporting-topics/nonlinear-regression/understanding-nonlinear-regression/
- <学習シリーズ>線形モデル編:多項式回帰/非線形回帰|KIYO - note, https://note.com/kiyo_ai_note/n/n0a9222225f57
- R で 制限付き 3 次スプライン曲線を二値アウトカムの場合に書く方法, https://best-biostatistics.com/toukei-er/entry/r-for-restricted-cubic-spline-curve-with-binary-outcome/
- 【簡単にわかりやすく】スプライン関数による曲線補間 | Quant College, https://quantcollege.net/glossary-spline-interpolation
- 一般化加法モデルを用いた回帰分析① #機械学習 - Qiita, https://qiita.com/tabintone/items/96afd222d92e876c51d1
- 相関関係と因果関係【マーケターのためのデータサイエンスの時間】 - デジマール株式会社, https://digimarl.com/syllabus/data-science-no9/
- 過学習(過剰適合 / オーバーフィッティング)とは?意味を分かりやすく解説 - IT用語辞典 e-Words, https://e-words.jp/w/%E9%81%8E%E5%AD%A6%E7%BF%92.html
- 過学習 | 用語解説 | 野村総合研究所(NRI), https://www.nri.com/jp/knowledge/glossary/overfitting.html
- 線形回帰の過学習を抑えよう ~Ridge回帰とLasso回帰~ | Nature Insight ネイチャーインサイト株式会社, https://www.n-insight.co.jp/niblog/20190917-1351/
- 過学習と正則化について簡単解説 - AVILEN, https://avilen.co.jp/personal/knowledge-article/regularization/
- データ解析 第三回「回帰分析」, https://ibis.t.u-tokyo.ac.jp/suzuki/lecture/2015/dataanalysis/L3.pdf
- bellcurve.jp, 赤池の情報量規準(AIC)の計算方法 | ブログ | 統計WEB
- AICとはどんな指標?医療統計で変数選択(モデル選択)するときに有用!, https://best-biostatistics.com/correlation_regression/aic.html
- 赤池情報量規準 - Wikipedia, https://ja.wikipedia.org/wiki/%E8%B5%A4%E6%B1%A0%E6%83%85%E5%A0%B1%E9%87%8F%E8%A6%8F%E6%BA%96
- AIC(赤池情報量基準)とは - AVILEN, https://avilen.co.jp/personal/knowledge-article/aic/
- 【回帰分析】モデル選択基準を利用して最適な説明時変数を選択する - データと統計学, https://df-learning.com/multiple_regression_model3/
- 赤池の情報量規準(AIC)の計算方法 | ブログ | 統計WEB, https://bellcurve.jp/statistics/blog/15754.html
- 研究の再現性に影響する5つの要素 - 学術英語アカデミー - エナゴ, https://www.enago.jp/academy/reproducibility-in-scientific-research
- marimo | a next-generation Python notebook, https://marimo.io/
- 社会問題にもなったAIのバイアスはなぜ起きる? リサーチャーが解説|Torus (トーラス)by ABEJA, https://note.com/torus_abeja/n/n2a7b80fb941f
- AIのバイアスのほんとうの問題は人間が気づかないバイアスだ - Exploratory, https://exploratory.io/note/kanaugust/AI-Ovn6qsG5wr/note_content/note.html
- AIにおける公平性とバイアスについて | SS&C Blue Prism, https://www.blueprism.com/japan/resources/blog/bias-fairness-ai/
- 【AIは本当に公平?】知らないと危険!身近に潜むAIバイアスの実例と対策法, https://nuco.co.jp/blog/article/pyMPC-iM
- プロが警告!知らないと危険なAIバイアスの実態と解決法を説明します。 - 【公式】カリスマAI by Automagica | 生成AI受託開発, https://corp.automagica.ai/topics/post-126
- AIを活用したデータ分析のすすめ - 見える化エンジン, https://www.mieruka-engine.com/media/ai-analytics
- How Conversational AI Simplifies Data Analysis for Everyone, https://julius.ai/articles/how-conversational-ai-simplifies-data-analysis-for-everyone
- What Is Conversational Analytics? - IBM, https://www.ibm.com/think/topics/conversational-analytics
- DataChat | The No-Code, Conversational Analytics Platform, https://datachat.ai/
- Conversational AI: Chat Your Way to Document Insights - ATLAS.ti, https://atlasti.com/conversational-ai
- DataGPT - Conversational AI Data Analyst, https://datagpt.com/
- julius.ai, https://julius.ai/articles/how-does-ai-impact-the-future-of-data-analysis#:~:text=AI%20will%20continue%20to%20revolutionize,rather%20than%20manual%20data%20processing.
- Machine Learning: Top ML Trends in 2025 | by Sidra Awan - Medium, https://medium.com/@sidraawan/machine-learning-top-ml-trends-in-2025-a800f89c534c
- Top 7 AutoML Tools Revolutionizing Business in 2025 - Graphite Note, https://graphite-note.com/top-automl-tools/
- Top 13 Machine Learning Technology Trends CTOs Need to Know in 2025 - MobiDev, https://mobidev.biz/blog/future-machine-learning-trends-impact-business
- Half of Delhi students surveyed rely on AI for studies, but trust and access remain hurdles: Study, https://timesofindia.indiatimes.com/city/delhi/half-of-delhi-students-surveyed-rely-on-ai-for-studies-but-trust-and-access-remain-hurdles-study/articleshow/122393200.cms