ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog

テクノロジー

2009.09.07

Inside Yahoo!メール第2話「分析！迷惑メール」

こんにちは、ソーシャルネット開発部の島貫和也です。

本連載では、今まであまり触れられてこなかったYahoo!メールの迷惑メール対策と、電子メールに関連する情報をご紹介しています。今回は前回に引き続き、Yahoo!メールで実施している Botnet の分析と対策について、その取り組みの一部をご紹介させていただきます。

ご注意

出典元の説明のため、いくつか外部リンクがあります。リンク先については保証しておりませんのでご了承ください。
この記事の性質上、迷惑メールの性質や送信手法について触れている箇所がありますが、電子メールやコンピュータの不正利用を助長する意図のものではありません。読み物としてお楽しみください。

はじめに

前回の記事で、迷惑メールの発信は主に海外の Botnet へ移っていることを資料を交えて説明させていただきました。国内では OP25B と呼ばれる施策によって迷惑メール発信が減りましたが、依然として海外から大量の迷惑メールが送られ続けています。

ただ、迷惑メールが主に海外から発信されるといっても、対象が広すぎると調査に時間が掛かってしまいます。さらに、正常なメール発信元との判別も行わなければならないため、作業の手間も増えてしまいます。そこで今回はYahoo!メールが設置しているハニーポットアカウントを利用し、調査を行うこととしました。

ハニーポットとは

ハニーポット(Honeypot) とは、サービスの不正利用を検知するため意図的に設置したシステムのことです。Yahoo!メールでは、いわゆる「おとりメールアドレス」として、ハニーポットアカウントを複数設置し運用しています。これらハニーポットには毎日多くのメールが着信していますが、そのすべてがいわゆる「迷惑メール」にあたる広告・宣伝メールです。

ハニーポットのメールアドレスでは、いかなるサイトにも登録していませんし、メールマガジンも購読していません。特定のあて先からメールを受け取る許可がある状態のことを「オプトインがある」 ¹ といいますが、ハニーポットはオプトインを取った発信元がありません。つまり、本来ならば"誰からもメールを受け取ることのないメールアドレス"のはずです。にもかかわらず、ハニーポットは迷惑メールを受信できます。これは、ハニーポットのメールアドレスを Yahoo! JAPAN サイト内で露出しているからです。

迷惑メール発信者は、まず自分の広告・宣伝メールを送信したい「あて先」を集める必要があります。これにはさまざまな方法が考えられますが、その一つにウェブサイトのクロールを行ってメールアドレスを得る方法があります。この方法では、ウェブサイトからメールアドレスらしき文字列を取り出すプログラムを動作させればよいので、メールアドレス収集が自動化でき、手間が省けます。Yahoo!メールのハニーポットは、人間が見ると意識されにくく、クローラには発見されやすいよう設置してあるため、効果的に迷惑メールを収集することが可能になっています。

ハニーポットに着信したメールの分析

では、Yahoo!メールのハニーポットに着信したメールをいろいろな角度から分析してみましょう。分析の過程で、迷惑メール発信に特徴的なパターンが分かれば、より多角的な分析も可能になるはずです。（調査データは2009年8月に着信した主に日本語のメールを使用）

まずは、迷惑メールのコンテンツの傾向を調査しました。

fig.1 カテゴリは、迷惑メールの内容としての分類です。これを見ると出会い系（アダルト含む）のメールが全体の8割を占めていることがわかります。アダルト系の迷惑メールは見ていて特に不快に感じますが、これだけ割合が多いということは、コンバージョン（配信に対する効果）が高く広告主の関心が強い、ということを示していると考えられます。

次に、迷惑メールが"どのような名目で"送られてきているかを調査したものが fig.2 パーミッションです。
まず注目していただきたいのが「オプトイン偽装」です。オプトインとは、先に説明した通りメールを受け取る許可のある状態のことをいいますが、オプトイン偽装では受信者があたかもこのメールを望んで受け取っているような文面にすることで、正当なメールマガジンに見せかけようとするものです。このようなメールの場合、ご丁寧に「配信停止はこちら」という窓口まで設けられていることもあります。もちろん、そこに連絡を取ることは受信者の存在をメール送信者に知らせることになってしまうので避けるべきです。

次に多かったのが、あたかも親しい友人や取引先から送られてきたかのような件名・差出人になっている迷惑メールでした。本稿では、これを「ソーシャル偽装」と呼ばせていただきます。迷惑メールの広告主にとって、迷惑メールは自サイトへ誘導する手段でしかありませんので、受信者に「メール本文を見てもらう」必要があります。そのためには、メール一覧画面で表示される件名・差出人だけでメールの内容を想像させ、本文へと誘導しなければなりませんが、個人的なメールであることを装えばメール本文を見る可能性が高くなるとも考えられます。

このように、単に迷惑メールといっても、そのコンテンツを巧妙なものにすることでメールの費用対効果を高めているのです。

fig.3 はメールの形式です。着信した迷惑メールのほとんどが、テキスト形式のメールでした。HTML 形式のメールであれば、画像や豊富な書式を利用できますが、そのような迷惑メールは多くないようです。日本ではテキスト形式のメールが普及しているという事情もあるのかもしれません。
fig.4 はメール発信に利用されたIPアドレスを、国別で示したものです。調査対象では、アジア圏から発信されたものがすべてを占めており、日本から発信された迷惑メールは皆無でした。

このほかの項目として、ハニーポットに着信したメールの発信元と、迷惑メール報告された発信元を比較したところ、全て一致していました。また、whois を利用したメール発信元調査を実施したところ、いずれも特定の ISP に集中していることが明らかになりました。しかも、迷惑メール発信は、ISP の所有するIPアドレス帯に広く分散していました。

以上のように、ハニーポットに着信したメールを多角的に分析しました。その結果、迷惑メール発信に必ず含まれる次のような特徴的なパターンが分かりました：

メール発信元が海外になっている
特定の ISP のアドレス帯に集中している
迷惑メール報告の申告も集中している

これらから導き出される結論として、現在の迷惑メール発信は、海外のインターネット接続利用者から直接発信されているということが言えます。前回の記事でも触れましたが、ISP から大量の迷惑メールを直接送信できると考えられるものは Botnet に他なりません。

今回はハニーポットに着信する迷惑メールを調査しましたが、このようなアプローチでも迷惑メール発信＝ Botnet という図式に行き当たりました。Botnet が迷惑メール送信基盤としての地位を確立している、とも言えるでしょう。

Botnet を「可視化」する

これまでの調査から、迷惑メール発信を行っている発信元の特徴的なパターンが明らかになりました。これは、言い変えますと Botnet が存在するエリアのパターンであるとも言えます。これらメール送信の特徴を分析すれば、Botnet に対する効果的な対策を実施することができるわけです。

Botnet が存在するエリアの分析手法にもいろいろな方法が考えられますが、今回は記事として分かりやすいように Botnet を「可視化」した分析結果をご紹介したいと思います。（調査データは2009年の迷惑メール報告の統計を利用）

まずは以下の図をご覧ください。

これはある国内 ISP のIPアドレス帯を可視化したものです。横に伸びるバーひとつが /20のサブネット ² （4096個のIPアドレス）を示しており、このアドレス帯では並んだバーの合計で /16 サブネット、65536個のIPアドレスがあることが分かります。
すべてのバーの色は「白」ですが、これはこのアドレスから迷惑メールが発信されていないことを示します。つまり、Botnet による迷惑メール発信がないことを示しています。
もちろん、迷惑メールが発信されていないからといって Botnet が存在していないわけではありません。日本の ISP は OP25B を実施しているため「Botnet が存在していないように見える」だけと考えられるからです。ただ、この ISP からは迷惑メールが発信されていないのですから、今回私たちが憂慮するには値しません。

問題は海外の ISP です。

画像を見ると一目瞭然、Botnet が寄り固まって分布していることが分かります。特に、ピンクのラインで示した部分については、/24 (256個のIPアドレス)帯すべてに Botnet が存在するように見えます。

次の例を見てみます。

こちらも、海外の ISP を可視化したものです。こちらの例では、広大なアドレス帯に Botnet が分布しているように見えます。

このように、Botnet は ISP に割り当てられたアドレス帯に広く分布していることが分かります。ISP ごとに Botnet の分布の仕方が異なりますが、これは ISP によるIPアドレスの運用方法に依存するために変化しているものとも考えられます。例えば、割り当てるグローバルIPアドレスを定期的に変更するようなISPの場合は、Botnet が移動しているように見えることになります。

ここまでは、特定のIPアドレス帯の迷惑メール発信のパターンを見てきましたが、角度を変えて、時系列での発信パターンを見てみましょう。

これも海外の ISP のアドレス帯（/18, 16384個のIPアドレス）についてサンプリング調査したものですが、ある時点（ここでは2009/7/4 5:00）から何の前触れもなく突然迷惑メールが送られるようになりました。
このパターンで想定されるシナリオとしては、ISP のIPアドレス運用方法が突然変更されたことや、ここに存在していた Botnet が突然活動を開始したことが考えられます。

このように Botnet は存在するエリアが変わったり、突然活発に活動するなど、ダイナミックな振る舞いをすることが確認できました。

Yahoo!メールでの Botnet 対策

「可視化」分析により、OP25B が行われていない海外の ISP から迷惑メールが発信されている証拠をつかむことができました。これは、本来ならば迷惑メールが発信されないようなアドレス帯であり、Botnet の存在する可能性が高いIPアドレス帯が特定できたことになります。ただ、Botnet から発信されるメールは特定のIPアドレスから固定的に送られるだけではなく、発信元が頻繁に変わったり、今まで迷惑メール送信に使われていなかったIPアドレス帯が突然使用されることも分かりました。

この特徴は、迷惑メールかどうかを判断するためには少々厄介です。というのも、代表的な迷惑メールフィルタの一つに発信元のIPアドレスをデータベース化しておき、その情報を用いて迷惑メールかどうかを判定するフィルタがありますが、このフィルタの場合、発信元IPアドレスが変化したり突然新しいIPアドレスが利用されると、正しく判定できないからです。

このようなIPアドレスベースの迷惑メール判定データベースのことを DNSBL などと呼びますが、データベースの精度に加え、十分な更新頻度でなければ Botnet からの迷惑メールを防ぐことはできないと言えます。

Yahoo!メールではこの問題を解決するため、新たなコンテンツフィルタの開発に取り組んでいます。IPアドレスベースの迷惑メール判定では、分析の通り Botnet に対して効果的な判定ができない可能性があります。メールの発信元に依存しないフィルタであれば、Botnet 発のメールでも本文の特徴から迷惑メールであると判定できるでしょう。

また、Yahoo!メールには、お客さまが迷惑メールを報告できる機能（迷惑メール報告機能）が備わっていますが、この機能についてもバックエンドシステムを強化する予定です。これにより、より多くの報告を短時間で処理し、迷惑メール判定の精度についても向上させることが可能です。

さらに、Yahoo!メールでは送信ドメイン認証を利用したドメインレピュテーションについても検討を行っています。すでに送信ドメイン認証を利用した「なりすましメール拒否」機能 ³ を提供していますが、ドメインレピュテーションは認証結果だけでなく、ドメインの評判情報を加味してフィルタリングを実施します。送信ドメインを利用すれば発信元IPアドレスに影響されない迷惑メール判定が可能になるため、Botnet 対策だけではなく、迷惑メール対策全体の決め手となります。

まとめ

今回はハニーポットに着信するメールから、Botnet の迷惑メール発信パターンの分析結果をご紹介しました。また、Yahoo!メールの Botnet 対策について、その取り組みを簡単にご紹介しました。いかがでしたでしょうか？

次回は、インターネットを利用する私たちエンドユーザーができる Botnet 対策についてご紹介したいと思います。
どうぞご期待ください。

脚注

Footnotes

Reference Notes

1 オプトインについて詳しく知りたい方は、総務省[PDF]、日本データ通信協会[PDF]のサイトにも資料があります。

2 正確にはサブネットマスクのビット数(CIDR表記)を示したもの。

3 Yahoo!メールにログイン後、メールオプションから設定可能です。現在は Domainkeys と SPF の認証結果を併用して判定しています。

Footnotes
Reference	Notes
1	オプトインについて詳しく知りたい方は、総務省[PDF]、日本データ通信協会[PDF]のサイトにも資料があります。
2	正確にはサブネットマスクのビット数(CIDR表記)を示したもの。
3	Yahoo!メールにログイン後、メールオプションから設定可能です。現在は Domainkeys と SPF の認証結果を併用して判定しています。

(2009/9/7追記)
＞＞第1話へ

こちらの記事のご感想を聞かせください。

学びがある
わかりやすい
新しい視点

ご感想ありがとうございました

前の記事へ

一覧へ戻る

次の記事へ

Inside Yahoo!メール第2話「分析！迷惑メール」

はじめに

ハニーポットとは

ハニーポットに着信したメールの分析

Botnet を「可視化」する

Yahoo!メールでの Botnet 対策

まとめ

脚注

おすすめの記事

検索システムと自然言語処理AIを合わせ、編集作業を効率化する（Yahoo!ニュースのAI事例）

ヤフーの画像分野の研究内容紹介（MIRU2023 レポート）

Visual Regression Testingでテスト工数を削減する（ディスプレイ広告タグでの目視確認の自動化）

エンジニアによるワークロード別コスト可視化の成功例（ビジネスと直結する分析施策）

Inside Yahoo!メール 第2話「分析！迷惑メール」

はじめに

ハニーポットとは

ハニーポットに着信したメールの分析

Botnet を「可視化」する

Yahoo!メールでの Botnet 対策

まとめ

脚注

おすすめの記事

検索システムと自然言語処理AIを合わせ、編集作業を効率化する（Yahoo!ニュースのAI事例）

ヤフーの画像分野の研究内容紹介（MIRU2023 レポート）

Visual Regression Testingでテスト工数を削減する（ディスプレイ広告タグでの目視確認の自動化）

エンジニアによるワークロード別コスト可視化の成功例（ビジネスと直結する分析施策）

Inside Yahoo!メール第2話「分析！迷惑メール」