胸部 X の QCSA ネットワークによる肺炎の検出
Scientific Reports volume 13、記事番号: 9025 (2023) この記事を引用
140 アクセス
1 オルトメトリック
メトリクスの詳細
世界中で、肺炎は乳児死亡の主な原因となっています。 経験豊富な放射線科医は、胸部 X 線を使用して肺炎やその他の呼吸器疾患を診断します。 診断手順が複雑であるため、放射線科医はこの決定に同意しません。 早期診断が、特許に対する病気の影響を軽減する唯一の実行可能な戦略です。 コンピューター支援診断により、診断の精度が向上します。 最近の研究では、特に多次元またはマルチチャネル入力を処理する場合、クォータニオン ニューラル ネットワークが実数値ニューラル ネットワークよりも適切に分類および予測できることが確立されました。 注意のメカニズムは、画像のある部分に焦点を合わせ、画像の残りの部分を無視する人間の脳の視覚および認知能力に由来しています。 アテンション メカニズムにより、画像の関連する側面が最大限に活用されるため、分類精度が向上します。 現在の研究では、空間およびチャネル アテンション メカニズムとクォータニオン残差ネットワークを組み合わせて、肺炎検出のために胸部 X 線画像を分類する QCSA ネットワーク (クォータニオン チャネル空間アテンション ネットワーク) を提案します。 Kaggle X 線データセットを使用しました。 提案されたアーキテクチャは、94.53% の精度と 0.89 AUC を達成しました。 また、QCNN にアテンション メカニズムを統合することでパフォーマンスが向上することも示しました。 私たちの結果は、肺炎を検出するための私たちのアプローチが有望であることを示しています。
肺炎は、細菌、ウイルス、または真菌が原因となる肺の感染症です。 この感染により、気嚢と液体で満たされた肺 (胸水) が炎症を起こします。 肺炎は乳児死亡率および世界的な死亡の主な原因です。 医療資源が少ない低開発国や発展途上国では、過密、汚染、不衛生な環境が肺炎を引き起こします。 私たちの研究は、胸部 X 線画像から肺炎を正確かつ効率的に検出する有望なアプローチを提供することで、世界中の何百万人もの人々に利益をもたらすでしょう。これにより、早期診断と治療が促進され、最終的には患者の転帰が改善されます。 致命的な状態を回避するには、早期の発見と治療が鍵となります。 肺疾患の診断にはX線、CT、MRI、CTなどが使用されますが、その中でも肺炎の診断にはX線が最もよく使われます。 提案されたアーキテクチャは、放射線科医が X 線、CT、MRI、CT を正確に分析するのに役立ち、他の呼吸器疾患、骨折、腫瘍の診断につながる可能性があります。 QCSA の利点は、胸部 X 線画像の複雑な空間相関とチャネルごとの相関を効果的に捕捉できることにあり、これは肺炎を正確に検出するために重要です。 図 1 は、肺炎患者と健康な個人の CXR を示しています。 右側の CXR 上の白い点は、肺炎の存在を示しています。 肺炎 CXR 検査は放射線科医の経験に左右されるため、正確な結果を得るにはコンピューターを利用した検出と診断の支援が必要です。
CXR スキャンのサンプル (正常および肺炎)。
ディープ ニューラル ネットワークは、優れた画像分類の可能性を示しています1。 ただし、画像分類アーキテクチャに関する現在の研究のほとんどは実数値データに基づいています。 研究 2 では、実数値 CNN は複数画像チャネル間の関係を適切にエンコードできないと主張しています。 この問題に対処するために四元数系が利用されました。四元数系は複素数系を一般化したもので、より堅牢な設計を作成するために利用できる顕著な特性を備えています。 私たちの研究では、CNN の拡張機能である四元数畳み込みニューラル ネットワーク (QCNN) を構築しました。 QCNN3 は、多次元の入力オブジェクトから最も代表的な特徴を抽出できます。 これは、入力画像内のカラー画像チャネルの方向と空間位置が QCNN で正しくエンコードされるためです。
アテンション メカニズム 4,5 は、ここ数年、オブジェクト認識とシーン解釈のためのコンピュータ ビジョン システムで大きな関心を集めています。 人間の視覚システムは、オブジェクトの関連部分のみに焦点を合わせることで、オブジェクトを見たときにすぐに識別できるようになります。 人間の脳の能力は、ディープ ニューラル ネットワークでの注意メカニズムの使用にインスピレーションを与えました6。 注意メカニズムは、自然言語処理に関連するアクティビティでより頻繁に利用されました7。 最近では、画像分類タスク 8 にも使用され、最先端の結果が得られます。 チャネルおよび空間的注意プロセス9は、コンピュータ ビジョン タスクに適用される 2 つの典型的なタイプの注意メカニズムです。
最近、研究者 10、11、12、13 は CNN の四元数拡張を実験し、実数値の CNN と比較して優れた結果を生み出しました。 この実験では、四元数残差四元数ネットワークのチャネルおよび空間アテンション モジュールを使用して、CXR 画像から肺炎を予測するパフォーマンスを向上させました。 クォータニオンは、空間変換を適切に記述し、マルチチャネル データを評価できるため、コンピュータ ビジョン アプリケーションの興味深い候補となっています。
提案された研究の新規性は、クォータニオン畳み込みニューラル ネットワークの層の間に空間注意層を組み込んだことです。 これにより、ネットワークは複雑な空間的特徴を考慮しながら胸部 X 線画像から重要な領域を学習できるため、肺炎検出の精度が向上します。 特徴マップとアテンション マップの分析では、QCSA ネットワークが胸部 X 線画像の重要な領域から特徴を効果的に学習でき、それが肺炎を検出するための提案されたフレームワークのパフォーマンスの向上につながることがわかりました。
以下は、この実験に対する私たちの貢献です。
まず、残差四元数アーキテクチャを構築し、CXR データセットでの肺炎検出のパフォーマンスを評価しました。
次に、(i) のアーキテクチャに空間およびチャネル アテンション モジュールを組み込み、両方のアーキテクチャですべてのハイパーパラメータ値を同じに保ちました。 次に、この注意強化アーキテクチャのパフォーマンスを評価しました。
次に、空間アテンション モジュールとチャネル アテンション モジュールを組み込んだ場合の影響を計算するために、両方のアーキテクチャのパフォーマンスを比較しました。
この作品の残りの部分は次のように構成されています。 提案された研究に必要な背景と、提案された研究に関連する問題領域における最近の研究結果は、「背景と類似の研究」のセクションに示されています。 「材料と方法」セクションでは、使用するデータセットの特性と推奨される設計について概説しました。 「実験分析」セクションではハードウェア インフラストラクチャ、パフォーマンス メトリクス、実験の詳細を示し、「結果の分析」セクションでは結果について説明します。 提案された作業の結論と今後の範囲は、「結論と今後の作業」セクションに記載されています。
ここでは、提案された設計に必要な背景アイデアと、同じ問題領域に関連する他の最近の調査結果の比較研究を示します。
QCNN14 は、実際の CNN モデルの拡張です。 クォータニオンは、1、i、j、k を基底とする 4 次元のベクトル空間です。 これらの直交部分空間の 1 つは 1 次元のスカラー部分空間であり、もう 1 つは 3 次元の純粋な部分空間です。 クォータニオン ニューラル ネットワークは、クォータニオン値の入力、アクティベーション、パラメーター (QNN) を使用する、より新しい形式のニューラル ネットワークです。 クォータニオンは、1 つの実数成分と 3 つの虚数成分を持つ数値です。 その 3 つの虚数成分はそれぞれ、RGB 画像の色成分をエンコードして、画像処理に適したものにすることができます。 近年、提案された多数のモデルが、画像処理や音声認識などのタスクにおいて実際の同等のモデルを上回っています 15,16。 さらに、クォータニオン値ネットワークは、ハミルトン積 17 の相互作用の結果としてパラメーター共有の恩恵を受けるため、必要なパラメーターと記憶スペースが少なくなり、その結果、モデルが小さくなります。 これらの利点は、従来の (実数値) レイヤーの代わりに四元イオンレイヤーを使用することで表現に提供できるため、パフォーマンスを目に見えて低下させることなくサイズを縮小できます。
QNN の入力と層には、実際の値ではなく四元数の値があります。 深層学習のための四元数表現に関する研究は初期段階にありますが、その価値を分析した論文はほとんど発表されていません。 ディープ クォータニオン ネットワークは、特に分類 18、19 およびセグメンテーション 20 に使用されてきました。 彼らの研究によると、クォータニオンはさまざまなタスクに対して優れた結果を提供し、必要なパラメータはより少ないとのことです。 QCNN は、四元数ドメインでカラー画像を正しく表示するために開発されました。 彼らは、カラー画像分類 21 とノイズ除去のための QCNN モデルが従来の CNN よりも優れていることを発見しました。 著者ら 22 は、カラー画像のグレースケールのみの再構成に対するハミルトン積の影響を研究しました。 独自のグレースケール画像を再構成するために、四元数畳み込みエンコーダ/デコーダ アーキテクチャが作成されます12。 標準的な畳み込みエンコーダ/デコーダ ネットワークとは対照的に、彼らの方法は、グレースケール表現から画像の色を再構築する方法を効率的に学習できます。 彼らは、クォータニオン値のシステムは内部およびグローバルな依存関係に束縛されず、画像認識を含むアプリケーションに適していると結論付けています。 クォータニオンリカレントニューラルネットワーク (QRNN) は、音声認識などの逐次タスク用に同じ著者によって提案されています23。 彼らの四元数ベースのリカレント設計は、パラメータが 2 ~ 3 分の 1 であるにもかかわらず、非四元数ベースの代替案に勝ります。
図 2 は、従来の CNN を四元数 CNN にカスタマイズする構成ブロックを示しています。
汎用クォータニオン CNN のビルディング ブロック。
このセクションでは、アイデンティティとプロパティ 24 について説明し、その後に四元数について説明します。
以下の式 (1) は四元数 Q の表記です。
さらに、クォータニオンの虚数成分は次の式で表すことができます。 (2)。
次の式から分かるように。 (3)、2 つの四元数の積は可換性の性質に違反します。
また、クォータニオン領域では、r はスカラー成分を表し、x、y、z は xi + yj + zk の虚数成分を表し、v はベクトル成分を表します。 それは式で表されます。 (4)。
Q の共役は式で表されます。 (5)。
Q の大きさは ||Q|| で示されます。 は式で説明されます。 (6)。
クォータニオン Q の逆元 Q-1 は、式 (1) で与えられる式によって定義されます。 (7)。
複素数と同様に、クォータニオン数も式 1 のように表すことができます。 (8)。
ρ =|Q|、θ は実数、s は単位長の純粋な虚数四元数です。
3 次元ベクトル Q を回転軸 w に沿って角度だけ回転し、新しいベクトル p を取得します。 この回転は方程式で示されます。 (9) と (10)。
\(\widehat{{\text{p}}} = { }\widehat{{\text{w }}} \cdot \widehat{{\text{Q}}} \cdot { }\overline{{\widehat {{\text{w }}}}} \,{\text{where}}\,{\hat{\text{p}}}\,{\text{and}}\,{\hat{\text {Q}}}\) は実数成分がゼロの純粋な四元数です
クォータニオン畳み込み法では、Q 入力フィルターと QN 入力フィルターの間でスケーリングと回転を使用します。
ここで、w はサイズ F の四元数フィルター、Q はサイズ N の四元数行列です。 (11) のように、四元数演算は次のように書くことができます。
S = N − F + 1 および T = N − F + 1
ここで、s はスケーリング コンポーネントを表し、単位長さの軸であり、〜との間で変動します。 式 1 に示すように、ハミルトニアン積により、 (11)、QNN は、マルチチャネル入力の特徴内のローカルおよびグローバルな依存関係を表すことができます。
QCNN では、従来の実数値ドット積の代わりにハミルトン積を利用して、2 つの四元数の間で次の変換を実行します。
Q1 = r1 + x1i + y1j + z1k および W1 = r2 + x2i + y2j + z2k、ここで Q1 と W1 は 2 つの四元数です。
⊗ 演算子は、2 つの四元数 Q1 と W1 のハミルトニアン積を表すために使用され、式 1 のように定義されます。 (12)。
ハミルトン積により、QNN はクォータニオンのプロパティ内の潜在的な相互作用を発見できるようになります。 QNN のハミルトン積では、四元数の重み成分が多くの四元数入力セクションで共有されるため、要素間に接続が形成されます。 実数値ニューラル ネットワークでは、特徴内の潜在的な関係をエンコードするために必要な複数の重みは、異なる特徴間のグローバルな依存関係を学習するのと同じレベルで評価されますが、クォータニオンの重みは、ハミルトン積中にこれらの相互接続を一意のクォータニオン Qout 内でエンコードします。 。
画像の注意には、目が画像を素早く走査しながらターゲット領域を見つけることが含まれます。 より小さい活性化値が関連する特徴マップによって結合される場合、かなりの量の特徴マップ情報が破棄されます。 したがって、四元数残差ネットワークで空間注意とチャネル注意を組み合わせると、優れた結果が得られます。 第 2 に、特徴マップとは対照的に、関心のある領域が強調表示されます。 チャネル アテンションが個々の特徴マップ内の情報を削減する場合、空間アテンションは、異なるブランチのアテンション マスクを使用することで、各特徴マップの多数の重要な領域を強調表示できます。 最後のフェーズでは、2 つのアテンション プロセスの出力特徴マップが連結されます。 これらの重要な特徴は融合特徴マップで増幅され、冗長な特徴は削除されます。 不要なデータを削減しながら最も正確なターゲット データを収集するために、このターゲット領域には重み付け (分散) が行われます。 Soft tention25,26 は、微分可能であり、最初から最後まで CNN モデルをトレーニングするため、最も人気があります。 ほとんどのソフト アテンション モデルは、アテンション テンプレートを使用して、離散シーケンスまたは画像セグメントの重みを調整するための特徴的な側面を見つけます。 ソフト アテンションとは対照的に、ハード アテンションは、画像の主な特徴とは対照的に、個別の領域を分析する確率的で微分不可能な手順です。 画像分類用のアテンション ネットワークは、画像のアテンション スペクトルのアテンションの算術平均の重みを決定できます。 この方法は、自然言語処理と同様に、画像ベースの注意を集めることができます。
ディープ ニューラル ネットワークはデータから特徴を収集するため、画像をピクセル単位で分類できます。 注意メカニズム27は人間の視覚を模倣しており、重要な特徴を迅速かつ正確に識別するのに役立ちます。 CNN は、すべての画像情報と詳細をすべての畳み込み層で処理します。 複数の畳み込み層と最後の層のグローバル平均プーリングにより、画像の特性と属性が平均化されます。 このネットワークの最後のアフィン完全接続層が画像分類を決定します。 画像サイズが小さくなるにつれて、背景やその他の重要でない情報が分類結果に与える影響が大きくなります。 大量のデータと背景情報を発しないように学習するニューラル ネットワークにより、結果が不正確になるのを防ぎます。
2 つ以上の畳み込み層から 1 つの画像を生成する 1 つの方法は、1 つの層の出力を分岐することです。 畳み込み出力活性化関数であるシグモイドを、各ピクセルに対して 0 から 1 の間の値で動作するように設定します。 シグモイドは入力値を 0 ~ 1 の範囲内に保ちます。畳み込み関数の結果は初期出力を乗算します。 さらに 2 つのレイヤーでは、出力の量を評価します。 ゼロに近い値は重要ではありません。 この構成では、ゼロに近づくほとんどのシグモイド値が下流の認識プロセスから破棄されます。 結果を使用して焦点領域を推定するようにニューラル ネットワークを構成することは、画像分類に注意を使用する最も一般的な方法です。
Literature27 は、視覚システムにインスピレーションを得た 2 つの注意戦略を作成しました。 1 つ目は、シーン レコード プールから正しい領域を繰り返し選択するトップダウンの方法です。 ただし、ボトムアップのアプローチでは、最も重要な視覚パスの場所が強調表示されます。 トップダウンの反復はボトムアップよりも遅くなります。 ボトムアップ手法では、受信データから最も関連性の高い領域を段階的に選択しますが、連続したプロセスでは深さが増すにつれてエラーが増加します。
注意メカニズムは、多くの理由から重要な研究テーマです。 どのモデルのアテンション メカニズムも、ベースラインのテクニックよりも優れています。 2 番目に、バックプロパゲーションを使用すると、基本リカレント ニューラル ネットワークで注意モデルをトレーニングできます。 トランスフォーマー モデルの誘導は、画像処理、ビデオ処理、推奨システムで広く使用され、注意モデルを改善し、リカレント ニューラル ネットワークにおける並列化の問題を回避しました。
分類ニューラル ネットワークは、機能に対して同じ重みを持つ低レベルの特徴の数値ベクトルとしてデータをモデル化します。 注意モデルは、関連性に基づいて特徴に変数を割り当てました。 アテンション モデルは、入力特徴に基づいて重み分布を計算し、ランクの高い特徴により大きな値を割り当てます。
アテンション メカニズムには、アライメント、アテンション ウェイト、コンテキスト ベクトルの 3 つの層があります。 アテンション層は、エンコードされたベクトル h = {h1, h2,….. hn) とベクトル v の間のアライメント スコアを計算します。 (13) および (14) のように、SoftMax は、i = 1、2、…n の h のすべての n 要素を正規化することによって確率分布 α1 を計算します。
上記の方程式から、hi はベクトル v に重要な情報を提供します。 注意メカニズムの出力 O は、エンコードされたベクトル hi の重み付けされた合計です。
提案された研究では、四元数残差ネットワークにおけるチャネル アテンションと空間アテンション メカニズムを組み合わせました。
特徴間のチャネル間の関係を使用して、チャネル アテンション 26、29、30 マップが作成されます。 特徴マップの各チャネルは特徴検出器としてみなされるため、チャネルはグローバル特徴に焦点を当てます。 チャネル アテンションを適切に計算するために、入力特徴マップの空間次元が削減されます。 チャネル アテンション メソッドは、指定された特徴マップに対してシグモイド活性化 1 次元 (1-D) テンソルを生成します。 特徴マップのいくつかのチャネル軸では、1 次元テンソルの一部の活性化値は、対応する対象の特徴マップよりも大きくなりますが、その他の値は、特徴マップの繰り返しを防ぐために小さくなることが予想されます。 2 つの空間コンテキスト記述子 FAvgc と Fmaxc を生成します。これらは、それぞれ、平均プールされた特徴と最大プールされた特徴を表します。
特徴間の隙間相互作用に基づいて、空間アテンション マップが生成されます。 チャネルの位置に焦点を当てるチャネル アテンションとは対照的に、空間アテンション モジュールは重要な特徴の位置を強調します。 空間アテンションを計算するには、まずチャネル軸に沿って平均プーリングと最大プーリングのプロセスを適用し、次に結果を連結して有用な特徴記述子を提供します。 連結された特徴記述子は、畳み込み層と組み合わせて使用され、強調表示または抑制する場所をエンコードする空間アテンション マップを構築します。
図 3 は、QCNN の構成要素内にチャネル アテンション ブロックと空間アテンション ブロックをどのように配置したかを示しています。 これらの空間ブロックとチャネル ブロックは、四元数入力と互換性がありました。 チャネルおよび空間アテンション ブロックを追加しても学習可能なパラメーターは増加しないため、計算コストは発生しません。
CNN の構成要素におけるチャネルおよび空間注意モジュールの拡張。
CXR による肺炎の検出は長年にわたり未解決の問題であり、主な制限となっているのは公的に入手可能なデータの欠如です。 従来の機械学習アルゴリズムについては広範な研究が行われてきましたが、特徴抽出にはその分野の専門知識が必要です。 深層学習モデルは、VGGNet31、ResNet32、Inception ResNet33 などのさまざまなアーキテクチャを生成し、事前学習済みの重みを使用する転移学習技術 34 とともに使用されました。 肺炎を検出するための最近の戦略は 3 つのカテゴリに分類されています: (1) 研究者が関心領域の抽出を優先した手法、(2) 特徴抽出を重視し、その後に典型的な機械学習モデルまたは平均的なパフォーマンスを持つモデルのアンサンブルを使用する手法、(3) ) 転移学習に基づく深層学習アーキテクチャ。 表 1 は、最近研究された文献を説明したものです。
dataset42 (https://www.kaggle.com/datasets/paultimothymooney/chest-xray-pneumonia) は、train、test、および validation ディレクトリに編成されており、各ディレクトリ内に各画像タイプ (Pneumonia/Normal) のサブディレクトリがあります。 。 JPEG 形式の CXR 画像は 5,856 枚あり、2 つのカテゴリ (P/N) に分かれています。 広州婦人児童医療センターの 1 歳から 5 歳の乳児の CXR 画像は、コホートから遡及的に選択されました。 CXR は患者の治療の一環として頻繁に使用されました。 画像を AI システムのトレーニングに使用する前に、2 人の専門医師が画像をレビューしました。 3 人目の専門家は、潜在的な採点上の問題を考慮して、評価セットをより徹底的に評価しました。 トレーニング セットは 5136 枚の画像で構成されていました。 ただし、テスト セットには 700 しかありません。表 2 に、分類ごとのデータセットを示します。
表 3 は、データセットの 75% がトレーニング セットに、80% がテスト セットに、20% が検証セットに割り当てられていることを示しています。
提案された方法は、画像強調技術と画像サイズ変更による画像の前処理、データセットの不均衡の処理、トレーニング画像の拡張、入力画像の四元数ドメインへの変換、空間およびチャネル アテンション モジュールを使用した四元数残差ネットワークでのトレーニング、および提案されたモデルによる肺炎の分類。 図 6 は、チャネルおよび空間アテンション モジュールを使用して四元数残差ネットワーク アーキテクチャの構造を強化する、私たちが提案する設計を示しています。
画像の正規化の準備として、写真は配列に変換され、255 で並べ替えられます。これにより、画像のスケールを 0.0 ~ 1.0 の間で指定できます。 影や照明によって引き起こされる異常を除去することで、それぞれの画像を改善します。
画質はパフォーマンスに影響を与えるため、データセット入力画像全体の均一性を維持するためにも実行しました。
入力画像にさまざまなタイプの変換を適用することで、データセット サイズが小さくなるという課題が解決されます。
これは、すべてのデータセット クラスの入力データ サイズ間のバランスを維持するために行われます。
前処理されたデータセットは四元数空間に投影され、QCSA ネットワーク上でトレーニングされます。
次に、トレーニングされたモデルを未表示の画像でテストして、そのパフォーマンスを評価します。
図 4 は、実験で実行されたステップを図式的に示しています。これには、選択したデータセットの前処理ステップ、提案されたアーキテクチャの設計、前処理されたデータセットでのモデルのトレーニング、その後の提案されたアーキテクチャのパフォーマンス評価のテストが含まれます。
実験のワークフロー。
空間およびチャネル アテンション モジュールは、入力の重要な部分のみに焦点を当て、そこからのみ特徴を抽出します。 図 5 は、提案されたアーキテクチャにおける空間アテンション ブロックとチャネル アテンション ブロックの相対的な位置を示しています。
QCSA ネットワークの構成要素。
図 6 は、提案されたモデルの詳細な構造を示す、提案されたアーキテクチャの設計を示しています。 ここでは、注目ブロックを備えた 4 つの四元数残差ブロックを採用しました。
提案されたアーキテクチャ設計。
私たちが提案したアーキテクチャを紹介するために、Kaggle でのテスト用に最も一般的にダウンロードされるデータセットの 1 つである CXR 画像のベンチマーク データセットを使用して実験しました。 これらの調査とデータセットをバイナリ分類に利用します。 Python 3.7、Anaconda/3、および CUDA/10 は、i5 CPU、2 GB GPU、および 8 GB RAM を搭載した Windows サーバーにインストールされています。 前述のパラメーターに加えて、Python ライブラリ Tensorflow-Keras、OpenCV、matplotlib、os、math、および NumPy が使用されます。 表 4 に示すように、ハイパーパラメーターを使用して 40 エポックにわたってシステムをトレーニングしました。
精度、精度、再現率 (または感度)、F1 スコア、および特異性を使用して、当面のバイナリ分類問題に関して提案されたシステムのパフォーマンスを評価します。 これらの概念を定義する前に、真陽性 (TP)、真陰性 (TN)、偽陽性 (FP)、および偽陰性 (FN) を定義する必要があります。 二項分類の問題における 2 つのクラスが正と負であると仮定します。 TP は、サンプルを陽性として分類することを指します。 FP は、実際には陰性クラスに属しているにもかかわらず、誤って陽性として分類されたサンプルを指します。 同様に、TN はネガティブ クラスのメンバーとして正しく分類されたサンプルを指します。 FN は、陽性クラスに属しているにもかかわらず陰性として分類されたサンプルを指します。
これは、サンプルの総数に対する正しく分類されたサンプルの割合です。
陽性サンプルの総数に対する適切に認識された陽性サンプルの割合によって、精度 (正確か不正確か) が決まります。 精度とは、モデルがサンプルを陽性であると正しく識別する度合いです。
リコールは、陽性サンプルの総数と比較した、正しく認識された陽性サンプルの割合として計算されます。 リコールは、陽性サンプルを認識するモデルの能力を測定します。 リコールが増加するにつれて、検出される陽性サンプルの数も増加します。
F1 スコアは、測定値としての精度と再現率を組み合わせたものです。 通常、これは精度と再現率の調和平均として表されます。
病気の患者を適切に検出する検査の能力です。 リコールと同じです。
健康な人を正確に識別するテストの能力です。
この曲線は、(1-特異性) に関する感度の変化を示しています。 感度と特異性の関係を示すために使用されます。
これは、モデルが肯定的なカテゴリと否定的なカテゴリをどの程度うまく区別できるかを示します。
モデルのトレーニングには、Adam オプティマイザーの 40 回の反復が利用されました。 モデルのテスト精度が向上し、ネットワークの学習能力が向上するため、より小さいバッチ サイズが選択されます。 Adam の最適化の学習率は 0.001 パーセントです。 Adam はトレーニング データセットに基づいてネットワークの重みを繰り返し更新するため、モデルのトレーニングに利用されます。 Adam における適応モーメント推定の結果。 データセットは、トレーニング、検証、テストのセクションに分割されています。 CXR データセットの検証損失は、エポック終了の条件です。 検証データ ポイントは新しく挿入された目に見えないデータ ポイントであるため、トレーニング精度は検証精度よりも高く、提案されたモデルがまだ見えていないサンプルをどのように予測するかについての一般的なアイデアが得られます。
私たちの実験では、(i) アテンション ブロックを使用しない QCNN、および (ii) 空間アテンション ブロックとチャネル アテンション ブロックを使用する QCNN の 2 つのアーキテクチャで肺炎予測のパフォーマンスを評価しました。 表 4 と表 2 のデータセットと同じハイパーパラメーター値のセットが比較分析を行うために使用されています。 表 5 は、両方のアーキテクチャのパフォーマンスを示しています。 表 5 にあるように、QCNN アーキテクチャでアテンション モジュールが強化された場合、分類精度が 4% 向上することが観察されました。
深層学習を使用した肺炎検出の最終目標は、患者ケアに重大な影響を与える可能性がある偽陽性および偽陰性の症例を最小限に抑えることです。 偽陽性は不必要な治療につながり、費用がかかり、患者に害を及ぼす可能性があります。一方、偽陰性は診断と治療が遅れ、生命を脅かす可能性があります。 したがって、肺炎検出のコンテキストでは、トレーニングや予測時間よりも精度を優先することがより重要です。 表 5 と図 5 図 7、8、9、10、11、および 12 は、空間およびチャネル アテンション モジュールを使用した QCNN のパフォーマンスを示しています。 パフォーマンス曲線は、肺炎予測の有望な結果を示しています。 表 5 は、空間およびチャネル アテンション モジュールが QCNN アーキテクチャで強化されると、すべてのパフォーマンス メトリクスが大幅に向上することも示しています。 図 13、14、15、16、および 17 は、QCNN を使用した肺炎検出とアテンション モジュールを使用した QCNN のパフォーマンス メトリクスの比較を示しています。 これらの図。 図 13、14、15、16、17 は、QCNN のアテンション メカニズムを強化することにより、パフォーマンスが大幅に向上し、肺炎の検出結果が向上することを示しています。
精度曲線。
損失曲線。
正確な曲線。
リコールカーブ。
F-1 スコア曲線。
混同マトリックス。
検証精度のプロット。
検証損失プロット。
精密なプロット。
プロットを思い出してください。
F1 スコア プロット。
Whave は、精度、f1 スコア、トレーニング可能なパラメーターの数、トレーニング不可能なパラメーターなどのパフォーマンス メトリックとともに表 6 に示されている、さまざまなディープ ラーニング アーキテクチャを適用するこのデータセットを使用して実験を実行しました。 図18にモデルの精度を棒グラフで示しました。これは、提案された方法が複雑な特徴を捕捉し、画像の重要な領域に注目しながらより優れたパフォーマンスを発揮することを示しています。
肺炎データセットにおけるさまざまな深層モデルの精度の比較。
この研究では、深層学習アーキテクチャが四元数ドメインに適応され、画像のより関連性の高い部分のみに焦点を当てるために、チャネル アテンション モジュールと空間アテンション モジュールで構成されるアテンション モジュールで強化されたシステムを提供します。 クォータニオンでカスタマイズされたディープ ニューラル ネットワーク アーキテクチャは、実数値の従来型 DNN を処理するため、特にマルチチャネル データの分類パフォーマンスが向上します。 このアーキテクチャは、肺炎を検出するための CXR 画像の Kaggle 上の公開データセットで評価されました。 クォータニオン領域の残差ネットワークをカスタマイズしました。 最初にデータセットの残差四元数ネットワークを評価したところ、テスト精度は 90.27% であり、実数値の残差 CNN アーキテクチャよりも優れていました。 空間およびチャネル アテンション モジュールで強化された四元数残差ネットワーク アーキテクチャを評価したところ、94.53% の精度が得られました。 注意メカニズムをクォータニオン残差ネットワークと統合すると、実験で精度が 4% 向上することが観察されました。 提案されたモデルは、個別のデータセットで評価された場合に一般化の可能性を示します。 提案されたアーキテクチャが経験豊富な放射線科医の予測とアンサンブルされた場合、優れた結果が得られることが期待されますが、これは提案された作業の将来の範囲として残されます。
モデル、データ、スクリプトはすべて https://github.com/singhsukhendra/MyExperiments2023/blob/main/QCSA_for_Pneumonia_Detection.ipynb で入手できます。
畳み込みニューラル ネットワーク
クォータニオン ニューラル ネットワーク
クォータニオン畳み込みニューラル ネットワーク
胸部X線
リカレント ニューラル ネットワーク
クォータニオンチャネル空間アテンションネットワーク
Wang, L.、Lin, ZQ および Wong, A. COVID-Net: 胸部 X 線画像から COVID-19 症例を検出するための、カスタマイズされたディープ畳み込みニューラル ネットワーク設計。 科学。 議員 10、19549 (2020)。
論文 ADS CAS PubMed PubMed Central Google Scholar
Zhu, X.、Xu, Y.、Xu, H. & Chen, C. クォータニオン畳み込みニューラル ネットワーク。 欧州コンピュータ ビジョン会議 (ECCV) の議事録、2018 631–647 (2018)。 https://doi.org/10.1007/978-3-030-01237-3_39。
CJ の Gaudet および AS の Maida ディープ クォータニオン ネットワーク。 2018 年ニューラル ネットワークに関する国際合同会議 (IJCNN) 1-8 (2018)。
ロドリゲス、P. 他アクティベーションに注意を払う: きめ細かい画像認識のためのモジュール式の注意メカニズム。 IEEEトランス。 マルチメッド。 22、502–514 (2020)。
記事 Google Scholar
Zhao、Q.ら。 群衆カウントのための注意誘導機能ピラミッド ネットワーク。 J.Vis. 共通。 画像を表します。 80、103319 (2021)。
記事 Google Scholar
ファジル、M.ら。 見せる、出席する、伝える: 視覚的な注意を伴うニューラル画像キャプションの生成。 IEEEトランス。 マルチメッド。 2017、1875 ~ 1886 年 (2021)。
Google スカラー
Derose, JF、Wang, J. & Berger, M. 注意の流れ: 言語モデルにおける注意メカニズムの分析と比較。 IEEEトランス。 ビジュアルコンピューティング。 グラフ。 27、1160–1170 (2021)。
記事 Google Scholar
Wang、F.ら。 画像分類のための残留注意ネットワーク。 コンピューター ビジョンとパターン認識に関する IEEE 会議議事録 3156–3164 (2017)。
チェン、J.ら。 チャネルと空間の注意に基づいた深いオブジェクトの共同セグメンテーション。 知ってください。 ベースのシステム。 211、106550 (2021)。
記事 Google Scholar
イン、Qら。 カラー画像の分類と法医学のための四元数畳み込みニューラル ネットワーク。 IEEE Access 7、20293–20301 (2019)。
記事 Google Scholar
Zhou, Y.、Jin, L.、Liu, H. & Song, E. ガボール注意による四元数畳み込みニューラル ネットワークによるカラー表情認識。 IEEEトランス。 認知。 開発者システム。 13、969–983 (2021)。
記事 Google Scholar
パーコレット、T.ら。 電話会話のテーマ識別用のクォータニオン ノイズ除去エンコーダ/デコーダ このバージョンを引用するには: HAL ID: hal-02107632 電話会話のテーマ識別用のクォータニオン ノイズ除去エンコーダ/デコーダ (2019)。
Parcollet, T.、Morchid, M. & Linares, G. 異種画像処理のための四元数畳み込みニューラル ネットワーク。 ICASSP では、音響、音声、および信号処理に関する IEEE 国際会議 - 議事録、Vol. 2019 – 8514 – 8518 年 5 月 (2019)。
Parcollet, T.、Morchid, M. & Linarès, G. クォータニオン ニューラル ネットワークの調査。 アーティフ。 知性。 改訂 53、2957–2982 (2020)。
記事 Google Scholar
Qiu, X.、Parcollet, T.、Ravanelli, M.、Lane, ND & Morchid, M. マルチチャネル遠隔音声認識のための四元数ニューラル ネットワーク 329–333 (2020) https://doi.org/10.21437/interspeech .2020-1682。
パーコレット、T.ら。 エンドツーエンドの自動音声認識のための四元数畳み込みニューラル ネットワーク。 arXiv プレプリント arXiv:1806.07789 (2018)。
Shahadat, N. & Maida, AS 分類のためにアテンション ネットワークに四元数表現を追加します。 arXiv プレプリント arXiv:2110.01185 (2021)。
Singh, S. & Tripathi, BK クォータニオン深層学習を使用した肺炎の分類。 マルチメッド。 ツールアプリケーション https://doi.org/10.1007/s11042-021-11409-7 (2021)。
記事 PubMed PubMed Central Google Scholar
Singh, S.、Tripathi, BK & Rawat, SS 乳がん分類のためのディープ四元数畳み込みニューラル ネットワーク。 マルチメッド。 ツールアプリケーション https://doi.org/10.1007/s11042-023-14688-4 (2023)。
記事 PubMed PubMed Central Google Scholar
Shi、L. & Funt、B. クォータニオン カラー テクスチャ セグメンテーション。 計算します。 ヴィス。 画像理解。 107、88–96 (2007)。
記事 Google Scholar
Lan, R. & Zhou, Y. カラー画像分類用のクォータニオン-マイケルソン記述子。 IEEEトランス。 画像処理。 https://doi.org/10.1109/TIP.2016.2605922 (2016)。
記事 MathSciNet PubMed MATH Google Scholar
Wang, C.、Wang, X.、Li, Y.、Xia, Z.、Zhang, C. カラー画像の四元数極調和フーリエ モーメント。 情報科学。 450、141–156 (2018)。
記事 MathSciNet MATH Google Scholar
パーコレット、T.ら。 クォータニオンリカレントニューラルネットワーク。 第 7 回学習表現に関する国際会議、ICLR 2019 1–19 (2019) にて。
グリゴリアン、AM & アガイアン、SS 複素数、および超複素数。 MATLAB 1–84 を使用したクォータニオンおよびオクタニオンのカラー画像処理 (2018)。 https://doi.org/10.1117/3.2278810.ch1。
Balke, S.、Dorfer, M.、Carvalho, L.、Arzt, A. & Widmer, G. テンポ不変のオーディオ楽譜検索のためのソフト アテンション モデルの学習。 第 20 回国際音楽情報検索学会会議録、ISMIR 2019 (2019)。
Bastidas, AA & Tang, H. チャネル アテンション ネットワーク。 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops、Vol. 2019年 - 881年から888年6月(2019年)。
チョ・ギョンヒョン、AKC 他深層学習における注意メカニズムに関する一般的な調査。 IEEEトランス。 知ってください。 データ工学 2017年12月、1対1(2021年)。
Google スカラー
Dosovitskiy、A. et al. 画像は 16x16 ワードの価値があります: 大規模な画像認識のためのトランスフォーマー。 arXiv プレプリント arXiv:2010.11929 (2020)。
Zhang, Y.、Fang, M. & Wang, N. 少数ショット分類のためのチャネル空間アテンション ネットワーク。 PLoS ONE 14、1–16 (2019)。
記事 Google Scholar
Zhang、Y.ら。 非常に深い残留チャネル アテンション ネットワークを使用した画像の超解像度。 コンピュータ サイエンスの講義ノート (サブシリーズの人工知能の講義ノートおよびバイオインフォマティクスの講義ノートを含む)、Vol. 11211.LNCS (2018)。
Simonyan, K. & Zisserman, A. VGG-16 (2014)。
He、K.、Zhang、X.、Ren、S.、Sun、J. ResNet。 コンピューター ビジョンとパターン認識に関する IEEE コンピューター協会会議議事録 (2016 年)。
Szegedy、C.、Ioffe、S.、Vanhoucke、V.、Alemi、AA Inception-v4、inception-ResNet、および学習に対する残留接続の影響。 第 31 回 AAAI 人工知能会議、AAAI 2017 4278–4284 (2017) https://doi.org/10.1609/aaai.v31i1.11231。
Pan、SJ 転移学習。 データ分類: アルゴリズムとアプリケーション (2014)。 https://doi.org/10.1201/b17320。
Kundu, R.、Das, R.、Geem, ZW、Han、GT、Sarkar, R. 深層学習モデルのアンサンブルを使用した胸部 X 線画像内の肺炎の検出。 PLoS ONE 16、e0256630 (2021)。
論文 CAS PubMed PubMed Central Google Scholar
Siddiqi, R. 深さ方向の分離可能な畳み込みを使用した効率的な小児肺炎診断。 SNコンピューティング。 科学。 https://doi.org/10.1007/s42979-020-00361-2 (2020)。
記事 Google Scholar
Chakraborty, S.、Paul, S. & Hasan, KMA 新型コロナウイルス感染症および肺炎の影響を受けた胸部 X 線画像分類のためのディープ CNN を使用した転移学習ベースのアプローチ。 SNコンピューティング。 科学。 3、1–10 (2022)。
記事 Google Scholar
Habib, N.、Hasan, M.、Reza, M.、および Motiur, M. 小児肺炎検出のためのランダム フォレスト分類器を備えた CheXNet と VGG-19 特徴抽出器のアンサンブル。 SNコンピューティング。 科学。 1、1–9 (2020)。
記事 Google Scholar
ナヒドゥザマン、M.ら。 CXR画像を用いた極端な学習マシンを使用したハイブリッドCNN-PCAベースの特徴抽出に基づく多変量肺炎分類のための新しい方法。 IEEE Access 9、147512–147526 (2021)。
記事 Google Scholar
Amyar, A.、Modzelewski, R.、Li, H.、Ruan, S. マルチタスク深層学習ベースの COVID-19 肺炎の CT 画像解析: 分類とセグメンテーション。 計算します。 バイオル。 医学。 126、104037 (2020)。
論文 CAS PubMed PubMed Central Google Scholar
Rajpurkar、P. et al. CheXNet: 深層学習を使用した胸部 X 線写真での放射線科医レベルの肺炎検出。 3–9 (2017)。
ホー、WHら。 黄斑変性画像の人工知能分類モデル: 残存ニューラル ネットワークの堅牢な最適化フレームワーク。 BMCバイオインフォーム。 22、1–10 (2021)。
記事 Google Scholar
リファレンスをダウンロードする
JSS 技術教育アカデミー、インド、ノイダ
スクヘンドラ・シン、マノージ・クマール、ビレンドラ・クマール・ヴェルマ
パトナ国立工科大学、パトナ、インド
アバイ・クマール
ケブリ・デハール大学、ケブリ・デハール、エチオピア
S.シサース
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
PubMed Google Scholar でこの著者を検索することもできます
すべての著者がこの作品に等しく貢献しました。 原稿は著者全員によってレビューされました。
S. Shitharth への通信。
著者らは競合する利害関係を宣言していません。
シュプリンガー ネイチャーは、発行された地図および所属機関における管轄権の主張に関して中立を保ちます。
オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。
転載と許可
シン、S.、クマール、M.、クマール、A. 他。 胸部 X 線検査での QCSA ネットワークによる肺炎の検出。 Sci Rep 13、9025 (2023)。 https://doi.org/10.1038/s41598-023-35922-x
引用をダウンロード
受信日: 2023 年 1 月 10 日
受理日: 2023 年 5 月 25 日
公開日: 2023 年 6 月 3 日
DOI: https://doi.org/10.1038/s41598-023-35922-x
次のリンクを共有すると、誰でもこのコンテンツを読むことができます。
申し訳ございませんが、現在この記事の共有リンクは利用できません。
Springer Nature SharedIt コンテンツ共有イニシアチブによって提供
コメントを送信すると、利用規約とコミュニティ ガイドラインに従うことに同意したことになります。 虐待的なもの、または当社の規約やガイドラインに準拠していないものを見つけた場合は、不適切としてフラグを立ててください。