Turnitin、AI 不正行為検出器は常に信頼できるわけではないと言う

この記事は、The Tech Friend ニュースレターのプレビューです。ここからサインアップすると、毎週火曜日と金曜日に受信箱に届きます。

結局のところ、ChatGPT のような人工知能プログラムからの書き込みを確実に検出することはできないことがわかりました。それは特に教師にとって大きな問題です。

さらに悪いことに、ソフトウェアを使用して AI を正確に特定することはまったく不可能である可能性があると科学者がますます述べています。

最新の証拠: 教育ソフトウェア大手の Turnitin は、4 月以来 3,800 万人を超える学生の作文に対して実行している AI 不正行為検出器には、当初示唆していた以上に信頼性の問題があると述べました。 Turnitin は、各生徒のレポートに「AI によって生成された」パーセントスコアを割り当てますが、最もエラーが発生しやすい境界線の結果の種類に関する新しい警告を追加するなど、いくつかの調整を行っています。

私が Turnitin の AI 検出器について初めて書いたのは、学生が AI を使用してカンニングをするのではないかという懸念から、多くの教育者がそれを阻止する方法を求めていたこの春のことだった。当時、同社は、同社の技術では最も問題のある種類のエラー、つまり実際の学生の書き込みが誤って不正行為としてフラグを立てられる誤検知の発生率が1パーセント未満だったと発表した。現在、Turnitin は、文ごとのレベル (より狭い範囲) で、同社のソフトウェアが書き込みの 4 パーセントに誤ってフラグを立てていると述べています。

私の調査では、誤検出が重大なリスクであることも判明しました。発売前に、私は実際の学生の作文と、学生ボランティアが ChatGPT で作成するのを手伝ったエッセイを使って Turnitin のソフトウェアをテストしました。 Turnitin は、1 人の生徒の完全に人間が書いたエッセイが部分的に AI で書かれていると主張するなど、16 サンプルの半分以上が少なくとも部分的に間違っていることを特定しました。

AI を検出するリスクは教師にとって特に高いかもしれませんが、その方法を探しているのは教師だけではありません。何が人間で何が人間でないかを識別する必要があるサイバーセキュリティ会社、選挙当局者、さらにはジャーナリストも同様です。あなたも、上司や政治家からの目立つメールが AI によって書かれたものか知りたいと思うかもしれません。

ここ数カ月間、ZeroGPT や Writer などの AI 検出プログラムがウェブ上に氾濫しています。 ChatGPT を開発した会社である OpenAI でさえ、これを作成しています。しかし、これらの検出器が誤って判断する例は増え続けており、その中には憲法の序文が AI によって書かれたと主張するものも含まれています。 (タイムトラベルも可能になったのでない限り、可能性は低いでしょうか?)

あなたへの教訓: AI 検出器を事実のように扱うことには注意してください。現時点では、ランダムな推測よりも少し良い場合もあります。

4 パーセント、あるいは 1 パーセントの誤り率は小さいように聞こえるかもしれませんが、不正行為のあらゆる冤罪は、生徒に悲惨な結果をもたらす可能性があります。 4月にコラムを出版して以来、私は学生や保護者から、内容が冤罪であると言って取り乱しているメモを受け取りました。 (私のメールはまだ開いています。)

Turnitin の最高製品責任者である Annie Chechitelli 氏は、先週の長いブログ投稿で、同社はテクノロジーについて透明性を保ちたいと考えているが、その導入からは撤退しなかったと述べた。同氏によると、同社の検出ソフトウェアが20％以上のAI記述を含むと判断した文書については、文書全体の誤検知率は1％未満だという。しかし、残りの部分でのエラー率がどの程度であるかについては明らかにしなかった。ソフトウェアが AI 書き込みが 20 パーセント未満であると判断した文書については。このような場合、Turnitin は「スコアの信頼性が低いという事実に注意を促すために」結果の横にアスタリスクを表示し始めました。

「AI の記述と分析の性質を考慮すると、誤検知のリスクを完全に軽減することはできません。そのため、教育者が AI スコアを使用して、そのような場合に生徒と有意義で影響力のある対話を開始することが重要です」と Chechitelli 氏は書いています。

重要な質問は、AI 検出器ではどの程度の誤差が許容されるのかということです。

メリーランド大学のコンピュータサイエンス教授 Soheil Feizi らによる新しいプレプリント研究では、公的に入手可能な AI 検出器が実際のシナリオにおいて十分に信頼できるものがないことが判明しました。

「偽陽性率が非常に高く、簡単に回避できます」とフェイジ氏は語った。たとえば、一種の自動シソーラスのように機能する言い換えソフトウェアを介して AI ライティングが実行される場合、AI 検出システムはランダムな推測よりも優れていると同氏は述べました。 (Turnitin のテストでも同じ問題が見つかりました。)

彼はまた、AI 検出器が英語を第二言語とする生徒の学習にフラグを立てる可能性が高いことを懸念しています。

Feizi 氏は、有料の教育機関のみが利用できる Turnitin のソフトウェアをテストしませんでした。 Turnitin の広報担当者は、Turnitin の検出能力は「その研究でテストされたものと最小限の類似性がある」と述べた。

Feizi 氏は、Turnitin が透明性を保ちたいのであれば、完全な精度の結果を公開し、独立した研究者が同社のソフトウェアについて独自の研究を行えるようにすべきだと述べた。同氏は、公正な分析には、さまざまなトピックや書き方について実際に学生が書いたエッセイを使用し、全体だけでなく各サブグループの失敗にも対処する必要があると述べた。

フェイジ氏は、4％、あるいは1％の確率で衝突する自動運転車は受け入れられないと述べた。そこで彼は、生徒に使用される AI 検出器の許容誤差とみなすべき新しいベースライン、つまり 0.01 パーセントの偽陽性率を提案します。

それはいつ起こるのでしょうか？「現時点ではそれは不可能だ」と彼は言った。「そして、大規模な言語モデルが改善されるにつれて、そのしきい値に近づくことさえさらに困難になるでしょう。」同氏によると、問題は、AIが生成したテキストと人間が生成したテキストの分布が互いに収斂しつつあることだという。

「私たちは、文書がAIによって書かれたのか、部分的にAIによって書かれたのか、AIによって編集されたのか、それとも人間によって書かれたのかを確実に見分けることができないという事実に慣れるべきだと思います」とフェイジ氏は言う。「私たちは、AI モデルの使用を取り締まるのではなく、基本的には学生が AI を使用し、そこから学ぶのを助けるために AI モデルを受け入れるように教育システムを適応させるべきです。」

これはオンライン生活の災難の 1 つです。偽のオンラインレビューではないかと疑われる内容に誤解されたことがありますか? 私が話しているのは、購入後にバラバラになった製品を推奨する Amazon のレビューのようなもの、あるいは、Yelp でベッドサイドでの態度がまったくひどいことが判明した医師を称賛するようなものでしょうか?

いかがわしいレビューについて話したいことがあれば、ぜひ体験談を聞かせてください。 [email protected] に電子メールを送信してください。

ヘルプデスクは、日常生活で使用されるテクノロジーをより深く理解し、制御したいと考えている読者のために構築された目的地です。

コントロールする: The Tech Friend ニュースレターに登録して、テクノロジーを永久の力にする方法について率直な意見やアドバイスを受け取りましょう。

生活を楽にするための技術的なヒント: iOS 16 をカスタマイズするための 10 のヒントとコツ | ガジェットのバッテリーを長持ちさせる 5 つのヒント | ハッキングされたソーシャルメディアアカウントの制御を取り戻す方法 | オンラインで誤った情報に騙されたり拡散したりしないようにするには

質問する: 個人的なテクノロジーに関する質問をヘルプデスクに送信してください。