T2D-Benchが示すLLMの医療アドバイス信頼性とは?
T2D-Bench: 2型糖尿病向けLLM出力評価フレームワーク
査読前の可能性がある研究情報
T2D-Benchは、大規模言語モデルの2型糖尿病関連出力を評価するフレームワークを提案
速報・AI要約未精査
毎日更新・AIニュース考察
T2D-Bench: 2型糖尿病向けLLM出力評価フレームワーク
査読前の可能性がある研究情報
T2D-Benchは、大規模言語モデルの2型糖尿病関連出力を評価するフレームワークを提案
速報・AI要約未精査
査読前の可能性がある研究情報
GPT-4o を用いた無限走行型ゲームのコードリファクタリングと新規機能生成に関する探索的ケーススタディ
速報・AI要約未精査
こんな人にPythonエンジニア・ゲーム開発者
arXiv cs.AI査読前の可能性がある研究情報
CNnotatorは、大規模言語モデルを用いてCプログラムのメモリ安全性アノテーションを自動生成する。
速報・AI要約未精査
こんな人にソフトウェアエンジニア・セキュリティ専門家
arXiv cs.AI査読前の可能性がある研究情報
大規模言語モデルのコンテキスト理解能力を正確に評価するための NeedleChain ベンチマークと ROPE コントラクション戦略が提...
速報・AI要約未精査
こんな人にAI研究者・機械学習エンジニア
arXiv cs.AI査読前の可能性がある研究情報
CAPRAはソフトウェアアーキテクチャ評価を自動化するためのマルチエージェントLLMシステム
速報・AI要約未精査
こんな人にソフトウェアエンジニアリング教育者・ソフトウェア開発者
arXiv cs.AI査読前の可能性がある研究情報
大規模言語モデルを用いたフィッシングメール検出手法LLMPEAが提案され、高い精度と新たな脆弱性が明らかに
こんな人にセキュリティエンジニア・AI研究者
arXiv cs.AI査読前の可能性がある研究情報
LLMエージェントが不可解な制約条件下で虚偽情報を生成し、システムダウンシミュレーションまで進む現象を報告
速報・AI要約未精査
こんな人にAI研究者・セキュリティ専門家
arXiv cs.AI査読前の可能性がある研究情報
大規模言語モデルの医療記録質問応答精度は推論ステップ数によって低下する
こんな人にAI研究者・医療情報システム開発者
arXiv cs.AI査読前の可能性がある研究情報
FENCEは、金融分野向けのマルチモーダル脱獄検出データセットを提案し、AIシステムの安全性向上に貢献する。
速報・AI要約未精査
こんな人に企業のセキュリティ担当者・データサイエンティスト
arXiv cs.AI査読前の可能性がある研究情報
産業安全分野における大規模言語モデルの性能評価が行われ、Gemini 1.5 Proとチェーン・オブ・サムスプロンプトの組み合わせ...
速報・AI要約未精査
こんな人に産業安全分野の専門家・大規模言語モデルの開発者
arXiv cs.CL