๐ค AI Agent23 items
Latest AI agent research papers, analysis, and improvement insights
MASPO: Unifying Gradient Utilization, Probability Mass, and Signal Reliability for Robust and Sample-Efficient LLM Reasoning
LLM ์ถ๋ก ์ ์ํ ๊ฒฌ๊ณ ํ ๊ทธ๋๋์ธํธ ํ์ฉ ์ต์ ํ
AutoNumerics: An Autonomous, PDE-Agnostic Multi-Agent Pipeline for Scientific Computing
๊ณผํ ๊ณ์ฐ์ฉ PDE ํด๊ฒฐ ๋ค์ค ์์ด์ ํธ ์๋ ์ค๊ณ
Modeling Distinct Human Interaction in Web Agents
์น ์์ด์ ํธ์ ์ธ๊ฐ ๊ฐ์ ํจํด ๋ชจ๋ธ๋ง ๋ฐ ํ๋ ฅ
KLong: Training LLM Agent for Extremely Long-horizon Tasks
๊ถค์ ๋ถํ SFT์ ์ ์ง์ RL๋ก ์ฅ๊ธฐ ์์ LLM ์์ด์ ํธ ํ๋ จ
MedClarify: An information-seeking AI agent for medical diagnosis with case-specific follow-up questions
๋ฐ๋ณต์ ์ง๋ฌธ์ผ๋ก ์๋ฃ ์ง๋จ ๋ถํ์ค์ฑ ํด๊ฒฐํ๋ ์์ด์ ํธ
KLong: Training LLM Agent for Extremely Long-horizon Tasks
๊ถค์ ๋ถํ SFT์ ์ ์ง์ RL๋ก ์ฅ๊ธฐ ์์ LLM ์์ด์ ํธ ํ๋ จ
What Makes a Good LLM Agent for Real-world Penetration Testing?
์นจํฌ ํ ์คํธ LLM ์์ด์ ํธ์ ์คํจ ์์ธ ๋ถ์
FAMOSE: A ReAct Approach to Automated Feature Discovery
ReAct ๊ธฐ๋ฐ ์๋ ํน์ฑ ๊ณตํ ํ๋ ์์ํฌ
When to Trust the Cheap Check: Weak and Strong Verification for Reasoning
LLM ์ถ๋ก ์ ์ฝ์ฝ/๊ฐ ๊ฒ์ฆ ์ ๋ขฐ๋ ๋ฐ ๋น์ฉ ๋ถ์
Stable Asynchrony: Variance-Controlled Off-Policy RL for LLMs
LLM ๋น๋๊ธฐ ๊ฐํํ์ต์ ๋ถ์ฐ ์ ์ด ๊ธฐ๋ฒ
Evaluating Chain-of-Thought Reasoning through Reusability and Verifiability
๋ค์ค ์์ด์ ํธ CoT ์ถ๋ก ์ ์ฌ์ฌ์ฉ์ฑ๊ณผ ๊ฒ์ฆ ํ๊ฐ
NeuDiff Agent: A Governed AI Workflow for Single-Crystal Neutron Crystallography
๊ฒฐ์ ํ ์๋ ๋ถ์ ๋๊ตฌ ์ฌ์ฉ AI ์ํฌํ๋ก์ฐ
Testing BDI-based Multi-Agent Systems using Discrete Event Simulation
BDI ๋ค์ค ์์ด์ ํธ ์์คํ ์๋ฎฌ๋ ์ด์ ํ ์คํธ
AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games
์ธ๊ฐ ๊ฒ์์ผ๋ก AI ์ผ๋ฐ ์ง๋ฅ ํ๊ฐ ๋ฒค์น๋งํฌ
Adaptive Decentralized Composite Optimization via Three-Operator Splitting
๋คํธ์ํฌ ๋ถ์ฐ ์์ด์ ํธ์ ์ ์์ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ
Toward a Fully Autonomous, AI-Native Particle Accelerator
์์จ ์ ์๊ฐ์๊ธฐ ์ด์์ ์ํ AI ๊ณต๋ ์ค๊ณ
Unveiling the augmented human agent: How communication style mitigates the heuristic barriers of human-AI collaboration in online customer service encounters
๊ณ ๊ฐ ์๋น์ค์ ์ธ๊ฐ-AI ํ๋ ฅ ์ปค๋ฎค๋์ผ์ด์ ์ฐ๊ตฌ
Our First Proof submissions
์ํ ์ฆ๋ช ์ฑ๋ฆฐ์ง์์ AI ๋ชจ๋ธ์ ์ถ๋ก ๋ฅ๋ ฅ ์์ฐ
CLEF HIPE-2026: Evaluating Accurate and Efficient Person-Place Relation Extraction from Multilingual Historical Texts
๋ค๊ตญ์ด ์ญ์ฌ ํ ์คํธ์์ ์ธ๋ฌผ-์ฅ์ ๊ด๊ณ ์ถ์ถ ํ๊ฐ
Unmasking the Factual-Conceptual Gap in Persian Language Models
ํ๋ฅด์์ ์ธ์ด ๋ชจ๋ธ์ ์ฌ์ค-๊ฐ๋ ๊ฒฉ์ฐจ ์ง๋จ