앤트로픽 '서킷-트레이서' 공개…AI 생각 들여다본다?
AI한줄요약 ☞ 앤트로픽이 AI 모델의 사고과정을 시각화하는 '서킷-트레이서'를 공개했다. 이 도구는 AI 내부 프로세스를 추적해 그래프로 시각화한다.
[디지털투데이 AI리포터] 책임 있는 인공지능(AI) 개발을 목표로 하는 앤트로픽이 대규모언어모델(LLM)의 사고과정을 시각화하는 오픈소스 도구 '서킷-트레이서'(circuit-tracer)를 공개했다고 30일(현지시간) 온라인 매체 기가진이 전했다. 이 도구는 AI의 내부 프로세스를 그래프로 표현해 연구자들이 AI의 의사결정 과정을 보다 명확히 이해할 수 있도록 지원한다.
앤트로픽은 엑스(구 트위터)를 통해 "AI 해석 가능성 연구의 일환으로 회로 추적 기술을 오픈소스로 공개한다"고 밝혔다. 연구자들은 이를 활용해 AI 모델의 내부 구조를 시각적으로 탐색할 수 있을 전망이다.
지난 3월, 앤트로픽은 자사 AI 챗봇 클로드(Claude)의 사고과정을 분석한 논문을 발표하며 환각(Hallucination, 할루시네이션) 현상의 원인도 규명했다. 이번 도구는 해당 연구를 기반으로 개발됐으며, AI의 해석 가능성을 연구하는 디코드 리서치(Decode Research)와 협력해 진행됐다.
서킷-트레이서는 깃허브(GitHub)에서 오픈소스로 제공되며, 뉴런피디아(Neuronpedia)를 통해 쌍방향 분석이 가능하다. 연구자들은 이를 활용해 독자적인 그래프를 생성하고, AI 모델의 의사결정 과정을 심층적으로 분석할 수 있다.
서킷-트레이서는 깃허브(GitHub)에서 오픈소스로 제공되며, 구글의 제마2(Gemma-2-2B)와 앤트로픽의 하이쿠(Haiku) 모델 사고 과정 분석이 가능하다.
또한 앤트로픽은 "AI의 내부 구조에 대한 이해가 AI 기능 발전 속도에 비해 크게 뒤처져 있다"며 "이번 오픈소스 도구가 AI 모델의 작동 방식을 연구하는 데 기여하길 기대한다"고 밝혔다. AI 해석 가능성을 높이기 위한 이번 프로젝트는 AI 안전성을 강화하는 중요한 이정표가 될 전망이다.
can use the Neuronpedia interactive interface here: https://t.co/obViVrtTSC
— Anthropic (@AnthropicAI) May 29, 2025
And we’ve provided an annotated walkthrough: https://t.co/LLy54TFGbZ
This project was led by participants in our Anthropic Fellows program, in collaboration with Decode Research.