JIINSI

하네스 엔지니어링: AI 에이전트를 통제하는 새로운 기술의 등장

안녕하세요, '지금은 인공지능 시대(JIINSI)' 독자 여러분. 오늘은 AI 개발 커뮤니티에서 가장 뜨거운 키워드, '하네스 엔지니어링'을 심층 분석합니다. 프롬프트 엔지니어링, 컨텍스트 엔지니어링을 넘어 AI 에이전트를 안전하게 통제하는 새로운 패러다임입니다.

공유XTelegram

AI 기술 심층 분석

3
AI 기술

하네스 엔지니어링이란 무엇인가 -- AI 에이전트의 '마구'를 설계하는 기술

하네스 엔지니어링은 AI 에이전트가 자율적으로 일하되, 동시에 안전하게 통제할 수 있는 환경을 만드는 기술입니다. 소프트웨어 엔지니어링에서 'test harness'라는 개념은 1970년대부터 존재했지만, LLM 기반 AI 에이전트의 예측 불가능한 특성 때문에 완전히 새로운 의미를 갖게 되었습니다. 핵심 철학은 단순합니다. 에이전트가 규칙을 어겼을 때 프롬프트를 고치는 것이 아니라, 그 실패가 구조적으로 반복 불가능하도록 시스템 자체를 바꾸는 것입니다. AI 에이전트를 강력한 말에 비유하면, 에이전틱 엔지니어링은 말을 훈련시키는 기술이고, 하네스 엔지니어링은 가죽끈과 고삐와 수레를 만드는 기술입니다. 말을 아무리 잘 훈련시켜도 마구 없이는 밭을 갈 수 없습니다.

프롬프트는 '부탁'이고, 하네스는 '강제'입니다. AI가 실수했을 때 프롬프트를 고치지 말고 하네스를 고치세요. 이것이 AI 시대 엔지니어링의 핵심 전환점입니다.

AI 기술

하네스 엔지니어링의 4대 기둥 -- 컨텍스트, 자동 강제, 도구 경계, 가비지 컬렉션

하네스 엔지니어링은 네 가지 핵심 기둥으로 구성됩니다. 첫째, 컨텍스트 파일(CLAUDE.md, agents.md)은 AI가 작업 시작 시 가장 먼저 읽는 런타임 설정 파일로, 사람이 읽는 위키와는 본질적으로 다릅니다. 둘째, 자동 강제는 린터, 구조적 테스트, Pre-commit Hook 등을 통해 규칙을 시스템이 자동으로 강제하는 것입니다. 린터가 에러를 띄우면 에이전트가 자동으로 코드를 수정하고 재시도하는 자동 교정 루프가 핵심 메커니즘입니다. 셋째, 도구 경계는 AI 에이전트가 어떤 도구를 쓸 수 있고 어디까지 접근할 수 있는지를 물리적으로 제한합니다. 넷째, 가비지 컬렉션은 AI가 만든 코드를 주기적으로 점검하고 나쁜 패턴이 쌓이지 않도록 자동 청소하는 시스템입니다. 에이전트가 실수할 때마다 그 실수는 새로운 규칙이 되어 하네스가 점점 더 정교해집니다.

하네스의 진화적 특성이 핵심입니다. 시간이 지날수록 시스템이 더 견고해지며, 말이 한 번 실수한 곳에는 울타리가 세워져 같은 실수를 구조적으로 반복할 수 없게 됩니다.

AI 기술

4대 오픈소스 하네스 시스템 비교 -- gstack, Claude Code, OpenClaw, Paperclip

현재 AI 에이전트 생태계에서 주목할 네 가지 오픈소스 시스템이 있습니다. gstack은 Garry Tan이 만든 Claude Code 스킬팩으로, 23개 역할(CEO, Designer, QA 등)을 정의하여 스프린트 기반 워크플로우를 구현합니다. Claude Code는 Anthropic의 AI 코딩 도구로, Hooks(15가지 이벤트 자동화), Skills(재사용 명령), Subagents(격리 실행)를 통해 자율적 코딩을 지원합니다. OpenClaw은 34만 스타의 개인 AI 비서로, 20개 이상의 메신저 채널을 통합하고 24/7 상시 운영되는 Gateway 데몬 아키텍처를 제공합니다. 가장 최근에 등장한 Paperclip은 '회사 단위' 오케스트레이션으로, 조직도 기반 위임, 월별 에이전트 예산 제어, 원자적 작업 체크아웃 등 거버넌스에 초점을 맞춥니다.

네 시스템은 경쟁이 아닌 상호 보완 관계입니다. gstack은 프로세스, Claude Code는 도구, OpenClaw은 상시 운영, Paperclip은 조직 거버넌스를 담당하며, 이를 조합하면 완전한 하네스 시스템이 됩니다.

보안과 성능

2
AI 기술

AI 에이전트 보안의 현실 -- 프롬프트 인젝션부터 실행 샌드박스까지

AI 에이전트 보안에서 가장 논쟁적인 주제는 프롬프트 인젝션입니다. 흥미롭게도 네 시스템의 접근법이 모두 다릅니다. gstack은 /careful 명령으로 위험 명령을 경고하고, Claude Code는 PreToolUse Hook으로 실제 차단이 가능하며, OpenClaw은 공식적으로 '프롬프트 인젝션은 보안 취약점이 아니다'라고 명시합니다. OpenClaw의 기본 sandbox=off 설정은 프롬프트 인젝션으로 호스트 명령을 실행할 수 있어 주의가 필요합니다. 실전에서는 3겹 보안(Hook 차단 + 인증 + 샌드박스)과 불변 감사 로그를 조합하는 것이 권장됩니다. Paperclip은 여기에 예산 제어라는 새로운 차원을 추가하여, 에이전트가 예산 한도를 초과하면 자동으로 쓰로틀링됩니다.

보안의 핵심은 프롬프트로 '부탁'하는 것이 아니라 시스템으로 '강제'하는 것입니다. 프롬프트 인젝션 방어, 실행 샌드박스, 예산 제어, 감사 로그 -- 이 네 가지를 모두 갖추어야 실전 배포가 가능합니다.

AI 기술

AI 에이전트 성능 최적화 전략 -- 병렬 실행, 모델 선택, 비용 관리

AI 에이전트 시스템의 성능 병목은 주로 LLM 호출 지연(1-5초), 순차 처리, 컨텍스트 윈도우 소진에서 발생합니다. 각 시스템은 이를 다르게 해결합니다. gstack의 Conductor는 10-15개 에이전트를 병렬 실행하고, Claude Code는 Subagent로 컨텍스트를 격리하며, OpenClaw은 세션별 직렬화 큐로 동시성을 제어합니다. 실전 최적화 전략은 세 가지입니다. 첫째, 경량 작업은 Gemini Flash(빠르고 저렴), 복잡한 작업만 Claude(정확하지만 느림)로 분배합니다. 둘째, 독립적인 작업은 Subagent/Conductor로 병렬 실행합니다. 셋째, Paperclip의 월별 예산 제어로 비용 폭주를 구조적으로 방지합니다.

성능과 비용은 트레이드오프 관계입니다. 모든 작업에 최고 모델을 쓰는 대신, 작업 성격에 따라 모델을 분배하는 '혼합 런타임' 전략이 실전에서 가장 효과적입니다.

실전 적용

1
AI 기술

오픈AI 엔지니어 3명이 코드 한 줄 없이 제품을 배포한 방법

2026년 2월, 오픈AI는 세 명의 엔지니어가 AI 에이전트만으로 대규모 소프트웨어 제품을 만든 사례를 발표했습니다. 직접 코드를 한 줄도 쓰지 않았습니다. 이들이 한 일은 하네스 엔지니어링입니다. agents.md로 AI 지침서를 설계하고, CI/CD 게이트로 린트와 테스트를 자동 검증하며, 도구 경계로 에이전트의 접근 범위를 설정하고, 피드백 루프로 AI가 스스로 오류를 수정하는 구조를 만들었습니다. '인간은 조종하고, 에이전트는 실행한다' -- 여기서 조종이 바로 하네스입니다. 고삐를 잡고 방향을 정하고 울타리를 세우는 것이 인간의 새로운 역할입니다.

개발자의 역할은 축소되는 것이 아니라 상향 이동하고 있습니다. 코드를 직접 쓰는 선수에서, 전술을 짜고 팀을 운영하는 감독으로 한 단계 올라가는 것입니다.

하네스 엔지니어링은 AI 시대의 필수 역량이 되어가고 있습니다. 프롬프트 엔지니어링이 'AI에게 말 거는 법'이었다면, 하네스 엔지니어링은 'AI가 실수할 수 없는 환경을 만드는 법'입니다. 오늘 하나만 기억하세요 -- AI가 실수했을 때 프롬프트를 고치지 마세요. 하네스를 고치세요.

이 브리핑이 유용했나요?

공유XTelegram