Page History

Versions Compared

Old Version 17

changes.mady.by.user PSMON

Saved on 2026년 Apr 01일

compared with

New Version Current

changes.mady.by.user PSMON

Saved on 2026년 Apr 01일

Key

This line was added.
This line was removed.
Formatting was changed.

Table of Contents

minLevel	2
printable	true

Note
이 글은 2026년 4월 기준으로 작성되었습니다. AI 코딩 도구와 하네스 엔지니어링은 빠르게 변화하는 분야이므로, 참조된 도구 버전과 수치는 해당 시점 기준입니다.

...

스킬(Skills)이란 무엇인가

Claude Code에서 스킬이란 SKILL.md 파일에 정의된 '프로그래밍 가능한 에이전트 행동 단위'다단순한 프롬프트 템플릿이 아니다. 스스로 테스트하고 수정하며 발전하는 작업 시스템이다 (출처: 비바코딩 — Claude Skill 2.0 출시). 슬래시 커맨드(/commit, /review-pr 등)로 호출하면 해당 스킬이 자체 컨텍스트 윈도우에서 실행된다. 즉, AI에게 "이 상황에서는 이렇게 행동해라"고 가르치는 행동 명세서(behavioral specification)다.

하나의 스킬 폴더는 3가지 핵심 요소로 구성된다:

요소	역할	비유
SKILL.md	AI에게 전달하는 업무 매뉴얼. 이름, 단계별 프로세스, 예시 출력, 규칙과 제한 조건을 정의	신입 직원에게 주는 SOP 문서
참조 자료	템플릿, 데이터, 예시 결과물 등 스킬이 참고할 파일들	SOP와 함께 주는 샘플 포트폴리오
스크립트	데이터 처리 및 자동화 코드 (Python, Node.js 등)	직원이 쓰는 업무 도구

2026년 초 Skills 2.0에서 중요한 변화가 2026년 초 Skills 2.0(정확히는 2.1.3)에서 중요한 변화가 일어났다. 슬래시 커맨드와 스킬이 완전히 통합된 것이다. 이전에는 "슬래시 커맨드 ≠ 스킬"이었지만, 이제 "통합되어, 슬래시 커맨드 = 스킬 + user-invocable: true"로 멘탈 모델이 단일화되었다.

스킬의 핵심 기능은 다음과 같다:

격리된 서브에이전트: 자체 컨텍스트 윈도우에서 실행되어 메인 대화를 오염시키지 않는다
도구 제한(allowed-tools): 특정 스킬이 사용할 수 있는 도구를 명시적으로 제한한다
모델 오버라이드: 스킬별로 다른 AI 모델을 지정할 수 있다

스킬의 은퇴 기능과 개선 기능

여기서 주목할 것은 스킬이 갖는 자기 평가(eval) 메커니즘이다. 스킬은 단순히 실행만 하는 게 아니라, 실행 결과를 평가하고, 평가 결과에 따라 행동을 개선할 수 있다.

예를 들어 콘텐츠를 작성하는 스킬이 있다고 하자. 이 스킬은:

작성 → 2. 평가(eval) → 3. 점수가 낮으면 재작성 → 4. 점수가 충분하면 발행

그리고 단순히 구조가 바뀐 것이 아니라, 스킬이 자기 발전하는 시스템으로 진화했다.

Skill 2.0의 3대 핵심 업그레이드

Skill 2.0은 단순 명세서를 넘어 자기 발전하는 시스템으로 진화했다. 핵심은 세 가지다:

업그레이드	한줄 설명	비유
1. Evals (자동 테스트)	샘플 입력 → 결과 생성 → 원하는 출력과 비교. 오류 지점을 자동 식별한다.	프로그램 출시 전 QA 테스트
2. Auto Refinement (자동 개선)	Evals 결과를 기반으로 SKILL.md를 자동 수정. 사람이 수동으로 고칠 필요 없이 스킬이 스스로 발전한다.	시험 결과를 보고 스스로 공부법을 바꾸는 학생
3. Composability (스킬 연결)	여러 스킬을 파이프라인으로 연결. 주제 조사 → 콘텐츠 작성 → 서식 정리를 하나의 흐름으로.	공장의 컨베이어 벨트

특히 주목할 것은 Evals + Auto Refinement의 조합이다. 이 루프는 'Generator-Evaluator 아키텍처'의 원형이다. GAN(즉, 생성과 판별을 분리한 AI 학습 구조)에서 영감을 받아이 루프가 바로 'Generator-Evaluator 아키텍처'의 원형이다. GAN(Generative Adversarial Network)에서 영감을 받은 구조로, 생성과 평가를 분리함으로써 "자기 평가의 맹점(self-evaluation blindness)"을 해결한다.

Image Added

스킬의 은퇴 — Evals가 감지하는 수명

그리고 Evals에는 또 하나의 숨은 역할이 있다. 그리고 특정 스킬이 반복적으로 낮은 점수를 받으면?

LLM의 발전또는 AI툴발전으로 발전 또는 AI 도구의 발전으로 더이상 쓸모가 없어짐으로 없어짐을 측정 - — 이제 웬만한 표준 웹개발 프레임워크는 그것을 잘 사용하는 입문서 정도(고급까지가능) 는 구구절절 이야기 안해도 되는것처럼

...

구구절절 입문서 없이도 AI가 잘 다루는 것처럼, 특정 스킬이 더 이상 부가가치를 만들지 못하는 시점이 온다.

그 스킬을 '은퇴'시키고 시키고 더이상 필요없지는 필요없는 스킬을 정리하는것이다정리하는 것이다. ( 아직은 홍수처럼 더 생겨날테지만 )
개인적으로 스킬2,0의 핵심기능중 가장 높이평가하는 부분은 Eval의 평가작동이 은퇴 시점감지하고 없앨준비도 초반에 하란 이야기로 해석함생겨날 테지만, 개인적으로 Skill 2.0의 핵심 기능 중 가장 높이 평가하는 부분은 Eval의 평가 작동이 은퇴 시점까지 감지하고, 처음부터 없앨 준비도 하라는 설계 철학이라고 해석한다.

Tip
벤치마킹: 같은 입력을 여러 번 실행하여 출력 결과의 일관성을 확인하는 기능도 있다. 결과 편차가 크면 SKILL.md의 지침이 모호하다는 신호다. 이것 또한 "프로그램 출시 전 테스트"와 같은 개념이다.

그래서 하네스란 무엇인가 — IT 세계의 동물 이야기

...

Content

Space Tools