Page History
| Table of Contents | ||||
|---|---|---|---|---|
|
| Note |
|---|
이 글은 2026년 4월 기준으로 작성되었습니다. AI 코딩 도구와 하네스 엔지니어링은 빠르게 변화하는 분야이므로, 참조된 도구 버전과 수치는 해당 시점 기준입니다. |
...
스킬(Skills)이란 무엇인가
Claude Code에서 스킬이란 SKILL.md 파일에 정의된 '프로그래밍 가능한 에이전트 행동 단위'다단순한 프롬프트 템플릿이 아니다. 스스로 테스트하고 수정하며 발전하는 작업 시스템이다 (출처: 비바코딩 — Claude Skill 2.0 출시). 슬래시 커맨드(/commit, /review-pr 등)로 호출하면 해당 스킬이 자체 컨텍스트 윈도우에서 실행된다. 즉, AI에게 "이 상황에서는 이렇게 행동해라"고 가르치는 행동 명세서(behavioral specification)다.
하나의 스킬 폴더는 3가지 핵심 요소로 구성된다:
요소 | 역할 | 비유 |
|---|---|---|
SKILL.md | AI에게 전달하는 업무 매뉴얼. 이름, 단계별 프로세스, 예시 출력, 규칙과 제한 조건을 정의 | 신입 직원에게 주는 SOP 문서 |
참조 자료 | 템플릿, 데이터, 예시 결과물 등 스킬이 참고할 파일들 | SOP와 함께 주는 샘플 포트폴리오 |
스크립트 | 데이터 처리 및 자동화 코드 (Python, Node.js 등) | 직원이 쓰는 업무 도구 |
2026년 초 Skills 2.0에서 중요한 변화가 2026년 초 Skills 2.0(정확히는 2.1.3)에서 중요한 변화가 일어났다. 슬래시 커맨드와 스킬이 완전히 통합된 것이다. 이전에는 "슬래시 커맨드 ≠ 스킬"이었지만, 이제 "통합되어, 슬래시 커맨드 = 스킬 + user-invocable: true"로 멘탈 모델이 단일화되었다.
스킬의 핵심 기능은 다음과 같다:
격리된 서브에이전트: 자체 컨텍스트 윈도우에서 실행되어 메인 대화를 오염시키지 않는다
도구 제한(allowed-tools): 특정 스킬이 사용할 수 있는 도구를 명시적으로 제한한다
모델 오버라이드: 스킬별로 다른 AI 모델을 지정할 수 있다
스킬의 은퇴 기능과 개선 기능
여기서 주목할 것은 스킬이 갖는 자기 평가(eval) 메커니즘이다. 스킬은 단순히 실행만 하는 게 아니라, 실행 결과를 평가하고, 평가 결과에 따라 행동을 개선할 수 있다.
예를 들어 콘텐츠를 작성하는 스킬이 있다고 하자. 이 스킬은:
작성 → 2. 평가(eval) → 3. 점수가 낮으면 재작성 → 4. 점수가 충분하면 발행
그리고 단순히 구조가 바뀐 것이 아니라, 스킬이 자기 발전하는 시스템으로 진화했다.
Skill 2.0의 3대 핵심 업그레이드
Skill 2.0은 단순 명세서를 넘어 자기 발전하는 시스템으로 진화했다. 핵심은 세 가지다:
업그레이드 | 한줄 설명 | 비유 |
|---|---|---|
1. Evals (자동 테스트) | 샘플 입력 → 결과 생성 → 원하는 출력과 비교. 오류 지점을 자동 식별한다. | 프로그램 출시 전 QA 테스트 |
2. Auto Refinement (자동 개선) | Evals 결과를 기반으로 SKILL.md를 자동 수정. 사람이 수동으로 고칠 필요 없이 스킬이 스스로 발전한다. | 시험 결과를 보고 스스로 공부법을 바꾸는 학생 |
3. Composability (스킬 연결) | 여러 스킬을 파이프라인으로 연결. 주제 조사 → 콘텐츠 작성 → 서식 정리를 하나의 흐름으로. | 공장의 컨베이어 벨트 |
특히 주목할 것은 Evals + Auto Refinement의 조합이다. 이 루프는 'Generator-Evaluator 아키텍처'의 원형이다. GAN(즉, 생성과 판별을 분리한 AI 학습 구조)에서 영감을 받아이 루프가 바로 'Generator-Evaluator 아키텍처'의 원형이다. GAN(Generative Adversarial Network)에서 영감을 받은 구조로, 생성과 평가를 분리함으로써 "자기 평가의 맹점(self-evaluation blindness)"을 해결한다.
스킬의 은퇴 — Evals가 감지하는 수명
그리고 Evals에는 또 하나의 숨은 역할이 있다. 그리고 특정 스킬이 반복적으로 낮은 점수를 받으면?
- LLM의 발전또는 AI툴발전으로 발전 또는 AI 도구의 발전으로 더이상 쓸모가 없어짐으로 없어짐을 측정 - — 이제 웬만한 표준 웹개발 프레임워크는 그것을 잘 사용하는 입문서 정도(고급까지가능) 는 구구절절 이야기 안해도 되는것처럼
...
- 구구절절 입문서 없이도 AI가 잘 다루는 것처럼, 특정 스킬이 더 이상 부가가치를 만들지 못하는 시점이 온다.
그 스킬을 '은퇴'시키고 시키고 더이상 필요없지는 필요없는 스킬을 정리하는것이다정리하는 것이다. ( 아직은 홍수처럼 더 생겨날테지만 )
개인적으로 스킬2,0의 핵심기능중 가장 높이평가하는 부분은 Eval의 평가작동이 은퇴 시점감지하고 없앨준비도 초반에 하란 이야기로 해석함생겨날 테지만, 개인적으로 Skill 2.0의 핵심 기능 중 가장 높이 평가하는 부분은 Eval의 평가 작동이 은퇴 시점까지 감지하고, 처음부터 없앨 준비도 하라는 설계 철학이라고 해석한다.
| Tip |
|---|
벤치마킹: 같은 입력을 여러 번 실행하여 출력 결과의 일관성을 확인하는 기능도 있다. 결과 편차가 크면 SKILL.md의 지침이 모호하다는 신호다. 이것 또한 "프로그램 출시 전 테스트"와 같은 개념이다. |
그래서 하네스란 무엇인가 — IT 세계의 동물 이야기
...
