요약: AI가 쏟아내는 "완벽하지만 아무것도 아닌 글"의 문제를 짚고, 말(馬)에게 씌우는 마구(harness)라는 비유에서 출발한 AI 글쓰기 제어 시스템을 소개한다. 거기에 마비노기 스타일 RPG 업적까지 얹어, 따분한 품질 평가를 게임으로 바꾼 실험의 기록.

대상 독자: IT 전문가 + 비개발자 | 작성 기준: 2026-03


기(起) — 영혼, 출장 중

어느 날, AI에게 글을 시켰다.

"이 주제에 대해 글 써줘. 참고자료 12개 넣고, 톤은 전문적이면서도 친근하게, 유머도 약간 넣고, SEO도 고려하고, 독창적이면서도 너무 튀진 않게 해줘."

AI의 내면:

"…그냥 죽여주세요."

결과물은 이랬다.

항목

상태

틀린 말

없음

부족한 정보

없음

감정

없음

영혼

출장 중

읽고 나면 "와, 잘 썼다…" 3초 후 "근데 뭐였지?" — 이 경험, 한 번쯤 있지 않은가.

이건 AI가 못 써서가 아니다. 너무 "잘 쓰려고 해서" 망한 거다.

전문적으로 써야 해. 근데 친근해야 해. 유머 넣어야 해. 근데 너무 튀면 안 돼. SEO도 챙겨야 해. 결국 AI의 결론은 이것이다:

"아무도 싫어하지 않을 글을 쓰자" = "아무도 기억하지 않을 글"

좋은 글은 원래 이건 넣고, 이건 버리고, 이건 과감하게 주장하는 과정에서 나온다. 그런데 모든 요구사항을 동시에 만족시키려는 AI는 선택 자체를 포기한다. 주장은 희미해지고, 개성은 실종되고, 방향성은 분실 신고가 접수된다.


승(承) — 우리는 이미 과부하 속에 있다

이 현상에는 이름이 있다. "AI Slop" — 2025년 Merriam-Webster와 American Dialect Society가 동시에 올해의 단어로 선정한 표현이다[1]. 생성형 AI로 대량 제작된 저품질, 무의미, 노력 없는 디지털 콘텐츠를 가리킨다.

규모를 보면 실감이 난다.

  • 2025년 Graphite 연구: 조사한 65,000개 URL 중 52%가 AI 생성 기사[2]

  • YouTube 신규 추천 동영상의 21%가 AI slop

  • AI slop 채널들의 총 조회수: 630억 회, 연간 추정 수익 1.17억 달러

콘텐츠 자체의 문제만이 아니다. 읽는 사람의 뇌가 문제다.

매일 쏟아지는 "틀리진 않지만 아무 말도 안 한" 글들 사이에서, 우리의 정보 필터는 무뎌진다. "다양한 관점에서 접근할 수 있으며, 각각의 요소는 중요한 의미를 가진다" 같은 문장 — 번역하면 "나도 뭘 말하는지 모르겠지만 틀리진 않을 거야" — 을 읽으면서도 고개를 끄덕이고 있는 자신을 발견한다.

Google은 이미 2023년에 E-E-A-T(Experience, Expertise, Authoritativeness, Trustworthiness)에 "실제 경험(Experience)" 축을 추가했다[3]. AI가 아무리 매끈하게 써도, 직접 경험한 사람의 글이 가진 질감은 다르다는 걸 검색 알고리즘조차 인정한 셈이다.

McDonald’s 네덜란드 지사는 2025년 AI로 만든 크리스마스 광고를 냈다가 "영혼 없는 비주얼"이라는 비판을 받고 철회했다. Bandcamp는 2026년 1월 AI 생성 음악을 전면 금지했다. 역설적이게도 2025년, 프리랜서 작가와 디자이너의 수요는 오히려 급증했다[4]. "독창성과 감성"을 전달할 수 있는 사람에 대한 갈증이 그만큼 깊다는 뜻이다.

문제는 명확하다. AI 글쓰기 자체가 나쁜 게 아니라, 제어 없이 풀어놓으면 아무 곳으로나 달려가는 말(馬)과 같다는 것이다.


전(轉) — 이 녀석에게 마구를 씌우다

마구(harness)란 무엇인가

Harness는 원래 말(馬)에게 씌우는 마구(馬具)다. 말은 강력하다. 하지만 마구 없이는 그 힘이 어디로 향할지 모른다. 마구를 채워야 비로소 마차를 끌 수 있고, 밭을 갈 수 있다.

OpenAI는 2026년 초, 자사 Codex 에이전트와 함께 소프트웨어를 만드는 방법론을 공개하면서 정확히 이 단어를 꺼냈다: Harness Engineering[5].

핵심은 세 가지다:

  1. 맥락 엔지니어링(Context Engineering): AI에게 1,000페이지 매뉴얼이 아니라 지도(map)를 준다. "여기서 여기까지 가라"는 명확한 경로.

  2. 아키텍처 제약(Architecture Constraints): 달릴 수 있는 길을 물리적으로 제한한다. 린터(linter, 코드의 문법 오류나 스타일 위반을 자동으로 잡아주는 도구)와 CI 검증이 울타리 역할.

  3. 엔트로피 관리(Entropy Management): 정기적으로 에이전트가 스스로 청소한다. 문서가 낡았는지, 규칙이 어긋났는지.

5개월간 소규모 팀이 수동 코드 작성 없이 약 100만 줄 규모의 제품을 만들었다고 한다. 에이전트가 강력한 말(馬)이고, 엔지니어의 역할은 코드를 짜는 게 아니라 마구를 설계하는 것으로 바뀐 것이다.

글쓰기 AI에게도 같은 논리를 적용할 수 있을까?

코드에 하네스를 씌울 수 있다면, 글에도 씌울 수 있지 않을까? 이 질문에서 BloomLabs Content Harness 실험이 시작됐다.

구조는 3계층이다:

harness/
├── knowledge/     ← 도메인 지식 (무엇을 아는가)
│   ├── content-domain.md    — 독자는 누구인가, 매체 특성은 무엇인가
│   ├── writing-craft.md     — 5축 평가 기준, 용어 설명 패턴, 훅 작성법
│   └── source-quality.md    — 출처의 등급 판별법
├── agents/        ← 역할별 에이전트 (누가 하는가)
│   ├── content-researcher   — 자료를 모은다
│   ├── content-writer       — 초안을 쓴다
│   └── content-evaluator    — 평가하고 판정한다
└── engine/        ← 실행 엔진 (어떤 순서로 하는가)
    ├── content-creation-workflow.md  — 작성 워크플로우
    └── level-achievement-system.md  — RPG 레벨/업적 시스템

글 하나가 태어나는 과정은 이렇게 흘러간다:

idle → prompted → researching → writing → evaluating → publishing → recording → idle

AI가 "뭐든 잘 쓰려고" 하는 대신, 각 단계마다 명확한 제약이 걸린다.

  • researching: "출처 5개 이상, 그중 Tier1(공식 문서/논문) 1개 이상 확보하지 않으면 다음 단계로 못 넘어감"

  • writing: "독자 페르소나 하나를 정하고, 그 집단의 언어로만 쓸 것"

  • evaluating: "5축 평가 70점 미만이면 다시 써" (최대 2회 복귀)

이게 바로 마구다. "아무도 싫어하지 않을 글"을 쓰는 대신, "이 독자가 이 맥락에서 필요로 하는 글"을 쓰도록 강제하는 제약 시스템.

5축 평가 — 글의 체력, 지력, 민첩을 측정하다

AI가 쓴 글을 다른 AI 에이전트(content-evaluator)가 평가한다. 이때 기준이 되는 것이 5축(Five-Axis) 시스템이다.

측정 대상

만점

비유

1

외부 자료 참조 품질

20

지력 — 얼마나 넓게 조사했나

2

비개발자 접근성

20

매력 — 문턱이 낮은가

3

대상 독자 명확성

20

집중력 — 누구에게 말하는지 아는가

4

콘텐츠 구조 완결성

20

체력 — 끝까지 읽혔을 때 남는 게 있는가

5

사실 정확성 & 최신성

20

민첩 — 오래된 정보에 속지 않는가

합산 100점 만점. 70점 미만이면 writing 단계로 강제 복귀한다. "괜찮은 것 같은데 그냥 내자"는 선택지가 없다.

이 5축은 Google E-E-A-T 프레임워크에서 영감을 받았지만, 범용적인 검색 품질 신호 대신 "기술 콘텐츠를 읽는 사람의 경험"에 초점을 맞췄다. "권위(Authoritativeness)" 같은 추상적 기준 대신, "비개발자가 이 글을 읽고 핵심을 이해할 수 있는가"처럼 측정 가능한 질문으로 바꾼 것이다.

근데 평가 시스템이란 게 원래 따분하잖아

맞다. 여기서 문제가 하나 더 생긴다. 품질 평가 시스템은 필요하지만 재미없다. 린터가 빨간 줄 그어주는 걸 좋아하는 사람은 드물다. 그래서 이 하네스에는 한 가지를 더 얹었다.

마비노기 스타일 RPG — "넌 내게 A를 줬어"

넥슨의 MMORPG 마비노기에는 독특한 타이틀(업적) 시스템이 있다. 단순히 "업적 달성"이 아니라, 유쾌한 이름이 붙는다[6]:

  • "10살에 곰을 잡다" — 저레벨 캐릭터로 곰 처치 시 획득

  • "손이 미끄러운" — 채집 10회 연속 실패 (실패에도 보상이 있다!)

  • "근면왕" — 아르바이트 10,000번 반복 (최대생명력 -50이지만 의지 +10)

  • "유혹을 이겨낸" — 라비 던전 서큐버스 솔로 클리어

이 시스템의 핵심은 "어떤 행동이든 기록되고, 재미있는 이름이 붙는다"는 것이다. 실패조차 업적이 된다. 이 철학을 글쓰기 평가에 이식했다.

글을 한 편 완성할 때마다 경험치(XP)를 얻고, 레벨이 오른다.

획득XP = 평가점수 × 10 × 등급배율 × 유형배율

예) 85점 A등급 글 = 850 × 5(A등급) × 1.0(기본) = 4,250 XP

레벨 1에서 시작해 100까지. 각 구간마다 칭호가 바뀐다:

구간

칭호

느낌

1~5

펜 잡은 모험가

글쓰기 세계에 첫 발

6~10

잉크 냄새를 아는 자

감이 오기 시작

11~25

키보드 워리어

꾸준한 전사

26~50

숙련 작가

하네스가 몸에 배는 중

51~70

전문 작가

5축 평가가 두렵지 않은 경지

71~90

마스터 작가

하네스를 역으로 가르치는 자

91~99

대현자의 깃펜

한 글자에 경험치가 녹아든다

100

BloomLabs의 신화

만렙. 당신이 곧 하네스다

그리고 업적. 각 주제 카테고리(AI/LLM, 개발방법론, 인프라, QA…)에 처음 글을 쓰면 카테고리 첫 도전 업적이 뜬다:

카테고리

업적명

원본 패러디

AI/LLM

"나는 프롬프트한다 고로 존재한다"

데카르트

개발방법론

"집밥 아키텍트"

tvN «집밥 백선생»

QA/테스트

"버그도 너무 버그"

"마나도 너무 마나"

보안

"작전명 패치워크"

영화 «작전명 발키리»

데이터/분석

"해저 2만로우"

쥘 베른 «해저 2만리»

숨겨진 업적도 있다:

  • "넌 내게 A를 줬어" — A등급 첫 달성

  • "가슴이 웅장해진다" — 5축 만점 100점

  • "죽은 척의 달인" — 기존 글을 개선해서 20점 이상 올림

  • "유혹을 이겨낸 자" — 연속 3회 A등급 유지

글 하나를 완성하면 이런 화면이 뜬다:

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
  CONTENT QUEST COMPLETE!
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

  Score: 85/100 (A등급)
  +4,250 XP 획득!

  [Lv.12 키보드 워리어]
  ████████░░░░░░░░ 2,450 / 4,500 XP

  다음 레벨까지: 2,050 XP

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
  NEW ACHIEVEMENT UNLOCKED!
  "나는 프롬프트한다 고로 존재한다"
  — AI/LLM 카테고리 첫 도전!
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

린터의 빨간 줄 대신 경험치 바가 차오른다. "70점 미만이면 재작성"이라는 냉정한 규칙이, "보스전에서 졌으니 레벨업하고 재도전"이라는 내러티브로 바뀐다. 같은 제약인데 느낌이 다르다.


결(結) — 마구는 창작의 간섭인가, 또 다른 과부하인가

여기까지 읽으면 당연히 이런 의문이 든다.

"그래서… 이 하네스라는 것도 결국 AI에게 또 다른 컨텍스트 과부하를 주는 거 아닌가?"

5축 평가, RPG 시스템, 3계층 지식 구조 — 이것들이 "전문적이면서도 친근하게, 유머도 넣고, SEO도 고려하고"라는 요구사항과 본질적으로 뭐가 다른가?

이 질문에 대한 답을 찾기 위해, 의외의 곳을 들여다봤다. 일본 만화(망가)의 편집장 시스템이다.

토리시마 카즈히코 — 드래곤볼을 만든 전설

만화가 토리야마 아키라가 주간 소년 점프에 투고를 시작했을 때, 편집자 토리시마 카즈히코는 그의 원고를 반복적으로 거절했다. 거절당한 미완성 원고만 500페이지 이상이 쌓였다[7].

토리시마의 방식은 직접 그려주는 게 아니었다. 영화를 보라고 권하거나, "이 캐릭터의 동기가 뭐냐"고 질문하거나, 페이지 레이아웃이 읽기 불편하다고 지적했다. "1,000페이지 매뉴얼"을 준 게 아니라, "여기가 약하다"는 지도를 준 것이다. 그 과정에서 «닥터 슬럼프»와 «드래곤볼»이 태어났다.

이것은 OpenAI의 하네스 엔지니어링이 말하는 "맥락 엔지니어링"과 놀라울 정도로 닮아 있다. 에이전트에게 모든 것을 알려주는 대신, 지도(map)를 주고 스스로 길을 찾게 하는 것.

원피스의 네버엔딩 — 편집장이 사라진 뒤

토리시마는 1996~2001년 주간 소년 점프 편집장으로 재직하며 «원피스»를 평가했다. 그런데 그가 남긴 흥미로운 비판이 있다:

"초기 2권 이후 편집자들이 오다(에이이치로)에 대한 권위를 잃었다. 편집자가 더 이상 창작자에게 반대할 수 없게 되면, 만화는 더 넓은 독자층과 연결될 기회를 잃는다."[8]

원피스는 현재 100권을 넘겼다. 누적 판매 5억 부 이상. 그러나 토리시마의 관점에서 보면, 이것은 편집(harness)이 느슨해진 결과이기도 하다. 드래곤볼 역시 토리시마 이후의 편집자 시기에 연재가 계속 늘어났다는 지적이 있다.

편집자는 만화의 첫 번째 독자다. 원고를 가장 먼저 읽고, "이 장면이 독자에게 전달되는가?"를 판단하고, 안 되면 되돌린다[9]. 이것은 하네스의 content-evaluator가 하는 일과 정확히 같다 — 5축 평가로 글을 판정하고, 70점 미만이면 writing 단계로 되돌리는 것.

간섭과 과부하의 경계

일본 만화 시스템이 알려주는 건 이것이다:

"모든 조건을 동시에 만족시켜라"는 것은 과부하다.
"이 기준을 넘지 못하면 다시 해라"는 것은 제약이다.

과부하는 방향을 잃게 만든다. 제약은 방향을 만든다.

토리시마가 토리야마에게 "전문적이면서도 친근하게, 유머도 넣고, 독창적이면서 튀지 않게 그려라"고 했다면 닥터 슬럼프는 나오지 않았을 것이다. 대신 그는 "이 캐릭터, 매력 없어. 다시 해"라고 말했다. 평가축 하나. 합격선 하나. 부족하면 되돌림. 이것이 마구가 하는 일이다.

그래서 이 하네스가 완벽한가? 모르겠다.

편집장의 간섭이 드래곤볼을 만들었지만, 같은 시스템이 원피스를 100권짜리 네버엔딩 스토리로 만들기도 했다. 하네스가 글의 영혼을 넣어주는 건 아니다. 다만, 영혼 없는 글이 그대로 세상에 나가는 것을 한 번은 막아준다. 그 "한 번"이 500페이지의 거절된 원고가 될 수도, 70점 미만의 재작성 루프가 될 수도 있다.

AI 시대의 글쓰기에서, 마구는 창작의 적이 아니라 창작이 길을 잃지 않게 하는 최소한의 장치다. 그리고 그 장치가 따분해질 때를 대비해, 우리는 거기에 경험치 바와 업적 팝업을 달았다.

  ★ LEVEL UP! ★
  Lv.19 → Lv.20
  칭호 유지: "키보드 워리어"
  다음 목표: Lv.26 "숙련 작가"

마구를 씌운 말은, 적어도 아무 데나 달리진 않는다.


참고 자료

  1. AI Slop — Wikipedia — 2025년 올해의 단어 선정 기록

  2. Medium — AI Slop Explained — Graphite 연구 인용

  3. Backlinko — Google E-E-A-T Guide — Experience 축 추가 배경

  4. PanKri — AI Slop Narrative 2025 — 프리랜서 수요 급증 분석

  5. OpenAI — Harness Engineering — 공식 블로그, 2026-02

  6. 나무위키 — 마비노기/타이틀 — 업적 시스템 상세

  7. Keio University — The Legendary Editor Behind Dr. Slump and Dragon Ball — 토리시마 인터뷰

  8. Screen Rant — Dragon Ball Editor on One Piece — 토리시마의 원피스 비판

  9. Google Arts & Culture — What Does a Manga Editor Do? — 편집자 역할 정의

  • No labels