AI에게 '하지 마세요'라고 쓰면 왜 오히려 그 행동을 하나요?

LLM은 인간의 언어 데이터로 학습되었기 때문에, 인간의 인지 패턴을 그대로 재현합니다. '하지 마'라는 지시가 해당 개념을 활성화시키는 것은 인지심리학의 아이러닉 프로세스 이론과 동일한 메커니즘입니다.

프롬프트에서 부정 지시를 피하려면 어떻게 해야 하나요?

'워크플로우를 제안하지 마세요' 대신 '질문에 직접 답변하세요'처럼, 금지 대신 해야 할 행동을 명확히 지시하면 됩니다. Anthropic 공식 가이드도 이 방법을 권장합니다.

AI 개발 경험이 실제로 사람을 이해하는 데 도움이 되나요?

네. AI의 실패 패턴을 분석하면 인간 인지의 작동 원리가 역으로 드러납니다. 줄갭은 44개 AI 에이전트를 운영하며 축적한 이런 인사이트를 판단OS 설계에 반영하고 있습니다.

이 원리가 마케팅에도 적용되나요?

그렇습니다. 파타고니아의 '이 재킷을 사지 마세요' 광고가 매출을 30% 올린 것이 대표적입니다. 금지가 오히려 욕구를 자극하는 심리적 리액턴스는 AI와 인간 모두에게 작동합니다.

AI를 개발할수록 사람이 보인다 — 판단OS를 만들며 깨달은 역설

AI를 만들면 만들수록, 사람이 보입니다.

이건 비유가 아닙니다. 44개 AI 에이전트와 142개 도구로 구성된 판단OS를 직접 개발하고 운영하면서, 그간 마케팅을 공부하며 쌓아온 인지심리학·소비자심리학 지식이 AI에게 동일하게 적용되는 것을 목격했습니다.

AI를 깊이 파고들수록 사람의 판단 메커니즘이 더 선명하게 보이는 역설. 오늘은 그 이야기를 하려 합니다.

발단: "하지 마세요"라고 썼더니 오히려 했다

판단OS에는 40개 이상의 AI 에이전트가 있습니다. 각 에이전트에게는 시스템 프롬프트 — 일종의 '업무 매뉴얼'을 줍니다.

한 에이전트의 프롬프트 19번째 줄에 이런 규칙이 있었습니다:

"워크플로우 등록을 제안하지 마세요"

결과가 어땠을까요?

o3 모델(temperature=1)이 이 금지 규칙을 읽고, 오히려 워크플로우 설정을 제안하는 역설적 행동을 했습니다. 금지를 명시했는데, 금지된 바로 그 행동을 한 겁니다.

처음에는 모델 버그인 줄 알았습니다. 하지만 원인을 추적하면서, 이것이 버그가 아니라 인간 인지의 가장 유명한 역설과 동일한 현상이라는 걸 깨달았습니다.

백곰 효과: "생각하지 마세요"가 생각을 만든다

1987년, 사회심리학자 대니얼 웨그너(Daniel Wegner)는 유명한 실험을 합니다.

참가자들에게 **"하얀 곰을 생각하지 마세요"**라고 지시했습니다.

결과: 하얀 곰을 생각하지 말라고 한 그룹이, 처음부터 하얀 곰을 생각하라고 한 그룹보다 더 자주 하얀 곰을 떠올렸습니다.

이것이 **아이러닉 프로세스 이론(Ironic Process Theory)**입니다. 메커니즘은 이렇습니다:

의식적 통제 프로세스: "하얀 곰 말고 다른 걸 생각하자"
무의식적 감시 프로세스: "혹시 지금 하얀 곰 생각하고 있나?" ← 확인하려면 하얀 곰을 떠올려야 함

감시 프로세스가 역설적으로 억제 대상을 계속 활성화시킵니다.

AI에게도 똑같이 일어났다

판단OS에서 일어난 일을 다시 봅시다:

인간 (백곰 실험)	AI (판단OS 에이전트)
"하얀 곰을 생각하지 마세요"	"워크플로우 등록을 제안하지 마세요"
뇌가 '하얀 곰' 개념을 활성화	모델이 '워크플로우 등록' 토큰을 활성화
억제하려 할수록 더 자주 떠오름	금지 규칙을 읽을수록 관련 출력 확률 상승
결국 하얀 곰을 생각함	결국 워크플로우를 제안함

LLM은 인간의 언어 데이터로 학습되었습니다. 인간의 인지 패턴이 모델 안에 그대로 인코딩되어 있는 겁니다. 2026년 Wiley 학술지에 발표된 연구도 이를 뒷받침합니다 — 인간과 AI의 인지 기능은 학습, 패턴 인식, 기억, 추론에서 구조적으로 유사하며, AI의 할루시네이션은 인간의 거짓 기억(false memory)과 같은 메커니즘이라는 것입니다.

마케팅에서도 이미 증명된 원리

사실 이 원리는 마케팅에서는 이미 교과서적입니다.

**파타고니아(Patagonia)**는 2011년 블랙프라이데이에 뉴욕타임스 전면 광고를 냈습니다:

"Don't Buy This Jacket" (이 재킷을 사지 마세요)

결과? 매출 30% 증가.

심리학에서는 이것을 **리액턴스(Reactance)**라고 부릅니다. 누군가 "하지 마"라고 하면, 인간은 자율성을 침해받았다고 느끼고 오히려 그 행동을 하려는 충동이 생깁니다.

AI에게 "제안하지 마세요"라고 쓰면 제안을 하고, 소비자에게 "사지 마세요"라고 하면 사는 것. 같은 메커니즘입니다.

해결법도 같다: "하지 마" 대신 "이렇게 해"

판단OS에서 이 문제를 어떻게 해결했을까요?

금지 규칙 "워크플로우 등록을 제안하지 마세요"를 삭제했습니다.

대신 해야 할 것만 명확하게 적었습니다:

~~"워크플로우 등록을 제안하지 마세요"~~ → "질문에 직접 답변하세요. 도구를 호출하여 결과를 반환하세요."

금지 개념 자체를 프롬프트에서 제거하고, 원하는 행동만 기술한 것입니다.

이것도 인지심리학에서 이미 검증된 기법입니다. 웨그너의 후속 실험에서, "하얀 곰을 생각하지 마세요" 대신 **"빨간 폭스바겐을 생각하세요"**라고 대체물을 제시하자, 백곰 효과가 사라졌습니다.

Anthropic(Claude를 만든 회사)도 공식 프롬프트 가이드에서 이렇게 말합니다:

"Tell Claude what to do instead of what not to do." (하지 말 것을 말하지 말고, 할 것을 말하세요.)

AI 프롬프트 엔지니어링의 모범 사례가, 70년대 인지심리학의 결론과 정확히 일치하는 겁니다.

역설: AI를 만들수록 사람이 보인다

이 경험은 한 가지 확신을 줬습니다.

AI를 개발하는 것은 사람의 인지 메커니즘을 역설계하는 일입니다.

그간 마케팅을 공부하며 얻었던 인지심리학, 소비자심리학의 지식 — 프레이밍 효과, 확증 편향, 손실 회피, 앵커링 — 이 모든 것이 AI 에이전트에게 동일하게 적용되는 것을 매일 목격합니다.

프레이밍 효과: 같은 데이터도 프롬프트에서 어떤 맥락으로 제시하느냐에 따라 AI의 판단이 달라집니다. 인간도 같습니다.
확증 편향: AI가 초기 판단을 내리면 이후 정보를 그 방향으로 해석합니다. 인간도 같습니다.
앵커링: 프롬프트에 숫자를 먼저 제시하면 AI의 후속 추정이 그 숫자에 끌려갑니다. 인간도 같습니다.

다른 말로 하면, AI의 실패 패턴을 분석하면 인간 인지의 작동 원리가 역으로 드러납니다.

그래서 줄갭은 이렇게 합니다

판단OS를 만드는 줄갭의 접근법은 여기서 나옵니다:

1. AI 에이전트를 설계할 때, 인간 심리학 원리를 적용합니다.

"이 에이전트가 어떤 인지 편향에 빠질 수 있는가?"를 먼저 묻습니다. 인간 조직에서 신입사원 온보딩을 설계하듯, AI 에이전트의 판단 환경을 설계합니다.

2. AI의 실패에서 인간 판단의 취약점을 역추적합니다.

AI가 빠지는 함정은 인간도 빠지는 함정입니다. AI의 실패를 수집하면, 조직의 판단 프로세스에서 인간도 같은 실수를 하고 있을 가능성이 높다는 신호입니다.

3. "AI는 초안까지만, 확정은 인간이"라는 원칙의 근거가 됩니다.

AI가 인간과 같은 인지적 한계를 가진다면, AI의 판단을 무조건 신뢰하는 것은 위험합니다. 그래서 판단OS는 AI가 제안하고, 인간이 확인(Confirm)·수정(Patch)·거부(Reject)하는 구조를 철칙으로 지킵니다.

마치며

AI를 만들기 전에는, 인지심리학 교과서가 '이론'이었습니다.

AI를 만든 후에는, 그 이론이 매일 눈앞에서 재현되는 현실이 되었습니다.

"AI가 사람을 대체한다"는 프레임은 틀렸습니다. 더 정확한 표현은 이것입니다:

AI를 깊이 만들수록, 사람에 대한 이해가 깊어진다.

그리고 사람을 더 깊이 이해한다는 것은, 더 좋은 AI를 만들 수 있다는 뜻이기도 합니다.

이 순환이 줄갭이 판단OS를 만드는 이유이자, AX(AI Transformation)의 본질입니다.

줄갭(ZULGAP)은 AI 바우처 공급기업으로, 제조·건설·마케팅 현장의 반복 판단을 체계화하는 AX 전문 기업입니다. 8주 PoC로 시작할 수 있습니다.