AI의 추론을 줄이는 방법(찐빠 방지법)

페이지 정보

현재 Gemini pro 2.5 또는 기타 추론 모델에서 추론은

AI의 응답 성능을 올려주는 기능을 하고 있습니다.

다만 사람도 생각이 너무 많아지면 머리가 혼잡해 지듯이 추론모델 또한 비슷한 경향이 있는 듯 합니다.

특히 현재 추론조절 기능이 아직 안나온 Gemini-2.5-Pro 의 경우 추론이 너무 많아져서 생길 수 있는 문제는 아래와 같습니다.

- 추론 + 응답량의 최대 제한량에 걸려서 응답이 잘림

- 추론 내용이 응답에 노출

(저는 이 경우를 생각이 너무 많이 하다보니 무심코 생각을 입밖에 내는 경우로 비유하고 있습니다.)

- 응답자체는 정상으로 보이나 일부 호칭이나 로직 미반영

사실 이 문제는 추후 어떤 좋은 LLM이 나오더라도 나올 수 있는 문제라고 판단이 되기에 사용자 입장에서도 최대한 회피할 수 있는 방법을 찾아보고 공유 드리고자 간단하게 글을 쓰게 되었습니다.

1. 응답량 조절 프롬은 넣지 않으시는걸 권장 드립니다.

- 응답 량 글자 수를 조절하는 프롬프트의 경우 강제적으로 해당 글자 수를 맞추기 위해 LLM의 추론 과정의 부하가 걸릴 수 있습니다. 결국 응답글자 수를 맞추기 위해서 문맥이 이상해지거나, 추론이 길어져 결국 응답이 잘려버리는 문제가 발생할 수 있습니다.

- 응답 조절 프롬을 사용하여 2-3000자 이상 나오는 경우는 대화가 이어졌을 때 기억력 혹은 대화의 중심 컨텍스트를 유추하기 어려워져 대화가 길어질수록 문제가 발생할 확률이 높아집니다.

- 처음 시작시 돌아오는 응답이 짧게 느껴져도, 대화를 진행하면서 LLM이 전개할 이야기가 충분해지면 응답은 자연스럽게 길어집니다.

2. 응답을 입력할 때 문법, 띄어쓰기 준수, 지문(* *) 대사(" ") 부호 적극사용

- 응답을 빨리 보내기 위해서 단답 또는 띄어쓰기 없이 붙여서 보내는 경우등을 종종 확인한 적이 있습니다.

이 경우 원래 의미를 유추하기 위해 추론이 길어지는 것은 물론이고 해당 문장의 의미를 오인할 가능성도 있습니다.

또한 문장 부호를 적극 활용하여, 지문(나레이션)과 대사를 확실히 구분하여 의미 전달을 확실하게 해주는 것이 좋겠습니다.

3. 주어를 명확하게 사용하기

- 응답을 작성하거나, 이건 캐릭터를 만들거나 유저메모를 작성할 때도 동일하게 적용됩니다.

기본적으로 LLM은 응답을 보내는 사용자와 {{user}}를 동일시 하지 않습니다.

따라서 이 부분도 채팅 내용을 가지고 추론을 하여 알아내는 것인데. 이 부분도 주어를 명확하게 해주면 해당 부분에 추론 시간을 줄여

조금 더 에러가 없는 답변을 받을 확률이 높아집니다.

우선 간단하게 세 가지 정도 제 견해를 적어봤습니다.

저는 모든 사용자가 AI채팅을 통하여 즐거운 경험과 추억을 쌓기를 바라고 있습니다.

긴 글 읽어주셔서 감사합니다.