내 소식

PPP_Rees [1428573] · MS 2025 (수정됨) · 쪽지

2026-06-24 22:03:16
조회수 135

누가 봐도 07이 확실한,

게시글 주소: https://orbi.kr/00078726798

대한민국이 공식적이며 진실되게 보증하는 응애07, Rees의 오늘자 개발일지입니다.



저번에 토큰 부족으로 생성하지 못했던 서로 다른 모델을 포함하는 하위 에이전트들의 복합적 문제 생성은 가능한 것으로 확인되었습니다. 다만, 생성하다가 말고, 다시 생성해서 그런지 문항 생성 규칙을 위배하는 오류를 발견했습니다. 분명 이중으로 1차 검수를 진행하게 되어있으나.. 뭐 암튼 결과는 그렇습니다. 추가로 antigravity의 scheduling 기능은 powershell 종료시 같이 종료되기에 모델 활성화 이후, 최소 한 번의 명령이 필요한 것을 확인하였습니다.


토큰으로 고통받았기에, 오늘은 토큰 사용량 최적화를 위해 힘썼습니다. 우선, 에이전트 자체 기능을 활용한 방안부터 보고하겠습니다. antigravity의 context caching을 활용하여 AGENTS, 수학_문제_제작_및_설계_지침, 2차_검수법 파일을 클라우드 저장하였습니다. 이를 통해, 각 파일을 다시 읽으며 발생하는 토큰 손실을 줄였습니다.


다음으로 codex에게는 처음 문항 생성시, 개념, 전략, 목적 및 상황, 소단원명, 풀이, 논리구조 등에서 참고할만 한 최대 7개의 문항을 추려서 작업하도록 설정하였습니다. 이를 통해 토큰 낭비를 줄이고 참고 문항에 대한 할루시네이션 현상도 줄일 수 있음을 테스트를 통해 확인하였습니다.


오늘 한 일의 가장 핵심이 되는 구조적인 개혁을 설명드리겠습니다. antigravity는 a로 codex는 c로 표기하겠습니다. 명령과 수행 순서입니다.

1. '수학1, 15번 최상 난이도, 삼각함수, 3문제.' 와 같은 형식으로(과목, 난이도, 대단원, 문항수)를 c에게 지시합니다.

2. c는 AGENTS, 수학_문제_제작_및_설계_지침를 확인하고 database 내의 모든 기출 문항 중 자체적이고 임의적인 판단을 통해 선별된 문항들을 선별.

3. c는 이를 통해 문제의 초안 겸 완성본의 구조를 지닌 문제를 제작

4. c는 자체적인 1차 검수를 수행 후 a에게 문제의 1차 및 2차 검수를 요청

5. c의 요청을 받은 a는 1차 및 2차 검수를 통해 문제별 점수를 책정 후 c에게 피드백 전달.

6. 기준 점수 미달인 문제는 c가 피드백을 바탕으로 수정 후, a에게 전달. 기준을 충족한 문제는 최종본으로 database에 분류 기록.

7. 이와 같은 2차 검수를 loop하여 마지막 문제까지 database에 분류 기록.


하지만 이 과정은 토큰 소모가 큽니다. 따라서 다음과 같이 구조를 수정하였습니다.

1. '과목, 난이도, 대단원, 문항수'를 c에게 지시합니다.

2. c는 개념, 전략, 목적 및 상황, 소단원명, 풀이, 논리구조 등에서 참고할 만한 문항 최대 7가지를 추려서 reference digest라는 참고사항이 포함된 문제의 LaTex형식 축약본을 작성.

3. 이 reference digest만을 이용하여, c는 문제의 1차 및 2차 검수는 가능한 초본을 작성.

4. c는 초본을 1차 검수 후, a에게 1차 및 2차 검수 요청.

5. a는 초본에 대한 1차 및 2차 검사를 수행 후, patch형식으로 수정을 요구.

6. 이를 통과한 문항은 c가 최종본으로 작성하여 database로 분류 기록. 수정요구된 문항 중 65점 미만의 문항은 폐기 후 재제작. 65점 이상 85점 미만의 문항들은  Delta recheck방식을 최우선으로 수정 및 재검수 요청.

7. 마지막 문제까지 loop과정이 완료되면 database에 분류 기록.


다음으로 직접 문제를 생성하여 효과를 테스트해보고 싶었으나.. antigravity의 주간 토큰 한도 제한으로 실패..


따라서 남은 시간에는  이러한 토큰 제약을 타파할 방법과 이론적인 개선안 구상, 프로그래밍 공부에 시간을 썼습니다.


이론적인 개선안은 클라우드가 아닌 로컬 기반 모델 Qwen과 opencode를 결합하여 ingest의 일부, 생성 과정의 일부 검수 과정, 개발일지 작성, 등을 맡기는 방안을 세웠습니다. 문제는 노트북 사양이죠. 새 노트북이 배송될 때까지는 구현 불가능입니다. 추가로 claude code까지 도입을 검토하고 있습니다.


이론적인 개선안으로는 표본 분석에 대한 최적화가 있습니다만.. 아직 구상 중이라 여기선 생략하겠습니다.


마지막으로 프로그래밍 공부는 뭐.. 그냥 공부입니다.


이상 명명백백하고 투명하고, 확실하며, 공식적이며, 보장받는, 엄연한 07 Rees의 24일자 개발일지였습니다.



0 XDK (+0)

  1. 유익한 글을 읽었다면 작성자에게 XDK를 선물하세요.