Retrieval 품질 및 LLM Fine-tuning에 따른 성능 영향도
Cutoff 적용 영향도
SKT 고객센터에서의 RAG 기술을 도입사례
AICC 어시스트
•
고객센터 내에서 상담사를 지원하는 도구
두 번째 챕터에서는 도전 과제를 해결하기 위해 도입한 다양한 RAG 기술과 그 과정에 대해 설명드리겠습니다.
마지막으로 반복적인 실험과 평가를 진행하며 얻은 결과를 공유하겠습니다.
먼저 상담사 어시스트에서 아래와 같은 역할과 저희의 도전 과제에 대해서 설명드리겠습니다.
지금 보시는 그림은 고객님들이 고객센터에 전화를 하셔서 질문을 하고, 그에 대해 상담사분들이 답변하는 과정에서의 각자 역할을 보여주는 것입니다.
기존에는 상담사 분들이 직접 검색을 해서 문서를 찾고, 읽고 이해한 후 답변을 보내주었다면, RAG를 도입하면서는 상담사가 질문을 자연어로 하면 RAG 내에서 쿼리를 재해석하고, 문서를 찾아 최적의 문서로 그라운딩을 하여 검색 결과 및 추천 답변을 제공하게 됩니다.
그렇습니다. 상담사들은 이제 RAG 시스템에서 제공하는 답변을 믿고 고객에게 적절한 답변을 제공할 수 있게 되었습니다. 통신회사에서는 고객센터를 통해 고객들에게 실시간으로 정확하고 일관된 서비스 품질을 제공하는 것이 중요합니다. RAG 시스템을 도입함으로써 상담 업무의 효율성을 극대화하고, 베테랑 상담사부터 초보 상담사까지 일관된 서비스를 제공할 수 있게 되었습니다.
일괄된 서비스 품질로 제공하는 거를 이제 많이 기대를 하면서 이 프로젝트를 진행을 했습니다.
이 프로젝트를 진행하면서 페인 포인트이자 도전 과제였던 두 가지 이슈가 있었습니다. 첫째는 도메인 지식이 부족했다는 점입니다. SK텔레콤에서 근무하지만 통신 서비스에 대한 정책이나 용어, 가이드 지식 등은 어려운 영역이어서 매뉴얼을 봐도 이해하기 힘든 상황이 계속 발생했습니다.
이제 저희 프로젝트가 고도의 품질을 요구하는 프로젝트이기 때문에 도메인 지식의 부족은 저희에게 어려움으로 다가왔습니다.
두 번째는 도전 과제에 좀 더 가까웠는데요.
RAG 답변에 대해 최종적으로 평가를 받을 텐데요. 1점에서 5점 척도로 답변 만족도를 측정할 것이며, 1점이나 2점은 없어야 한다는 것이 저희의 목표였습니다.
어쨌든 상담사분들이 이제 고객상담을 하는데 RAG에서 자꾸 오답을 제공해주면 신뢰를 해서 사용할 수가 없겠죠. 신뢰가 안 되니까 이 Hallucination, 그러니까 LLM의 Hallucination을 어디까지 극복할 수 있는가? 이게 저희 입장에서의 가장 큰 도전 과제였고요. 이를 해소하기 위해서 여러가지 다양한 기술적인 방법을 접근했습니다.
이 두 가지 이슈를 해결하기 위해 어떤 시도를 했는지 다음 챕터에서 설명하겠습니다.
아래와 같은 기술 인사이트와 전략입니다.
1번째 이슈에 대한 해결은 저희가 좀 운이 좋았던 게 베테랑 상담사들의 피드백을 받을 수 있었다는 것입니다. 베테랑 상담사분들께서 저희 모델을 평가하고 정답에 대한 힌트를 주셨습니다. 이분들과의 협업이 프로젝트 성공에 큰 역할을 했습니다.
그러면 이제 저희는 한 가지만 잘 생각하면 되죠. 어떻게 하면 효율적으로 피드백을 받고 정확하게 피드백을 받고, 그리고 이 평가받은 데이터를 100% 잘 활용할 수 있을까에 대한 고민을 하면 됐었고요. 그래서 저희는 이제 플레이그라운드를 만들게 되었습니다.
플레이그라운드는 총 세 가지 기능을 가지고 있습니다. 첫째, 질의를 입력하면 자연어 입력에 따라 검색 결과가 나오고, 그에 대한 최적의 근거 기반 답변이 생성됩니다. 둘째, 상담원들은 이 결과를 보고 검색 만족도와 답변 만족도를 평가할 수 있습니다. 셋째, 답변이 없는 경우 적절한 답변까지 피드백을 줄 수 있는 툴입니다.
그리고 마지막으로는 그 실시간으로 이들에게 평가하는 것을 모니터링해야 했습니다. 왜냐하면 한두 명이 하는 게 아니라 여러 분들이 하기 때문에 그 기준이 다를 수도 있고 평가 자체도 잘못될 수도 있어서입니다.
실시간 평가도 함께 개발했습니다. 그래서 저희는 상담원 분들과 긴밀하게 이 평가 툴로 협업할 수 있었고, 누적된 평가 데이터를 잘 사용할 수 있게 되었습니다.
두 번째는 이제 기술 자체에 대해서 집중을 했는데요. 아마 지금 보시는 이 아키텍처는 RAG를 한 번이라도 경험하셨다면 많이 보셨을 아키텍처일 거예요. 그래서 이 아키텍처 내에서 저희가 어떤 노력을 기울였는지를 간단히 설명드리면, 먼저 문서가 있고 문서를 청킹(chunking)과 인베딩(embedding)을 거쳐서 최종적으로 검색을 하게 되죠.
이 청킹과 인베딩 내에서의 기반 기술이 적용되었고요. 실시간으로 자연어 쿼리가 들어오면 이제 쿼리 변환기를 거치게 됩니다. 이 쿼리 변환기를 거치면서 쿼리를 재정의하거나 중요한 정보를 추출하게 되고요. 이렇게 추출된 중요한 정보를 가지고 이제 하이브리드 검색을 하게 됩니다. 이 검색, 즉 검색기를 사용하는 과정에서도 저희는 다양한 검색 기법을 적용했는데요.
뒤쪽 발표에서 좀 더 설명을 드리도록 하겠습니다. 이렇게 리트리버를 통해 나온 검색 결과를 가지고 다시 LLM 그라운딩을 하게 되죠. LLM의 그라운딩 자체도 다양한 모델을 시도했고요. 다음 장부터는 각 항목마다 시도한 내용에 대해서 좀 더 설명하도록 하겠습니다.
먼저 문서 청킹에 대한 부분인데요. 우리는 기반 기술로 '독수리'라는 모듈을 만들었습니다. 이는 '문서를 수리한다'는 의미이고요. 이 독수리는 기본적으로 문서 전처리를 포함하고 있어요. 우리는 대부분의 문서를 마크다운으로 최종 표현을 했고요. 그리고 이제 문서를 색인 및 그라운딩하기 위한 형태로 청킹을 하게 됩니다. 청킹하는 기법은 앞서 말씀하신 것처럼 이루어집니다.
되게 다양한데 저희는 최소한의 의미 단위를 기반으로 청킹을 하게 되고요. 어떤 경우에는 임베딩 토큰이 초과되면 추가 청킹이 되기도 합니다.
아무래도 이렇게 추가적으로 강제적으로 청킹을 하다 보면 어떤 의미상 훼손이 있을 수 있고요. 네, 최대한 의미가 훼손되지 않는 범위 내에서 단락을 만들고 그 단락 단위로 다시 색인을 하고요. 그 단락 단위로 검색이 됐을 때 검색 결과를 LLM의 그라운딩할 때 그룹핑을 하거나 확장하는 기법을 사용했습니다.
음, 독수리에서는 가장 그라운딩이나 검색 품질에 영향을 미쳤다고 생각하는 부분 사례를 말씀드리겠습니다. 내부 데이터도 매우 복잡하고, 가독성 등의 이유로 문서를 대부분 테이블 형식으로 만듭니다. 그래서 그 테이블을 잘게 쪼개면...
테이블 구조 자체가 매우 복잡하거나 테이블 안에 너무 긴 내용들이 들어가 있거나 또는 테이블 안에 테이블이 중첩된 구조를 가지고 있습니다. 이렇게 복잡한 테이블을 의미가 훼손되지 않게 청킹하는 것은 어려운 일이었습니다. 그래서 저희는 헤더나 타이틀 부분을 최대한 잘 복원하는 기술을 많이 연구했고요.
그라운딩을 더 잘하기 위해 문서 전처리나 이미지 정보 처리 등 추가적인 연구를 많이 하고 있었습니다.
이렇게 해서 독수리를 적용을 했고요. 이제는 RAG 기술을 적용했습니다.
다음에 검색 품질을 위한 그 중요한 임베딩 부분인데요.
어 저희는 텔코형 데이터를 가지고 파인튜닝한 임베딩을 개발했습니다. 임베딩의 학습 프로세스는 다른 일반적인 모델과 크게 다르지 않습니다. 위키나 뉴스와 같은 대량의 학습 데이터로부터 어 슈퍼바이즈드 러닝을 진행하고, 검색과 MRC 벤치마크 데이터로 정제된 데이터로 수퍼바이즈드 러닝을 합니다. 그리고 마지막으로 상담 데이터로 진행합니다.
상담사들로부터 받은 고품질 피드백 데이터로 파인튜닝을 하게 됩니다. 다만 파인튜닝의 성능을 확보하기 위해서는 약간 고도화된 엔지니어링이 필요한데요. 엔지니어링의 핵심은 도메인 성능을 향상시키면서 일반적인 검색 능력을 잃지 않는 것입니다. 이것이 핵심적인 부분이고, 저희는 여기서도 상담원들로부터 받은 피드백을 활용합니다.
데이터와 검색.
데이터와 검색을 적절한 비율로 혼합하여 사용하게 되고, 커버리지를 확대하기 위해 데이터 증강(augmentation) 기법을 사용하게 됩니다.
그 외에도 알파 파라미터 튜닝을 할 때 모든 벤치마크의 성능 총합을 목적함수로 사용하여 원하는 결과를 얻을 수 있었습니다.
이제 평가 결과를 살펴봅시다. 현재 공개된 모델 중에서 가장 우수한 성능은 Hit@5가 가장 높습니다. 맨 왼쪽의 파란색 바가 Hit@5 성능이고요. 그 다음으로 빨간색 바는 SK텔레콤의 임베딩 모델입니다. 도메인 성능에서는 약 11% 정도 향상된 모습을 볼 수 있고, 다른 벤치마크 지표의 성능도 유사하거나 더 높은 수준을 보여줍니다.
그래서 원하는 결과를 얻었고, 최종적으로는 SK Telecom 인베딩 모델을 채택하게 되었습니다.
다음은 이제 쿼리 변환기인데요. 저희가 단순히 자연어 질의를 하나만 받는 게 아니라.
대화형 형식도 받고 있습니다. 그래서 대화형식에 있는 이력을 받고 있기 때문에 RAG 입장에서 이 두 가지를 다 처리해야 되는 거죠. 그러다 보니 쿼리 변환기의 역할이 아주 중요해졌습니다. 쿼리 변환기를 거치면 이렇게 대화형 형식의 문장도 하나의 쿼리로 바뀌게 되고요. 그리고 중요한 인텐트라든지 카테고리 토픽 이런 정보들을 함께 받게 됩니다.
쿼리 변환기를 거쳐 대화형 문장을 단일 쿼리로 변환하고, 중요한 인텐트, 카테고리, 토픽 등의 정보를 추출하여 리트리버에서 활용할 수 있는 구조로 만들어 주죠. 그런 다음 이 정보를 이용하여 리트리버 과정을 수행하게 됩니다.
네, 리트리버는 크게 멀티 컬렉션, 리랭킹, 컷오프 세 가지로 정리할 수 있습니다.
대부분의 검색 서비스는 하나의 컬렉션만 가지는 일은 없습니다. 대부분 기업 내에서는 여러 컬렉션의 데이터를 한 번에 검색해야 하는 경우가 많이 생기는데, 이를 멀티 컬렉션으로 구성했습니다. 상품 정보, 공지사항, FAQ 23개의 컬렉션으로 구성했고, 특히 공지사항과 FAQ는 최신의 정답 문서 한 건만이 의미가 있는 도메인이었습니다.
약간 정답 형식으로 좀 구성을 했습니다. 각각의 컬렉션에는 그 컬렉션에 맞는 최적의 랭킹 모델링이 적용되었고, 공지사항과 FAQ는 정답 형식의 랭킹 모델링이 적용되었습니다. 이렇게 멀티 컬렉션으로부터 올라온 일차적인 후보들의 Top N이 올라오면 크로스 인코더 리랭킹을 진행하게 됩니다.
어, 색인 시에 하는 그런 어, 임베딩은 쿼리와 상관없는 바이인코더 임베딩이라서 어, 아무리 쿼리와 유사한 벡터를 추출한다고 해도 한계가 있습니다. 그래서 이제 크로스 인코더를 진행하게 되는데.
컬렉션으로부터 올라온 문서를 근거로 하여 크로스 인코더 임베딩을 진행하고 그 스코어를 얻게 됩니다.
그 최종 스코어로 이제 랭킹을 마지막으로 하게 되죠. 그러면 여기에서 오답 문서가 있을 수 있어서 마지막으로 컷오프라는 것을 진행하게 됩니다. 이 컷오프를 하는 목적은?
LLM에 최대한 정답 문서만을 그라운딩하기 위함이며, 할루시네이션을 줄이기 위해 컷오프 기능을 넣어서 최대한 오답 문서를 제거하고 그 상태에서 다시 파라그래프를 확장하거나 그래핑하는 기능을 통해 최종 LLM까지 가게 됩니다.
이제 검색에서 이러한 기능들을 저희는 단계별로 적용했고, 그 과정의 효과를 실험을 통해 트래킹했습니다. 실험 평가 부분에서 이 부분에 대해 더 설명드리겠습니다.
마지막으로 텔코 LLM에 대한 설명인데요. 우리는 이번에 또 텔코 LLM을 기반으로 최종적으로 오픈하게 되었는데 역사를 보시면 각각의 LLM들이 종류가 매우 많습니다. 이제 도메인 데이터를 모두 블라인드 처리를 했고요. 처음에는
처음에는 텔레컴 성능이 확보된 LLM이 나왔다가 다시 인스트럭션이 잘 수행되지 않는 문제가 발견되어서 다시 전체적으로 균형잡힌 모델이 나왔고, 또 중간에 한 번 경량 모델 실험을 했습니다. 실시간 대응을 위해서는 생성 속도가 빨라야 하는 니즈가 있었기 때문에 경량 모델 실험을 했는데, 경량 모델에서는 품질이 원하는 만큼 나오지 않았습니다.
그래서 다시 라지 모델로 돌아가 상용화 가능한 수준의 텔코 LLM을 적용하게 되었습니다.
이렇게 모델이 바뀔 때마다 상담사들이 원하는 간단명료한 내용 형식의 인스트럭션이 적용되었고, 가독성이 높은 좋은 표현을 위해 프롬프트 튜닝도 많이 진행했습니다. 또한 답변의 유창성보다는 안전성이 더 중요했기 때문에 그에 맞는 온도 조절도 이루어졌습니다.
번 어 평가를 해서 최종 모델을 선정하게 되었습니다.
아, 지금까지 다양한 컴포넌트 별로 기울인 노력에 대해 말씀드렸습니다.
저희가 이것을 하나하나 제공하면서 정말 많은 실험과 평가를 했습니다. 지금부터는 그 결과를 몇 가지 사례를 통해 공유하겠습니다.
음, 지금 보시는 그래프는 저희가 RAG 성능을 향상시킨 과정을 표현한 건데요. 표의 위쪽은 검색 품질, 아래쪽은 답변 품질을 나타냅니다. 맨 처음에 총 다섯 번의 큰 평가가 있었고, 사실 작은 규모의 실험과 평가들이 계속 반복되었습니다.
각 단계마다 개선된 부분이 적용되었고, 새로운 개선 부분이 발견되는 과정을 반복했습니다. 그래프의 맨 왼쪽이 베이스라인으로, 당시에는 일반적인 벡터 스토어와 레시카스코 스토어의 RRF 엔진을 사용했고 정확도는 73% 정도였습니다. 초기 LLM 모델을 사용했으며, 본격적인 모델링 작업을 진행했습니다.
파이브 인베딩 공개된 임베딩을 정리했을 때 정확도가 85%까지 올랐고, 그리고 LLM 성능도 좀 높아졌습니다.
이에 멀티 컬렉션과 리랭킹을 적용하면서 정확도가 92%대까지 올라갔습니다. 하지만 경량 모델을 테스트했을 때는 많은 핼루시네이션이 발생하여 성능이 기대에 미치지 못했기에, 경량 모델은 아직 시기상조라고 판단했습니다.
품질이 우선이기 때문에 라지 모델로 다시 돌아갔습니다.
마지막으로 컷오프와 SK텔레콤 임베딩을 적용하면서 97%까지의 성능을 올렸고요. 그리고 이 97%의 품질에서 이제 두 가지 LLM을 테스트했습니다. 바닐라 모델로 테스트를 한 것이 있고요. 텔코 LLM 테스트를 했습니다.
어 최종적으로는 텔코 LLM을 적용하면서 4.36점 만점의 답변 만족도를 얻었고요. 저희가 답변 만족도 4점이 넘어야지만 오픈할 수 있었는데, 그래서 아주 편안한 마음으로 최종적으로 오픈을 하게 되었습니다.
지금은 상담원 분들께서 잘 사용하고 계시고요.
이제 그 다음에 텔코 LLM과 각각의 기술들이 평가 결과에 어떤 영향을 미쳤는지 말씀드리겠습니다.
두 번의 주요 평가를 언급하신 것 같고, 첫 번째와 두 번째 막대그래프 사이에서는 검색 엔진의 품질 향상에 의한 영향이며, 두 번째와 세 번째 사이에는 텔코 LLM의 영향이라고 말씀하셨습니다.
음, 이 막대 내에서 색깔별로 이제 답변 만족도를 표현한 건데 파란색은 1점 답변 만족도, 주황색은 2점, 그리고 보라색은 5점이라고 생각하시면 됩니다. 초기에 검색 엔진의 품질이 높지 않았을 때는 답변 만족도 1점이 많은 분포였다가 검색 엔진의 품질이 개선되면서 이제 답변 만족도가 상승했습니다.
1점이 많이 줄어든 상태를 볼 수 있고요. 그런데 답변 만족도 2점인 상태도 좀 늘었단 말이죠. 근데 이때 좀 확인을 해보니 검색 결과에 답은 있어요. 답은 있는데 이제 LLM에 제대로 참조 못하는 그런 상황이었습니다.
그래서 이제 텔코 LLM으로 바뀌게 되었어요. 두 번째와 세 번째는 검색 품질은 똑같아요. 똑같은데 단지 대화 모델만 텔코 LLM으로 바뀌었습니다.
그랬을 때 답변만족도 5점이 많이 늘어나고, 답변만족도 0점도 많이 줄어서 품질이 좋아진 것을 볼 수 있습니다.
아 검색엔진 품질 개선으로 오답 경우를 줄이고 텔코 LLM을 도입해서 LLM 헬루시네이션을 줄인 것을 데이터적으로 확인할 수 있었습니다.
그리고 이제 커튼에 대한 영향도 있는데요. 과거에는 검색에서 활용할 수 있는 피처가 많지 않았을 때 다른 도메인에서 컷오프를 시도해 본 적이 있었어요. 그런데 그때는 크게 좋은 성능을 얻지 못했죠. 하지만 이제 임베딩 기술이 검색에 적극적으로 활용되기 시작하면서 사용할 수 있는 피처가 늘어난 거예요. 이제 크로스 인코더 스코어로 컷오프하는데요.
강하게 그런 피처로 재랭킹을 하나의 피처로 사용하게 되었습니다. 이제 검색 결과 하위에서 오답일 확률이 높은 문서만 필터링하는 것이 아니라 상위 문서에서도 특정 스코어가 높지 않으면 제거하는 컷오프를 적용했습니다.
어, 지금 보시는 그래프는 어 정답 문서 개수에 따라서 상위 탑 파이브 문서들이 이제 어떻게 변하는지 그런 분포를 그린 그래프이고요. 보시는 방법은 위에는 컷오프를 안 한 케이스, 아래쪽은 컷오프를 한 거고요. 어.
음, 핑크색은 정답이고, 보라색은 오답이며, X축은 1위에서 5위까지의 검색 위치를 나타냅니다.
어 이 1번째 부분이 정답 문서 한 건인 케이스라면, 그럴 경우 1위 위치에 정답이 많이 분포되어 있고 2위부터는 오답이 많이 분포되어 있습니다. 그러나 컷오프를 진행하면 오답은 많이 제거된 상태로 볼 수 있고, 정답 문서가 좀 더 높은 순위에 노출되는 것을 볼 수 있습니다. 상위 순위부터 컷오프를 하다 보니 하위 순위의 문서들이 제외되었기 때문입니다.
정답 문서가 끌어당겨지는 그런 효과를 좀 얻을 수 있었고요. 정답 문서 두 건, 정답 문서 세 건에 대해서도 마찬가지로 그런 패턴을 얻을 수가 있었습니다.
이제 컷오프를 적용하면 오답 문서를 제거할 뿐만 아니라 정답 문서가 상위로 부스팅되면서 NDCG가 오른 효과도 있었습니다.
마지막으로 저희가 임베딩과 SKT 임베딩, 컷오프를 동시에 적용했습니다. 그런데 두 가지의 목적이 달랐습니다. 임베딩은 검색 품질을 좋게 하는 것이 목적이었고, 컷오프는 정답 문서만 LLM에 보내서 할루시네이션을 줄이는 것이 목적이었습니다.
두 가지 기술의 시너지 효과를 확인해 보았습니다.
모든 조건이 다 동일한 상태에서 SK 임베딩과 어 임베딩만 적용했을 때, 그리고 컷오프만 적용했을 때, 둘 다 적용했을 때의 차이입니다. 정답 문서 영역 자체는 이제 그 상위 탑 5에 문서가 없다는 것이고요. 정답 문서가 그래서 SKT 임베딩만 적용했을 때 약 5.9% 정도가 나왔고, 검색 품질이 이 정도 수치가 나왔습니다. 컷오프만 진행했을 땐
어점수가 좀 내려가긴 했죠. 아무래도 밑의 점수를 끌어올리는 효과가 있다 보니까 그래서 점수가 나왔다면 이제 그 검색 품질은 크게 오히려 좀 더 낮아지는 모습을 볼 수 있었고요. 그런데 SKT 임베딩과 컷오프 2개를 동시에 적용하니 정답 문서 영역의 비율이 29%대로 확 내려갔고요. 그리고 검색 결과 품질도 최상의 결과를 얻을 수 있었습니다.
생각보다 이 두 조합의 시너지가 좀 큰 거예요. 그래서 그 케이스를 하나하나 봤더니 랭킹을 잘하고 임베딩을 잘해도 당연히 Top 5 내에 정답이 없는 케이스들이 있었죠. 정답 문서가 Top 5 밖에 있었는데 이제 컷오프를 하면서 정답 문서를 Top 5 내로 끌어올리는 경우가 있었고요. 그러면서 Top 5 내로 정답이 진입하는 그런 사례가 있었습니다.
꽤 많이 있었고요. 이렇게 서로 도메인에 적합한 임베딩과 컷오프를 조합하면 최종적으로 최적의 성능을 얻을 수 있었습니다.
이제 그동안 상담사 분들이 처음부터 저희랑 평가를 함께 진행해 왔는데 처음에는 되게 좀 부정적이었거든요. 근데 나중에 가서 마지막에 솔직히 이 정도로 품질이 좋아질지 몰랐다, 이런 평가를 주셨어요.
이제 그 평가에 부응하고 싶기도 했고 입증해 보고 싶기도 했고, 또 내심 과적합이 되지 않았을까 하는 우려도 있어서 정말 상담사들이 실제로 사용하는 그대로의 자유 질문으로 다시 한번 평가를 오픈 전에 했습니다. 그래서 답변 만족도는 이제 보시다시피 더 좋은 결과를 얻게 되었습니다. 이제 그렇다고 개선점이 없는 건 아닙니다.
초기 요구사항처럼 자율성과 예측적 행동, 학습 능력, 사회적 협력 등을 완전히 구현하지는 못했습니다. 아직도 해결해야 할 미션이 남아있습니다. 답변 만족도 4.2점의 문서를 보면, 검색 결과 Top 5에 정답 문서가 없는 경우들이 있었습니다. 이런 경우에는 특정 페이지로 이동해야 하는 등의 문제가 있었습니다. 그래서 그런 부분을 개선해야 합니다.
콘텐츠 생성이나 그런 운영으로 해소를 해야 되나라고 생각을 좀 하고 있고요. 두 번째는 검색 결과에 정답은 있지만 LLM을 잘 활용하지 못하는 부분이에요. 이 부분은 어림강의 그런 컷오프를 해서 정말 정답을 잘 이용하게 하거나, 아니면 추론 능력을 향상시켜야 할지 고민하고 있습니다. 예를 들어 복잡한 날짜 계산이나 여러 상황에서 최적의 조합을 제공하는 등입니다.
해야 된다던가 이제 그런 부분이 있는데 요즘은 이런 부분을 좀 고민을 하고 있습니다.