소개
저희는 생성 AI를 활용하여 '내부 동스포츠 토토 베트맨에서 정보를 효율적으로 수집하고 싶다'는 내부 문제에 접근했습니다구체적으로 아래 이미지와 같이 질문을 입력하시면,우리는 사내 비디오 데이터베이스에서 비디오 시간별로 질문의 관련 부분을 추출하는 시스템을 만들었습니다(UI는 Streamlit이라는 라이브러리를 사용하여 생성됩니다)
실제 시스템 사용 화면질문을 입력하시면 해당 질문과 관련된 부분의 요약 및 내용이 관련순으로 출력됩니다
이 기사에서는 우리가 만든 시스템의 개요를 소개한 후,정확성을 높이기 위해 개선된 몇 가지 사항을 소개하고 싶습니다!
시스템 개요
이 시스템의 메커니즘은 "DB 생성 단계"와 "검색 단계"의 두 단계로 나뉩니다
DB 생성 단계
여기서는 아래와 같이 사내스포츠 토토 베트맨그룹으로 사내스포츠 토토 베트맨DB를 생성하겠습니다

이 생성 절차는 대략 세 부분으로 나눌 수 있습니다첫 번째 단계는 비디오를 주제 기반 비디오 세그먼트로 나누는 "비디오 분할"입니다예를 들어, 비디오 1의 1:00부터 1:30까지의 비디오 세그먼트 1은 A에 대해 설명하고, 비디오 1의 1:30부터 2:59까지의 비디오 세그먼트 2는 B에 대해 설명합니다
이번 대상으로 삼은 사내 스포츠 토토 베트맨은 주로 슬라이드 기반의 강의 스포츠 토토 베트맨이었기 때문에, 하나의 슬라이드가 하나의 주제를 설명한다는 가정하에 프레임간 픽셀값 차이가 큰 부분으로 나누었습니다그런데 이 시스템은 총 6~7시간 분량의 동스포츠 토토 베트맨을 약 500개 세그먼트로 나눈 동스포츠 토토 베트맨 세그먼트를 대상으로 합니다
두 번째 단계에서는 S2T 모델(Speech-to-Text 모델)을 사용하여 비디오 세그먼트의 오디오를 텍스트로 변환합니다
세 번째 단계는 임베딩 모델을 사용하여 텍스트 변환에서 임베딩을 생성하는 것입니다
위 작업 후 생성된 스포츠 토토 베트맨 세그먼트/녹화/삽입 쌍을 사내 스포츠 토토 베트맨 DB에 저장하겠습니다(특정 비디오 세그먼트에 대한 쌍으로 된 텍스트 변환/포함은 해당 세그먼트 내의 오디오에서 생성된 텍스트 변환/포함을 나타냅니다)
검색 단계
여기에서는 사용자가 실제로 입력한 질문에 대해 사내 동스포츠 토토 베트맨 DB에서 관련 동스포츠 토토 베트맨 세그먼트 및 녹취록을 추출하여 표시해 드립니다

사용자가 처음 질문을 하면 시스템은 임베딩 모델을 사용하여 질문에 대한 임베딩을 생성합니다
다음으로, 질문 임베딩과 사내 스포츠 토토 베트맨 DB의 임베딩 그룹 간의 연관성 정도를 내적(벡터 검색 참조)으로부터 계산합니다사내 비디오 DB에서 내부 곱 계산으로 식별된 관련성이 높은 임베딩과 쌍을 이루는 비디오 섹션 및 녹취록이 사용자에게 반환되어 표시됩니다
위의 작업을 통해 이 시스템은 사내 비디오 그룹의 질문과 관련된 부분을 사용자에게 제시할 수 있습니다실제로 여러 비디오 섹션과 스크립트가 추출되어 사용자에게 표시됩니다
정확도 향상을 위한 팁
이 시스템이 처음 구현되었을 때는 질문과 관련 없는 동스포츠 토토 베트맨만 표시했기 때문에 정확도가 낮았습니다따라서 우리는 아래 설명된 몇 가지 조치를 구현하여 정확도를 향상시킬 수 있었습니다
임베딩 모델 재검토
우리는 다양한 임베딩 모델로 이를 검증했으며 이 시스템에 가장 정확도가 높은 것으로 보이는 모델을 검색했습니다
이것이 정확도 향상에 가장 큰 기여를 했다고 생각합니다재심사 전 모델에서는 질문에 대한 답변으로 제시하고 싶은 부분은 관련성이 낮은 반면, "XX강의를 시작하려고 합니다 정말 감사합니다"와 같은 관련없는 부분이 있었습니다 관련성이 높은 경우가 많았습니다일본어로 미세 조정된 모델을 사용했을 때 정확도는 우리가 보여주고자 하는 동스포츠 토토 베트맨 세그먼트의 관련성이 상위 10위 안에 들었습니다
언어 모델별 재순위
임베딩 모델을 재검토함으로써 표시하려는 비디오 세그먼트의 관련성 순위가 향상되었습니다그런 다음 언어 모델이 각 비디오 세그먼트 및 쌍을 이루는 스크립트에 대한 질문의 관련성을 재평가하도록 했습니다
이를 통해 우리는 제시하려는 비디오 세그먼트의 관련성을 더욱 높게 평가하여 제시된 비디오 세그먼트의 정확성을 향상시킬 수 있습니다
질문 확장
사내 강의 동스포츠 토토 베트맨에는 종종 기술 용어가 포함되어 있으며 임베딩 모델은 기술 용어로만 구성된 질문(예: "CNN이란 무엇입니까?")에 대해 적절한 임베딩을 생성하지 못할 수 있습니다따라서 이 시스템에서는 사용자의 질문을 삽입하기 전에 언어 모델이 질문의 키워드를 일반 어휘를 사용하여 설명하고 질문과 설명을 연결하는 문장을 삽입하여 검색에 사용합니다
이제 우리는 기술 용어와 관련된 질문에 대해 어느 정도의 정확성을 기대할 수 있습니다(단, 설명을 생성하는 언어 모델은 기술 용어를 설명할 수 있는 충분한 지식이 있어야 한다는 제한이 있으므로 추가 개선이 필요할 수 있습니다)
마지막으로
기술 블로그를 끝까지 읽어주셔서 감사합니다
저희 팀은 AI 기술을 최대한 활용하여 고객의 요구에 부응하기 위해 끊임없이 새로운 도전을 하고 있습니다최근 계약 개발 프로젝트에서 LLM(Large-Scale Language Models)을 활용하는 솔루션을 개발해야 할 필요성이 증가하고 있습니다
AI 개발 경험이 있거나 LLM 개발에 관심이 있는 분은 지원해 주세요 여러분의 기술과 열정을 기다립니다
우리는 경력을 쌓을 새로운 졸업생을 찾고 있습니다!
자율주행/고급운전지원시스템(AD/ADAS), 의료기기, FA, 통신, 금융, 물류, 리테일, 디지털카메라 등 다양한 소프트웨어, 임베디드 디바이스, IoT, 웹시스템 등의 개발을 계약하고 있으며, 언어, OS, 비즈니스 지식의 확장이 가능합니다또한 주요 계약 프로젝트가 많기 때문에 업스트림 프로세스에 참여할 수 있습니다14668_14732

