AI는 코딩이나 팟캐스트 생성에서 뛰어날 수 있지만, 고급 역사 시험에서는 약점을 드러냈습니다. 연구팀은 GPT-4, Llama, Gemini 모델을 테스트하고, 정확도가 46%에 불과하다는 결과를 발표했습니다. 이는 랜덤 추측보다 약간 더 나은 수준에 불과합니다. 향후 개선 방향으로 더 많은 데이터와 복잡한 질문을 포함한 벤치마크 개선 계획이 있습니다.
AI, 역사적 질문에서의 약점 드러나다
최근 연구 결과에 따르면, AI는 코딩이나 팟캐스트 생성과 같은 특정 작업에서는 뛰어날 수 있지만, 고급 수준의 역사 시험을 통과하는 데에는 어려움을 겪고 있습니다. 이 연구는 AI의 역사적 질문 답변 능력을 평가하는 새로운 벤치마크를 통해 이루어졌습니다.
새로운 역사적 질문 벤치마크 개발
연구팀은 OpenAI의 GPT-4, Meta의 Llama, Google의 Gemini 등 세 가지 주요 대형 언어 모델(LLM)을 역사적 질문으로 테스트하는 새로운 벤치마크 Hist-LLM을 만들었습니다. 이 벤치마크는 Seshat Global History Databank에 기반하여 답변의 정확성을 테스트합니다. 이는 광범위한 역사 지식을 포함한 데이터베이스로, 고대 이집트의 지혜의 여신 이름을 따왔습니다.
실망스러운 결과
오스트리아의 연구 기관 Complexity Science Hub(CSH)에 소속된 연구자들에 따르면, 지난달 NeurIPS AI 컨퍼런스에서 발표된 결과는 실망스러웠습니다. 가장 성능이 좋은 모델은 GPT-4 Turbo였지만, 정확도는 약 46%에 불과했습니다. 이는 랜덤 추측보다 약간 더 나은 수준에 불과합니다.
역사적 질문에서의 LLM 오류 분석
연구자들은 LLM이 역사적 질문에서 오류를 범하는 이유를 분석했습니다.
예를 들어, GPT-4 Turbo에게 고대 이집트의 특정 시기에 스케일 갑옷이 존재했는지 물었을 때, LLM은 존재한다고 답했지만, 실제로는 1,500년 후에 등장했습니다. 이는 LLM이 더 두드러진 역사 데이터를 기반으로 추론하는 경향이 있기 때문이라고 합니다. 또한, OpenAI와 Llama 모델은 사하라 사막 이남의 아프리카 지역에서 더 나쁜 성능을 보이는 등 잠재적인 편향이 확인되었습니다.
향후 개선 가능성과 연구 방향
연구를 이끈 피터 터친 교수는 "LLM은 특정 도메인에서 인간을 대체할 수 없습니다"라고 말했지만, 연구자들은 여전히 LLM이 미래에 역사 연구에 도움이 될 수 있다고 희망하고 있습니다. 연구팀은 더 많은 데이터를 포함하고 더 복잡한 질문을 추가하여 벤치마크를 개선할 계획입니다.
이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다
'세상살이 > IT' 카테고리의 다른 글
Samsung Unpacked에서 초슬림 Galaxy S25 Edge 공개: 0.8mm 두께 감소로 기대감 상승 (2) | 2025.01.23 |
---|---|
Microsoft와 OpenAI의 클라우드 협력 변화: 새로운 인프라 계약 및 기술 파트너십 (0) | 2025.01.23 |
OpenAI의 봇, 작은 회사의 웹사이트를 마치 DDoS 공격처럼 무너뜨리다 (1) | 2025.01.11 |
AI 파멸 경고와 실리콘 밸리의 대응: 2024년의 주요 사건들 (3) | 2025.01.02 |
윌 스미스와 스파게티: 2024년을 강타한 이상한 AI 벤치마크들 (2) | 2025.01.01 |