AI, 역사적 질문에서의 약점: GPT-4, Llama, Gemini 모델의 성과 분석
AI는 코딩이나 팟캐스트 생성에서 뛰어날 수 있지만, 고급 역사 시험에서는 약점을 드러냈습니다. 연구팀은 GPT-4, Llama, Gemini 모델을 테스트하고, 정확도가 46%에 불과하다는 결과를 발표했습니다. 이는 랜덤 추측보다 약간 더 나은 수준에 불과합니다. 향후 개선 방향으로 더 많은 데이터와 복잡한 질문을 포함한 벤치마크 개선 계획이 있습니다. AI, 역사적 질문에서의 약점 드러나다최근 연구 결과에 따르면, AI는 코딩이나 팟캐스트 생성과 같은 특정 작업에서는 뛰어날 수 있지만, 고급 수준의 역사 시험을 통과하는 데에는 어려움을 겪고 있습니다. 이 연구는 AI의 역사적 질문 답변 능력을 평가하는 새로운 벤치마크를 통해 이루어졌습니다. 새로운 역사적 질문 벤치마크 개발연구팀은 OpenAI의 G..
더보기
<--! 네이버 애널리틱스 시작작-->
<--! 네이버 애널리틱스 끝끝-->