본문 바로가기

세상살이/IT

윌 스미스와 스파게티: 2024년을 강타한 이상한 AI 벤치마크들

반응형

2024년, 윌 스미스가 스파게티를 먹는 AI 비디오는 인기 밈이자 새로운 AI 비디오 생성기 성능의 비공식 벤치마크가 되었습니다. 더불어 AI가 Minecraft 구조물을 설계하거나 피셔너리, Connect 4 같은 게임을 하는 등 기이한 벤치마크들이 AI 커뮤니티의 주목을 받았습니다. 이러한 비전통적 벤치마크는 학술적 테스트와 달리 일반인에게 쉽게 다가가며 재미를 제공합니다.

 

 

윌 스미스와 스파게티 밈

회사에서 새로운 AI 비디오 생성기를 출시하면, 곧 누군가가 배우 윌 스미스가 스파게티를 먹는 비디오를 만들게 됩니다. 이 장면은 밈이자 벤치마크가 되었습니다. 새로운 비디오 생성기가 윌 스미스의 국수를 먹는 모습을 얼마나 현실적으로 재현할 수 있는지 보는 것입니다. 윌 스미스 본인도 2월에 인스타그램 게시물에서 이 트렌드를 패러디했습니다.

 

기이한 AI 벤치마크들

윌 스미스와 파스타는 2024년에 AI 커뮤니티를 사로잡은 여러 이상한 비공식 벤치마크 중 하나입니다.

16세 개발자는 AI가 Minecraft를 제어하고 구조물을 설계하는 능력을 테스트하는 앱을 만들었습니다. 영국의 한 프로그래머는 AI가 피셔너리와 Connect 4와 같은 게임을 서로 플레이하는 플랫폼을 만들었습니다.

 

기존의 학술적 테스트와 비교

AI 성능을 평가하는 더 학술적인 테스트들이 없는 것은 아닙니다. 그렇다면 왜 이상한 벤치마크가 떠올랐을까요?

우선, 산업 표준 AI 벤치마크는 일반인에게 많은 것을 말해주지 않습니다. 회사들은 종종 AI가 수학 올림피아드 시험에 대한 질문에 답하는 능력이나 박사 수준의 문제에 대한 타당한 해결책을 찾는 능력을 인용합니다. 하지만 대부분의 사람들은 챗봇을 이메일에 답하거나 기본적인 연구를 위해 사용합니다.

 

크라우드소싱된 산업 측정

크라우드소싱된 산업 측정이 반드시 더 낫거나 더 유익한 것은 아닙니다.

예를 들어, 많은 AI 애호가와 개발자들이 집착적으로 따르는 공개 벤치마크인 Chatbot Arena를 살펴보겠습니다. Chatbot Arena는 웹에서 누구나 특정 작업에서 AI가 얼마나 잘 수행하는지 평가할 수 있게 합니다. 하지만 평가자들은 대부분 AI 및 기술 산업 분야에서 온 사람들이며, 개인적이고 명확하지 않은 선호도에 따라 투표합니다.

 

평균 성능과 비교

와튼 스쿨의 관리 교수인 이선 몰릭은 최근 X에 많은 AI 산업 벤치마크의 또 다른 문제를 지적했습니다. 그것은 시스템의 성능을 평균 사람의 성능과 비교하지 않는다는 것입니다. 몰릭은 "의학, 법률, 자문의 품질 등 다양한 조직에 맞는 종합적이고 세밀한 성능 테스트가 이루어진 다른 벤치마크가 없다는 것은 유감입니다. 하지만 사람들은 실제 이러한 목적으로 시스템을 사용하고 있기 때문입니다."라고 썼습니다.

이는 각 분야에서 AI가 내놓은 결과가 얼마나 타당한지를 검증할 수 있는 벤치마크가 부족함을 그는 제시를 하고 있습니다.

 

이상한 AI 벤치마크의 지속 가능성

윌 스미스가 스파게티를 먹는 장면, Minecraft, Connect 4와 같은 이상한 AI 벤치마크는 확실히 경험적이지 않으며, 일반화하기도 어렵습니다. AI가 윌 스미스 테스트를 잘 통과한다고 해서 햄버거를 잘 생성할 것이라는 의미는 아닙니다. AI 벤치마크에 대해 논의한 한 전문가는 AI 커뮤니티가 좁은 영역의 능력보다 AI의 하류 영향에 집중해야 한다고 제안했습니다. 이는 합리적입니다. 하지만 이상한 벤치마크가 곧 사라지지 않을 것 같습니다. 그것들은 재미있을 뿐만 아니라 이해하기 쉽기 때문입니다. 이에 따라 복잡한 AI 기술을 소화 가능한 마케팅으로 압축하는 산업의 노력은 계속되고 있습니다.

 

 

이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다

반응형