Математики розробили складні задачі для перевірки міркування Gemini, Claude та GPT-4o — вони провалили майже всі тести