Sita de evaluare verifica daca implementarea respecta contractele arhitecturale end-to-end: ingestie in Sys2DSL, encodare geometrica determinista, organizare in teorii, reasoning deductiv/abductiv/analogic si raspuns explicabil. Fiecare caz este o poveste scurta in limbaj natural care se transforma in fapte asteptate si interogari verificate.

Link direct catre suita: evalsuite/ (README, runSuite.js, rezultate)

Comenzi rapide:

node evalsuite/runSuite.js --dry-run
node evalsuite/runSuite.js --case 03_deontic_reasoning --verbose

Cum este structurata suita

Fiecare folder numerotat contine un case.json cu trei blocuri esentiale: theory.natural_language (textul brut de invatat), theory.expected_facts (faptele pe care encoderul trebuie sa le derive) si queries (intrebari in limbaj natural cu raspunsuri asteptate si nivel de adevar). Optional, o intrebare poate defini un bloc counterfactual pentru a activa o teorie temporara. Rularea suitei scrie un results.json sumar, util pentru CI.

Cazuri ilustrative

01_taxonomy - lanturi IS_A tranzitive

02_physical_properties - stari de agregare si comparatii

03_deontic_reasoning - permisiuni si interdictii

04_counterfactual - scenarii what-if

05_abductive - cea mai buna explicatie

06_analogy - transfer structural

07_conflict_detection - disjunctii si contradictii

08_multi_theory - comutare intre contexte

Ce ar trebui sa verifici cand rulezi sita