డేటా సెట్లలో ఖాళీలను పూరించడం లేదా అవుట్లైయర్లను గుర్తించడం — ఇది మెషీన్ లెర్నింగ్ అల్గారిథమ్ TabPFN డొమైన్, దీనిని ఫ్రీబర్గ్ విశ్వవిద్యాలయం నుండి ప్రొఫెసర్ డాక్టర్ ఫ్రాంక్ హట్టర్ నేతృత్వంలోని బృందం అభివృద్ధి చేసింది. ఈ కృత్రిమ మేధస్సు (AI) పెద్ద భాషా నమూనాలచే ప్రేరణ పొందిన అభ్యాస పద్ధతులను ఉపయోగిస్తుంది. TabPFN సింథటిక్ డేటా నుండి కారణ సంబంధాలను నేర్చుకుంటుంది మరియు అందువల్ల ఇప్పటి వరకు ఉపయోగించిన ప్రామాణిక అల్గారిథమ్ల కంటే సరైన అంచనాలను రూపొందించే అవకాశం ఉంది. ఫలితాలు జర్నల్లో ప్రచురించబడ్డాయి ప్రకృతి. యూనివర్శిటీ ఆఫ్ ఫ్రీబర్గ్తో పాటు, యూనివర్సిటీ మెడికల్ సెంటర్ ఫ్రీబర్గ్, చారిటే — బెర్లిన్ యూనివర్శిటీ మెడిసిన్, ఫ్రీబర్గ్ స్టార్టప్ ప్రియర్ల్యాబ్స్ మరియు ELLIS ఇన్స్టిట్యూట్ ట్యూబింగెన్ పాల్గొన్నాయి.
డేటా సెట్లు, అవి నిర్దిష్ట మందులు లేదా CERN వద్ద యాక్సిలరేటర్లలోని కణ మార్గాల ప్రభావాలపైనా, చాలా అరుదుగా పూర్తి లేదా దోష రహితంగా ఉంటాయి. అందువల్ల, వైజ్ఞానిక డేటా విశ్లేషణలో ముఖ్యమైన భాగం అవుట్లయర్లను గుర్తించడం లేదా తప్పిపోయిన విలువల కోసం అర్ధవంతమైన అంచనాలను అంచనా వేయడం. XGBoost వంటి ఇప్పటికే ఉన్న అల్గారిథమ్లు పెద్ద డేటా సెట్లతో బాగా పని చేస్తాయి, కానీ చిన్న డేటా వాల్యూమ్లతో తరచుగా అవి నమ్మదగినవి కావు.
TabPFN మోడల్తో, హట్టర్ మరియు అతని బృందం వాస్తవ దృశ్యాలపై రూపొందించబడిన కృత్రిమంగా సృష్టించబడిన డేటా సెట్లపై అల్గారిథమ్కు శిక్షణ ఇవ్వడం ద్వారా ఈ సమస్యను పరిష్కరిస్తుంది. దీన్ని చేయడానికి, శాస్త్రవేత్తలు డేటా పట్టికలను సృష్టిస్తారు, దీనిలో వ్యక్తిగత పట్టిక నిలువు వరుసలలోని ఎంట్రీలు కారణాంతరంగా లింక్ చేయబడతాయి. TabPFN అటువంటి 100 మిలియన్ సింథటిక్ డేటా సెట్లతో శిక్షణ పొందింది. ఈ శిక్షణ వివిధ కారణ సంబంధాలను అంచనా వేయడానికి మరియు దాని అంచనాల కోసం వాటిని ఉపయోగించడానికి మోడల్కు బోధిస్తుంది.
మోడల్ ప్రత్యేకించి 10,000 కంటే తక్కువ వరుసలు, అనేక అవుట్లయర్లు లేదా పెద్ద సంఖ్యలో తప్పిపోయిన విలువలతో కూడిన చిన్న పట్టికల కోసం ఇతర అల్గారిథమ్లను అధిగమిస్తుంది. ఉదాహరణకు, TabPFNకి మునుపు అత్యుత్తమ మోడల్ వలె అదే ఖచ్చితత్వాన్ని సాధించడానికి డేటాలో 50% మాత్రమే అవసరం. అదనంగా, TabPFN కొత్త రకాల డేటాను నిర్వహించడంలో మునుపటి అల్గారిథమ్ల కంటే మరింత సమర్థవంతంగా పని చేస్తుంది. ప్రతి డేటా సెట్ కోసం కొత్త లెర్నింగ్ ప్రాసెస్ను ప్రారంభించే బదులు, మోడల్ను సారూప్య డేటా సెట్లకు మార్చవచ్చు. ఈ ప్రక్రియ మెటాచే అభివృద్ధి చేయబడిన లామా వంటి ఓపెన్ వెయిట్లతో భాషా నమూనాల అనుసరణను పోలి ఉంటుంది. మోడల్ డేటా సెట్ నుండి సంభావ్యత సాంద్రతను పొందడం మరియు దాని నుండి సారూప్య లక్షణాలతో కొత్త డేటాను రూపొందించడం కూడా సాధ్యం చేస్తుంది.
‘టేబులర్ డేటా నుండి అంచనాలను విశ్వసనీయంగా మరియు త్వరగా లెక్కించడానికి TabPFNని ఉపయోగించగల సామర్థ్యం బయోమెడిసిన్ నుండి ఆర్థిక శాస్త్రం మరియు భౌతిక శాస్త్రం వరకు అనేక విభాగాలకు ప్రయోజనకరంగా ఉంటుంది’ అని హట్టర్ చెప్పారు. ‘TabPFN మెరుగైన ఫలితాలను వేగంగా అందిస్తుంది మరియు దీనికి కొన్ని వనరులు మరియు డేటా అవసరం కాబట్టి, చిన్న కంపెనీలు మరియు బృందాలకు అనువైనది.’ దీన్ని ఎలా ఉపయోగించాలో కోడ్ మరియు సూచనలను ఇక్కడ చూడవచ్చు. తదుపరి దశలో, పరిశోధకులు AIని మరింత అభివృద్ధి చేస్తారు, తద్వారా ఇది పెద్ద డేటా సెట్లతో కూడా సాధ్యమైనంత ఉత్తమమైన అంచనాలను చేయగలదు.