డేటా సెట్‌లలో ఖాళీలను పూరించడం లేదా అవుట్‌లైయర్‌లను గుర్తించడం — ఇది మెషీన్ లెర్నింగ్ అల్గారిథమ్ TabPFN డొమైన్, దీనిని ఫ్రీబర్గ్ విశ్వవిద్యాలయం నుండి ప్రొఫెసర్ డాక్టర్ ఫ్రాంక్ హట్టర్ నేతృత్వంలోని బృందం అభివృద్ధి చేసింది. ఈ కృత్రిమ మేధస్సు (AI) పెద్ద భాషా నమూనాలచే ప్రేరణ పొందిన అభ్యాస పద్ధతులను ఉపయోగిస్తుంది. TabPFN సింథటిక్ డేటా నుండి కారణ సంబంధాలను నేర్చుకుంటుంది మరియు అందువల్ల ఇప్పటి వరకు ఉపయోగించిన ప్రామాణిక అల్గారిథమ్‌ల కంటే సరైన అంచనాలను రూపొందించే అవకాశం ఉంది. ఫలితాలు జర్నల్‌లో ప్రచురించబడ్డాయి ప్రకృతి. యూనివర్శిటీ ఆఫ్ ఫ్రీబర్గ్‌తో పాటు, యూనివర్సిటీ మెడికల్ సెంటర్ ఫ్రీబర్గ్, చారిటే — బెర్లిన్ యూనివర్శిటీ మెడిసిన్, ఫ్రీబర్గ్ స్టార్టప్ ప్రియర్‌ల్యాబ్స్ మరియు ELLIS ఇన్స్టిట్యూట్ ట్యూబింగెన్ పాల్గొన్నాయి.

డేటా సెట్‌లు, అవి నిర్దిష్ట మందులు లేదా CERN వద్ద యాక్సిలరేటర్‌లలోని కణ మార్గాల ప్రభావాలపైనా, చాలా అరుదుగా పూర్తి లేదా దోష రహితంగా ఉంటాయి. అందువల్ల, వైజ్ఞానిక డేటా విశ్లేషణలో ముఖ్యమైన భాగం అవుట్‌లయర్‌లను గుర్తించడం లేదా తప్పిపోయిన విలువల కోసం అర్ధవంతమైన అంచనాలను అంచనా వేయడం. XGBoost వంటి ఇప్పటికే ఉన్న అల్గారిథమ్‌లు పెద్ద డేటా సెట్‌లతో బాగా పని చేస్తాయి, కానీ చిన్న డేటా వాల్యూమ్‌లతో తరచుగా అవి నమ్మదగినవి కావు.

TabPFN మోడల్‌తో, హట్టర్ మరియు అతని బృందం వాస్తవ దృశ్యాలపై రూపొందించబడిన కృత్రిమంగా సృష్టించబడిన డేటా సెట్‌లపై అల్గారిథమ్‌కు శిక్షణ ఇవ్వడం ద్వారా ఈ సమస్యను పరిష్కరిస్తుంది. దీన్ని చేయడానికి, శాస్త్రవేత్తలు డేటా పట్టికలను సృష్టిస్తారు, దీనిలో వ్యక్తిగత పట్టిక నిలువు వరుసలలోని ఎంట్రీలు కారణాంతరంగా లింక్ చేయబడతాయి. TabPFN అటువంటి 100 మిలియన్ సింథటిక్ డేటా సెట్‌లతో శిక్షణ పొందింది. ఈ శిక్షణ వివిధ కారణ సంబంధాలను అంచనా వేయడానికి మరియు దాని అంచనాల కోసం వాటిని ఉపయోగించడానికి మోడల్‌కు బోధిస్తుంది.

మోడల్ ప్రత్యేకించి 10,000 కంటే తక్కువ వరుసలు, అనేక అవుట్‌లయర్‌లు లేదా పెద్ద సంఖ్యలో తప్పిపోయిన విలువలతో కూడిన చిన్న పట్టికల కోసం ఇతర అల్గారిథమ్‌లను అధిగమిస్తుంది. ఉదాహరణకు, TabPFNకి మునుపు అత్యుత్తమ మోడల్ వలె అదే ఖచ్చితత్వాన్ని సాధించడానికి డేటాలో 50% మాత్రమే అవసరం. అదనంగా, TabPFN కొత్త రకాల డేటాను నిర్వహించడంలో మునుపటి అల్గారిథమ్‌ల కంటే మరింత సమర్థవంతంగా పని చేస్తుంది. ప్రతి డేటా సెట్ కోసం కొత్త లెర్నింగ్ ప్రాసెస్‌ను ప్రారంభించే బదులు, మోడల్‌ను సారూప్య డేటా సెట్‌లకు మార్చవచ్చు. ఈ ప్రక్రియ మెటాచే అభివృద్ధి చేయబడిన లామా వంటి ఓపెన్ వెయిట్‌లతో భాషా నమూనాల అనుసరణను పోలి ఉంటుంది. మోడల్ డేటా సెట్ నుండి సంభావ్యత సాంద్రతను పొందడం మరియు దాని నుండి సారూప్య లక్షణాలతో కొత్త డేటాను రూపొందించడం కూడా సాధ్యం చేస్తుంది.

‘టేబులర్ డేటా నుండి అంచనాలను విశ్వసనీయంగా మరియు త్వరగా లెక్కించడానికి TabPFNని ఉపయోగించగల సామర్థ్యం బయోమెడిసిన్ నుండి ఆర్థిక శాస్త్రం మరియు భౌతిక శాస్త్రం వరకు అనేక విభాగాలకు ప్రయోజనకరంగా ఉంటుంది’ అని హట్టర్ చెప్పారు. ‘TabPFN మెరుగైన ఫలితాలను వేగంగా అందిస్తుంది మరియు దీనికి కొన్ని వనరులు మరియు డేటా అవసరం కాబట్టి, చిన్న కంపెనీలు మరియు బృందాలకు అనువైనది.’ దీన్ని ఎలా ఉపయోగించాలో కోడ్ మరియు సూచనలను ఇక్కడ చూడవచ్చు. తదుపరి దశలో, పరిశోధకులు AIని మరింత అభివృద్ధి చేస్తారు, తద్వారా ఇది పెద్ద డేటా సెట్‌లతో కూడా సాధ్యమైనంత ఉత్తమమైన అంచనాలను చేయగలదు.



Source link