
Cleanlab es independiente del modelo de datos y del marco de datos, un aspecto poderoso de su diseño. No importa si estás corriendo PyTorchOpenAI, scikit-learn o flujo tensor; Cleanlab puede funcionar con cualquier clasificador. Sin embargo, tiene flujos de trabajo específicos para tareas comunes como clasificación de tokens, etiquetado múltiple, regresión, segmentación de imágenes y detección de objetos, detección de valores atípicos, etc. Vale la pena leer el conjunto de ejemplo para comprobar usted mismo cómo funciona el proceso y qué resultados puede esperar.
serpiente
Los flujos de trabajo de ciencia de datos son difíciles de configurar, y eso es aún más difícil de hacer de manera consistente y predecible. serpiente fue creado para automatizar el proceso, configurando flujos de trabajo de análisis de datos de manera que garanticen que todos obtengan los mismos resultados. Muchos proyectos de ciencia de datos existentes dependen de Snakemake. Cuantas más partes móviles tenga en su flujo de trabajo de ciencia de datos, más probabilidades tendrá de beneficiarse de la automatización de ese flujo de trabajo con Snakemake.
Los flujos de trabajo de Snakemake se parecen a los flujos de trabajo de GNU Make: usted define los pasos del flujo de trabajo con reglas, que especifican qué reciben, qué emiten y qué comandos ejecutar para lograrlo. Las reglas de flujo de trabajo pueden ser multiproceso (suponiendo que eso les brinde algún beneficio) y los datos de configuración se pueden canalizar desde JSON o YAML archivos. También puede definir funciones en sus flujos de trabajo para transformar los datos utilizados en las reglas y escribir las acciones realizadas en cada paso en los registros.




