Tonic apuesta a que los datos sintéticos son el nuevo big data para resolver la escalabilidad y la seguridad

Big data es una farsa. Desde hace años, se nos ha dicho que todas las empresas deberían guardar hasta el último bocado de escape digital en algún tipo de base de datos, para que la dirección no pierda algo de inteligencia competitiva contra … un competidor o algo así.

Sin embargo, solo hay un problema con los macrodatos: suena enorme.

Procesar petabytes de datos para generar información empresarial es caro y requiere mucho tiempo. Peor aún, todos esos datos que andan por ahí pintan un gran objetivo rojo brillante en la parte posterior de la empresa para cada grupo de hackers del mundo. Los macrodatos son costosos de mantener, costosos de proteger y costosos de mantener en privado. Y, después de todo, es posible que el resultado final no sea tanto: a menudo, los conjuntos de datos bien seleccionados y seleccionados pueden proporcionar una visión más rápida y mejor que una cantidad infinita de datos sin procesar.

¿Qué debe hacer una empresa? Bueno, necesitan un tónico para mejorar sus pecados de big data.

Tonic es una plataforma de “datos sintéticos” que transforma los datos sin procesar en conjuntos de datos privados y más manejables que pueden utilizar los ingenieros de software y los analistas comerciales. En el camino, los algoritmos de Tonic desidentifican los datos originales y crean conjuntos de datos sintéticos pero estadísticamente idénticos, lo que significa que la información personal no se comparte de manera insegura.

Por ejemplo, una plataforma de compras en línea tendrá un historial de transacciones de sus clientes y lo que compraron. Compartir esos datos con todos los ingenieros y analistas de la empresa es peligroso, ya que ese historial de compras podría tener detalles de identificación personal a los que nadie sin necesidad de conocerlos debería tener acceso. Tonic podría tomar esos datos de pagos originales y transformarlos en un nuevo conjunto de datos más pequeño con exactamente las mismas propiedades estadísticas, pero no vinculado a los clientes originales. De esa manera, un ingeniero podría probar su aplicación o un analista podría probar su campaña de marketing, todo sin generar preocupaciones sobre la privacidad.

Los datos sintéticos y otras formas de manejar la privacidad de grandes conjuntos de datos han atraído la atención masiva de los inversores en los últimos meses. Informamos la semana pasada sobre Skyflow, que planteó una ronda para utilizar el cifrado polimórfico para garantizar que los empleados solo tengan acceso a los datos que necesitan y no puedan acceder al resto. BigID tiene una visión más general de solo rastrear qué datos están, dónde y quién debería tener acceso a ellos (es decir, gobierno de datos) según las leyes de privacidad locales.

El enfoque de Tonic tiene la ventaja de ayudar a resolver no solo los problemas de privacidad, sino también los desafíos de escalabilidad a medida que los conjuntos de datos se hacen cada vez más grandes. Esa combinación ha llamado la atención de los inversores: esta mañana, la compañía anunció que ha recaudado $ 8 millones en una Serie A liderada por Glenn Solomon y Oren Yunger de GGV, este último de los cuales se unirá al directorio de la compañía.

La compañía fue fundada en 2018 por un grupo de fundadores: el CEO Ian Coe trabajó con el COO Karl Hanson (se conocieron por primera vez en la escuela secundaria también) y el CTO Andrew Colombi mientras todos trabajaban en Palantir, y Coe también trabajó anteriormente con la compañía. jefe de ingeniería Adam Kamor mientras trabajaba en Tableau. Esa capacitación en algunas de las empresas de infraestructura de datos más grandes y exitosas del Valle forma parte del ADN del producto de Tonic.

El equipo de Tonic. Foto vía Tonic.

Coe explicó que Tonic está diseñado para prevenir algunas de las fallas de seguridad más obvias que surgen en la ingeniería de software moderna. Además de ahorrar tiempo de canalización de datos para los equipos de ingeniería, Tonic “también significa que no les preocupa que los datos confidenciales pasen de los entornos de producción a entornos inferiores que siempre son menos seguros que sus sistemas de producción”.

Dijo que la idea de lo que se convertiría en Tonic se originó durante la resolución de problemas en un cliente bancario de Palantir. Necesitaban datos para resolver un problema, pero esos datos eran muy sensibles, por lo que el equipo terminó usando datos sintéticos para salvar la diferencia. Coe quiere expandir la utilidad de los datos sintéticos a más personas de una manera más rigurosa, particularmente dados los cambios legales en estos días. “Creo que la presión regulatoria realmente está empujando a los equipos a cambiar sus prácticas” en torno a los datos, señaló.

La clave de la tecnología de Tonic es su subsetter, que evalúa los datos sin procesar y comienza a definir estadísticamente las relaciones entre todos los registros. Parte de ese análisis se automatiza según las fuentes de datos, y cuando no se puede automatizar, la interfaz de usuario de Tonic puede ayudar a un científico de datos a incorporar conjuntos de datos y definir esas relaciones manualmente. Al final, Tonic genera estos conjuntos de datos sintéticos utilizables por todos los clientes de esos datos dentro de una empresa.

Con la nueva ronda de financiación, Coe quiere seguir duplicando la facilidad de uso y la incorporación y proselitizando el beneficio de este modelo para sus clientes. “De muchas maneras, estamos creando una categoría, y eso significa que la gente tiene que entender y también obtener el valor [and have] la mentalidad de adopción temprana ”, dijo.

Además del inversor líder GGV, participaron en la ronda Bloomberg Beta, Xfund, Heavybit y Silicon Valley CISO Investments, así como los ángeles Assaf Wand y Anthony Goldbloom.

Source link