Подсчет дублирующих данных, которые удовлетворяют условиям и удаляют данные

Файл образца загружен в MediaFile .

Исходная информация

Раздел 1: В файле примера «Лист1»

a. Values in “Column A” are the original name. For example from Cell A1: “>hg19_refGene_NM_000392_0 range=chr10:101542463-101542634 5'pad=0 3'pad=0 strand=+ repeatMasking=none” b. Values in “Column B” is a value that correspond to values in Column A, for example from Cell B1 which correspond to value in Cell A1: “ABCC2” 

Раздел 2: В образце файла «Sheet2»

 a. In the Sheet2, the values from Sheet1 have been separated to clarify the data because in Sheet1, everything is packed in one cell. b. Column A represents “GENE”, which refers to the value in Column B in Sheet1, for example, “ABCC2” from Section 1 of this article. c. Column B represents “refGENE”, an example of refGENE is “NM000392” which come from the original name from “Sheet1” d. Column C represents “CHROMOSOME”, this is another value that was derived from Values in Column A of Sheet1, for example, “chr10” e. Similar Idea, “EXON START” came from the original name in Column A of Sheet1, for example “101542463” f. And “EXON END” came from the original name in Column A of Sheet1, for example “101542634” 

Задача заключается в разработке программы, которая может решить следующие требования:

Требование 1: подсчет для каждого гена, количество раз, когда наблюдается каждый рефген, например:

Таблица Пример refGENE COUNT NM000927 29 NM00078 32 NM00042 32. , , , , ,

введите описание изображения здесь

Примечание. То, как я это делаю, – использовать SUMPRODUCT в Excel, однако я не знаю, как положить все в простую таблицу.

Требование 2: для этого требуется сравнить значения в двух разных строках. Обратите внимание, что для этого требуется использовать оригинальное имя из «Sheet1». Не используйте выделенное значение из «Sheet2». В основном, это запрос каждой строки, если Gene, Chromosome, EXONSTART, EXON END одинаковы, а затем удаляют строки с наименее частым refgene. Ниже я объясню ниже.

В «Shee1» есть «Original Name» и «GENE»,

Шаг 1: Сравните, если значения в столбце B одинаковы. Например, при сравнении строк 1 и строки 2 есть ABCC2 и ABCC2 . Это удовлетворяет условию, поэтому переходите к шагу 2, иначе продолжайте сравнивать GENE из разных строк.

Шаг 2. Сравните значения «chr» из разных строк, в том же примере с предыдущего шага. Строка 1 имеет chr10 а строка 2 имеет chr10 , так как они chr10 до следующего шага, иначе перейдите.

Шаг 3: Теперь сравните «exon start» – число выглядит как 101542463 в строке 1, а число в строке 2 выглядит как 101544365 , теперь они не совпадают, сохраните файл и перейдите к нему. Представьте, если числа совпадают, то продолжайте сравнивать «конец экзона», который является шагом 4.

Шаг 4: Предположим, что «запуск exon» из двух разных строк один и тот же, а затем сравните «конец экзона». Число из строки 1 выглядит как 101542634 а число «exon end» из строки 2 выглядит как 101544538 . В том же состоянии, что и выше, если они разные, оставьте файл в покое и продолжайте сравнивать следующий GENE.

Вот часть, которая требует внимания, если они одинаковы, это означает, что «GENE» одинаковы, «chr» одинаковы, «exon start» и «endon end» одинаковы. В конце концов, все одно и то же, это означает, что существует дублированная строка. Теперь дублированные строки будут удалены. Но каково условие удаления строки. Это свяжет нас с задачей, которую мы решили из требования 1. Помните, что количество вхождений подсчитано для всех рефгенов? Напомним 29 раз для NM000927 , 32 раза для Nm00078 . Строки «GENE», которые нужно удалить, это те, которые содержат NM000927 .

Но сохраните запись для всех удаленных данных и всех остальных данных, желательно с таблицей.

Я согласен с @Siddharth для подсчета экземпляров, т. GENE с Row Labels = GENE , Σ Values ​​= Count of refGene .

Возможно, решение «дубликатов» будет (по крайней мере, начинаться с) вставить строку вверху, выбрать столбец A, сортировать и фильтровать / расширенный / копировать в другое место = (скажем) C1 / tick Только уникальные записи / OK. Это должно дать вам список, который на 35 строк меньше, чем вы начали.

Чтобы определить, какие строки дублируются, скопируйте столбец A в другой столбец (скажем D), замените > (ничем), затем введите =COUNTIF(D:D,D2) в E2 и дважды щелкните по нижнему углу ячейки. 1 = уникальный, все остальное – количество экземпляров.

  • Экран сводной таблицы Excel не отображается должным образом
  • Таблица сводных данных Excel: переместить поля значений из строки в столбец
  • Экземпляр Excel, запрашивающий учетные данные входа в SQl
  • Сводный стол заводит меня орехами, переворачивая цифры до дат
  • Значение по умолчанию для фильтра отчета о сводной таблице closedxml
  • Добавить новый столбец в сводную таблицу с помощью VBA
  • Как я могу покрасить все связанные строки и столбцы, а не просто их подмножество (Aspose Cells)?
  • Масштабирование формулы Power Pivot Excel
  • DAX: данные цвета, основанные на значении
  • Как найти группы людей, которые участвовали в нескольких мероприятиях вместе?
  • Как использовать базу данных Access с запросом в качестве сводной таблицы в Excel
  • Interesting Posts

    как изменить значение ячейки в диаграмме, которая встроена в документ слова с использованием C #

    Умножение 2 массивов с различным количеством строк и столбцов в Excel

    Обновление данных RealTime в Excel в Matlab

    Использование Interop с C #, Excel Сохранить изменение оригинала. Как это отрицать?

    экспорт excel несколько таблиц в слово

    excel – не изменять размер ячейки после копирования-вставки

    Суммирование динамического диапазона в макросе. Как суммировать количество строк при каждом изменении имени клиента?

    Функция Excel, которая возвращает дату в понедельник следующей недели

    Как улучшить рабочий процесс в Excel beforeClose () событие, скрывающее все листы как xlVeryHidden?

    Простой макрос excel

    Найти дубликаты записей при загрузке файла Excel в asp.net?

    Как суммировать рядовые итоговые суммы соответствующих полей из нескольких сводных таблиц на разных листах?

    vba для перемещения нескольких строк данных на уникальный идентификатор в заданное число столбцов

    Вычисление процента родительской общей суммы в Excel Сводная таблица

    Excel Macro Скрыть столбцы на основе строки

    Давайте будем гением компьютера.